我需要了解更多关于您的调研需求,以便提供更精确的研究报告。根据搜索结果,我注意到有一些与tool calling相关的数据集,如danilopeixoto/pandora-tool-calling和glaiveai/glaive-function-calling-v2。为了更好地满足您的需求,请问:
您是否需要特别关注某些类型的用户需求场景(如信息检索、数据分析、日程安排等)的toolcall计划数据集?
您对数据集的格式有什么特定要求吗?例如是否需要JSON格式的toolcall参数、是否需要包含执行结果等?
除了已提到的pandora-tool-calling和glaive-function-calling-v2,您是否已经了解过其他相关数据集,需要我排除在调研范围外?
好的,收到您的调研任务。
为了系统性地完成您的调研,我将分阶段进行,从广泛搜集到深度分析,最终形成一份全面的研究报告。
此阶段旨在全面搜集与“Tool Calling”或“Function Calling”相关的开源数据集线索。
arxiv.org
, paperswithcode.com
,查找发布相关数据集的研究论文。github.com
,寻找项目代码库中包含的数据集文件或生成脚本。huggingface.co/datasets
, kaggle.com
,直接搜索公开的数据集。此阶段将对初步搜集到的线索进行筛选,并对高度相关的候选数据集进行深入分析。
此阶段将所有有效信息进行结构化整合,形成最终的研究报告。
现在开始执行:
Search
tool calling dataset function calling dataset open source我将继续调研与"根据用户输入,输出一个toolcall计划来完成用户需求"相关的开源数据集。让我先查找更多相关信息,特别是在Hugging Face上的数据集。
Search
huggingface tool calling dataset function calling dataset open source让我继续搜索更具体的与"tool calling"或"function calling"相关的开源数据集,特别是那些能够根据用户输入生成工具调用计划的数据集。
Search
glaiveai function calling dataset huggingface tool calling dataset现在我将查看更多关于Salesforce/xlam-function-calling-60k数据集的信息,这是我在之前搜索中发现的一个与工具调用相关的数据集。
Search
Salesforce xlam-function-calling-60k dataset APIGen function calling已掌握的信息
glaiveai/glaive-function-calling-v2
和 Salesforce/xlam-function-calling-60k
。这两个数据集均托管于Hugging Face,并被广泛用于训练和评估大模型的工具调用(Function Calling)能力。glaive-function-calling-v2
数据集中的样本明确展示了从用户问题到<functioncall> {"name": "...", "arguments": "{...}"}
的转换。Salesforce/xlam-function-calling-60k
数据集是通过一个名为 APIGen
的自动化流程生成的,该流程包含格式检查、函数实际执行和语义验证三个阶段,确保了数据的高质量和可靠性。该数据集涵盖了21个类别的3600多个可执行API。下一步行动计划
基于已取得的显著进展,后续计划将聚焦于对已发现的核心数据集进行深度剖析和对比,并最终整合为一份结构清晰、内容详实的调研报告。
glaiveai/glaive-function-calling-v2
和 Salesforce/xlam-function-calling-60k
这两个数据集。重点是分析其数据结构,明确每个字段的含义,特别是用户输入、工具/API定义、生成的调用计划(单步/多步)、以及参数构造的具体格式。主要信息源将是它们在Hugging Face上的主页、相关的论文(如APIGen的论文)和项目网站。Search
glaiveai/glaive-function-calling-v2 dataset structure format example让我继续深入了解glaive-function-calling-v2数据集的结构,以及查看更多样本示例。
这个网页展示了Hugging Face上的"glaiveai/glaive-function-calling-v2"数据集,该数据集包含约113,000行数据,专注于函数调用训练数据。数据集采用对话格式,每条记录包含系统指令和对话内容两个主要字段。系统指令定义了助手可用的函数及其参数结构,而对话内容则展示了用户与AI助手之间的交互,包括函数调用过程。数据集中的函数涵盖多种实用功能,如汇率转换、新闻获取、密码生成、贷款计算、温度转换等。每个对话示例展示了完整的交互流程:用户请求、助手回应、函数调用(使用标记)、函数返回结果及助手最终响应。数据集还包含了助手无法执行请求时的适当拒绝示例,以及不需要函数调用的普通对话示例。
数据集"glaiveai/glaive-function-calling-v2"的结构如下:
基本信息:
字段结构:
数据集主要包含两个字段:
system
:字符串类型,平均长度76字符,最大长度5.96k字符chat
:字符串类型,平均长度174字符,最大长度16.4k字符数据格式:
system
字段包含系统指令,定义了AI助手可用的函数及其参数结构chat
字段包含用户与AI助手之间的对话内容,包括函数调用和响应函数调用格式:
<functioncall>
标记FUNCTION RESPONSE:
标记<|endoftext|>
标记样本示例:
示例1:汇率转换函数
示例2:新闻获取函数(包含函数调用)
数据集中的每个样本都遵循这种结构,提供了丰富的函数调用训练数据,涵盖了多种实用功能和交互场景。
无与问题相关的网页链接。
无与问题相关的图片。
现在我将查看Salesforce/xlam-function-calling-60k数据集的详细结构和示例,以便与glaive-function-calling-v2进行对比分析。
Search
Salesforce xlam-function-calling-60k dataset structure format example我需要更多关于Salesforce/xlam-function-calling-60k数据集的具体结构和格式信息。让我尝试访问其项目主页获取更详细的信息。
APIGen是一个自动化数据生成管道,旨在为函数调用应用程序生成可验证的高质量数据集。该框架收集了21个不同类别的3673个可执行API,通过三阶段验证确保数据质量:格式检查、实际函数执行和语义验证。使用APIGen生成的数据集训练的模型,即使只有7B参数,也能在Berkeley Function-Calling Benchmark上实现最先进的性能,超越多个GPT-4模型。此外,他们的1B模型表现优于GPT-3.5-Turbo和Claude-3 Haiku。APIGen框架注重数据质量、多样性和收集可扩展性,采用标准化JSON格式处理API、函数调用和生成器输出,使系统能够扩展到多种API源。该项目发布了包含60,000个高质量条目的数据集,旨在推进函数调用代理领域的发展。
APIGen数据集采用标准化的JSON格式,这种结构化方法为API、函数调用和生成器输出提供了统一的表示方式。数据集的主要特点如下:
数据格式:数据以JSON格式存储,包含"query"和"answer"字段。每个回答是以JSON格式化的函数调用。
数据结构:数据集按照四种主要查询风格进行分类:
API来源:数据集包含两种类型的API:
数据分布:API分布在21个不同类别中,涵盖技术、社会科学、教育和体育等多个领域。
数据验证:每个数据点都经过三阶段验证:
数据示例:网页中展示了JSON格式的示例,显示了API定义和函数调用的标准化表示方法。这种格式使得系统能够有效地验证生成器输出是否包含所有必要字段,并检查函数调用的参数是否正确。
数据规模:发布的数据集包含约60,000个高质量函数调用数据点,由Mixtral-8x22B-Inst和DeepSeek-V2-Chat(236B)两个强大模型生成。
通过率统计:不同模型生成的数据通过验证的比例不同,DeepSeek-V2-Chat(236B)的通过率最高,达到84.15%,而较小的模型通过率较低,表明在使用较弱模型生成数据时,严格的验证过程非常重要。
这种结构化的数据集设计确保了数据的高质量、多样性和可扩展性,使其成为训练函数调用模型的理想资源。
Title: APIGen框架概述
Content: 展示了APIGen框架的整体架构和工作流程
Source: APIGen研究团队
Link: https://apigen-pipeline.github.io/img/overview.jpg
Title: JSON格式示例
Content: 展示了APIGen使用的标准化JSON格式示例,包括API定义和函数调用的格式
Source: APIGen研究团队
Link: https://apigen-pipeline.github.io/img/json_format_example.png
Title: 数据集API类别分布
Content: 饼图展示了3,673个可执行API在21个不同类别中的分布情况
Source: APIGen研究团队
Link: https://apigen-pipeline.github.io/img/dataset_pie_chart.png
Title: Berkeley Function-Calling Leaderboard性能比较
Content: 表格展示了不同模型在Berkeley Function-Calling Leaderboard上的性能比较
Source: APIGen研究团队
Link: https://github.com/apigen-pipeline/apigen-pipeline.github.io/blob/main/img/table-result-0718.png?raw=true
已掌握的信息
glaiveai/glaive-function-calling-v2
和 Salesforce/xlam-function-calling-60k
。glaiveai
数据集采用对话格式,通过特定标签<functioncall>
来标识工具调用。Salesforce/xlam
数据集则采用更结构化的JSON格式,由一个名为APIGen
的自动化、三阶段验证流程生成,保证了数据的高质量,并支持简单、多重、并行等多种复杂的调用场景。下一步行动计划
APIGen
的官方项目主页和相关研究论文。这个网页展示了Salesforce-xlam-function-calling-60k数据集,该数据集包含60,000行数据,主要用于训练和测试AI模型的函数调用能力。数据集采用对话格式,每条数据包含三个消息:系统指令、用户查询和AI助手的回应。系统指令定义了可用函数及其参数,用户查询提出需求,而AI助手则通过特定格式{'tool_name': 函数名, 'tool_arguments': {参数}}</tool_call>
来调用相应函数。数据集涵盖了多种应用场景,包括金融数据分析、动漫搜索、电影信息查询、时区查询、科学计算等领域。这些示例展示了AI如何根据用户需求选择合适的函数并传递正确的参数,为开发具有函数调用能力的大语言模型提供了训练素材。
该数据集名为"Salesforce-xlam-function-calling-60k",包含60,000行数据,专门用于训练和测试AI模型的函数调用能力。
每条数据是一个包含3个消息的列表,结构如下:
AI助手使用特定的XML标签格式来调用函数:
示例1:查询游戏和测试版赠品
live_giveaways_by_type
函数示例2:查询以太坊区块链详情
peers
和web_chain_details
函数web_chain_details
函数,传递参数chain_slug: 'ethereum'
示例3:金融数据分析
t3ma
和stock_v2_get_profile
函数数据集还包含其他多种场景的示例,如动漫搜索、电影信息查询、时区查询、科学计算等,展示了AI如何根据用户需求选择合适的函数并传递正确的参数。
无链接信息可提取。
无图片信息可提取。
让我尝试获取更多关于glaive-function-calling-v2数据集的详细信息,以便进行更全面的比较。
Search
glaive-function-calling-v2 dataset format structure example paper现在我将整理所有收集到的信息,并提供一份全面的调研报告。
本报告旨在调研当前是否存在开源数据集,能够根据用户输入生成工具调用(toolcall)计划来完成用户需求。特别关注的是那些不仅描述每步操作,还包含具体工具调用参数的数据集。
经过全面调研,我们发现目前确实存在多个符合要求的开源数据集,其中最为突出的是glaiveai/glaive-function-calling-v2
和Salesforce/xlam-function-calling-60k
。这两个数据集都专注于训练大语言模型的工具/函数调用能力,提供了从用户自然语言输入到结构化工具调用计划的映射。
这是一个由Glaive AI开发的专门用于训练大语言模型处理函数调用的数据集huggingface.co。该数据集包含约113,000条训练样本,采用对话格式组织。
数据集包含两个主要字段:
system
:系统指令,定义了AI助手可用的函数及其参数结构chat
:用户与AI助手之间的对话内容,包括函数调用和响应每条记录的结构如下huggingface.co:
<functioncall>
标记来明确指示函数调用部分huggingface.co这是由Salesforce AI Research团队开发的数据集,包含60,000条高质量函数调用数据huggingface.co。该数据集是通过一个名为APIGen的自动化流程生成的,经过了严格的三阶段验证。
数据集采用JSON格式,每条记录包含三个消息huggingface.co:
函数调用使用特定的XML标签格式huggingface.co:
下面对两个主要数据集进行详细对比:
特性 | glaive-function-calling-v2 | xlam-function-calling-60k |
---|---|---|
数据量 | 约113,000条 | 60,000条 |
数据格式 | 对话格式 | JSON格式 |
函数调用标记 | <functioncall> | `` |
生成方式 | 未明确说明 | APIGen自动化流程 |
验证机制 | 未明确说明 | 三阶段验证(格式检查、执行检查、语义检查) |
复杂度支持 | 多轮对话 | 四种查询风格(简单、多重、并行、并行多重) |
API覆盖 | 多种函数类型 | 21类3,673个可执行API |
质量评估 | 未明确说明 | 人工评估95%正确率 |
这些数据集主要用于以下场景:
以下是使用该数据集训练模型的代码示例CSDN技术社区:
以下是加载和使用该数据集的代码示例huggingface.co:
两个数据集都涵盖了广泛的函数调用领域,包括但不限于:
资料来源: CSDN技术社区GitHub Pages
Salesforce的xlam-function-calling-60k数据集采用了严格的三阶段验证流程huggingface.co:
这种验证机制确保了数据的高质量和可靠性。通过人工评估600个样本点,发现正确率超过95%,剩余5%主要是参数不准确等小问题huggingface.co。
xlam-function-calling-60k数据集使用两个强大的模型生成huggingface.co:
不同模型生成的数据通过验证的比例不同,DeepSeek-V2-Chat的通过率最高,达到84.15%GitHub Pages。
存在符合需求的开源数据集:目前已有多个开源数据集能够根据用户输入生成工具调用计划,其中最为突出的是glaiveai/glaive-function-calling-v2
和Salesforce/xlam-function-calling-60k
。
数据集质量与多样性:这些数据集提供了高质量、多样化的函数调用样本,涵盖了从简单单步调用到复杂的多步并行调用等多种场景。
格式与标准:数据集采用了结构化的格式(JSON或特定标记),使得模型能够学习到清晰的函数调用模式。
验证机制:特别是Salesforce的数据集,采用了严格的三阶段验证机制,确保了数据的高质量和可靠性。
根据需求选择合适的数据集:
glaiveai/glaive-function-calling-v2
Salesforce/xlam-function-calling-60k
数据预处理:在使用这些数据集前,建议进行适当的预处理,如格式转换、参数清理等,以适应特定的模型训练需求。
结合使用:可以考虑结合使用多个数据集,以增加训练数据的多样性和覆盖范围。
评估基准:使用Berkeley Function-Calling Leaderboard (BFCL)等评估基准来测试模型的函数调用能力。
总之,这些开源数据集为训练具有工具调用能力的大语言模型提供了宝贵的资源,能够帮助模型学习如何根据用户需求生成准确的工具调用计划,包括具体的函数名和参数。