为了全面搜集模型Toolcall数据集的信息,我需要澄清几个问题:
您是否需要包含特定领域的Toolcall数据集(如医疗、金融、教育等),还是希望覆盖所有可能的领域?
您提到BFCL评测指标,我注意到搜索结果中提到了Berkeley function calling leaderboard (BFCL)。您是否特别关注与BFCL相关的数据集,或者您希望包含所有符合您提到的评测维度的数据集?
关于数据集的时效性,您是否有特定的时间范围要求(如最近1年、2年内发布的数据集)?
好的,这是为您设计的Toolcall数据集搜集计划。
第一阶段:广泛搜寻与识别关键信息源
此阶段的目标是通过系统性的信息检索,广泛发现与Toolcall/Function Call相关的学术论文、技术报告、开源项目和评测基准,并筛选出最具权威性和信息价值的核心来源。将分别针对英文和中文信息进行搜寻,以确保覆盖面。
第二阶段:深入分析与信息提取
针对第一阶段识别出的核心信息源(如具体的学术论文、数据集主页或代码仓库),进行逐一深入分析。此阶段的重点是根据您提出的四个维度(场景、指标、上下文、语言)精确提取每个数据集的特征信息。
第三阶段:信息整合与结构化
将从各个来源提取的碎片化信息进行系统性地整合与归类。为每个搜集到的数据集创建一个标准化的信息档案,包含其名称、核心特点、下载链接以及在前一阶段分析得出的四个维度的详细描述。这将为最终的比较和决策提供清晰、一致的数据基础。
第四阶段:综合对比与可视化呈现
基于结构化的信息档案,对所有搜集到的数据集进行横向比较。最终,将以清晰、直观的表格形式总结并呈现各个数据集的关键特征,使您能够一目了然地了解每个数据集在场景、指标、上下文和语言四个维度上的优势与不足,从而快速筛选出最符合您需求的数据集。
为确保信息的权威性和可靠性,本计划将重点从以下几类平台获取信息:
学术预印本与论文库:
代码与数据集托管平台:
模型评测基准与排行榜:
首先,让我开始搜索相关的Toolcall数据集信息。
Search
toolcall function call dataset benchmark BFCL Berkeley Function Calling Leaderboard感谢这些初步搜索结果,我看到了一些与Toolcall数据集相关的信息,但需要更深入地了解BFCL以及其他主要的Toolcall数据集。让我继续搜索更多具体信息。
Search
Berkeley Function Calling Leaderboard BFCL dataset details evaluation metrics我看到了一些关于BFCL的信息,但需要获取更多具体细节。让我访问Hugging Face上的BFCL数据集页面,以获取更详细的信息。
这个网页展示了Berkeley Function Calling Leaderboard (BFCL)数据集的预览页面,但由于数据集生成过程中出现了错误,完整的数据集查看器无法正常显示。错误显示数据文件之间的列不匹配,在某个时点出现了3个新列('ground_truth'、'execution_result_type'和'id')。尽管如此,网页底部仍展示了部分数据集内容的表格预览,包含"question string"和"function string"两列。表格中列出了多种类型的问题,涵盖数学计算(如三角形面积、圆面积计算、质因数分解)、物理问题(如速度计算)、旅行规划等多样化场景,但对应的function string列均为空。这些问题似乎是设计用来测试模型函数调用能力的各种场景,体现了BFCL数据集的多样性和广泛的应用场景覆盖。
从网页内容中可以提取出关于Berkeley Function Calling Leaderboard (BFCL)数据集的以下信息:
数据集结构:
数据内容多样性:
数据集版本:
数据集用途:
数据结构复杂性:
虽然网页显示了数据集加载错误,但从错误信息和部分可见的数据中,我们可以了解到BFCL是一个结构复杂、场景多样的函数调用评测数据集,涵盖了从基础数学计算到复杂服务查询的多种应用场景。
我看到BFCL数据集的页面有些问题,让我继续搜索更多关于BFCL和其他Toolcall数据集的信息。
已掌握的信息
下一步行动计划
让我继续搜索BFCL的相关论文和详细信息。
Search
Berkeley Function Calling Leaderboard BFCL paper arxiv evaluation metrics我看到了一些关于BFCL的提及,但还需要找到更详细的信息。让我搜索更多关于BFCL的原始论文或详细介绍。
Search
Yan et al. 2024 Berkeley Function Calling Leaderboard BFCL paper我看到了一些关于BFCL的引用,但还没有找到详细的原始论文。让我尝试搜索其他几个已知的Toolcall数据集,如API-Bank和NESTful,以获取更多信息。
Search
API-Bank toolcall dataset Li et al. 2023 details我看到了一些关于API-Bank的信息,但需要获取更详细的内容。让我直接访问API-Bank的论文链接。
API-Bank是一个专为工具增强型大型语言模型(LLMs)设计的基准测试数据集。该研究旨在解答三个关键问题:(1)当前LLMs使用工具的效果如何?(2)如何提升LLMs使用工具的能力?(3)使用工具时需要克服哪些障碍?为回答第一个问题,研究者开发了一个包含73个API工具的可运行评估系统,并标注了314个工具使用对话,包含753个API调用,用于评估现有LLMs在规划、检索和调用API方面的能力。针对第二个问题,研究者构建了一个包含1,888个工具使用对话的综合训练集,涵盖了来自1,000个不同领域的2,138个API。基于此数据集,他们训练了一个名为Lynx的工具增强型LLM。实验结果表明,GPT-3.5在工具使用方面优于GPT-3,而GPT-4在规划方面表现最佳,但仍有很大的改进空间。此外,Lynx在工具使用性能上超过Alpaca 26多个百分点,接近GPT-3.5的效果。通过错误分析,研究者还强调了该领域未来研究的关键挑战。
API-Bank是一个专为评估和提升工具增强型大型语言模型(LLMs)能力而设计的综合基准测试数据集。从网页内容中,我可以提取以下与问题相关的关键信息:
数据集结构:
评测指标:
场景多样性:
语言支持:
此外,研究者基于这个数据集训练了一个名为Lynx的工具增强型LLM,并将其与GPT-3、GPT-3.5和GPT-4等模型进行了比较,发现GPT-4在规划方面表现最佳,而Lynx的性能接近GPT-3.5。
无与问题相关的图片内容。
已掌握的信息
下一步行动计划
让我继续搜索NESTful数据集的详细信息。
看来访问NESTful数据集的论文链接出现了问题。让我尝试通过搜索获取更多关于NESTful和其他数据集的信息。
Search
NESTful benchmark nested sequences API calls dataset details我看到了关于NESTful数据集的一些信息,让我继续搜索HammerBench数据集的详细信息。
Search
HammerBench function calling evaluation mobile device scenarios details现在让我尝试搜索中文的Toolcall数据集,看是否有专门为中文设计的工具调用数据集。
Search
中文 toolcall function call 数据集 工具调用 评测基准已掌握的信息
下一步行动计划
让我继续搜索BFCL的详细信息,尝试找到原始论文。
Search
Gorilla LLM Berkeley Function Calling Leaderboard BFCL paper Yan et al. 2024我看到了一些关于BFCL的线索,但还需要更多信息。让我尝试直接访问GitHub上的Gorilla项目,看看是否能找到更多关于BFCL的详细信息。
搜索
github ShishirPatil gorilla Berkeley Function Calling Leaderboard看来访问GitHub的请求超时了。让我尝试搜索更多关于BFCL的信息,特别是关于其评测指标的详细信息。
Search
Berkeley Function Calling Leaderboard BFCL evaluation metrics AST accuracy我看到了一些关于BFCL的信息,让我尝试访问Hugging Face上的BFCL页面,看看是否能获取更详细的信息。
已掌握的信息
下一步行动计划
让我尝试使用更精确的关键词搜索BFCL的原始论文。
Search
Shishir Patil Gorilla LLM Berkeley Function Calling Leaderboard paper我看到了一些关于Gorilla LLM的信息,让我尝试搜索Gorilla的原始论文,这可能会包含关于BFCL的信息。
Search
Gorilla: Large Language Model Connected with Massive APIs paper 2305.15334我找到了Gorilla的原始论文,让我访问这个论文以获取更多关于BFCL的信息。
本文介绍了Gorilla,一个基于LLaMA微调的大型语言模型,专注于提高API调用的准确性。研究表明,即使是GPT-4等先进模型在API调用方面仍存在生成不准确参数和产生幻觉的问题。Gorilla结合文档检索系统,不仅在API调用准确性上超越了GPT-4,还能适应测试时的文档变更,大幅减少幻觉问题。为评估模型能力,研究者创建了APIBench数据集,包含HuggingFace、TorchHub和TensorHub的API。论文详细介绍了数据集构建方法、模型训练过程和评估指标,包括使用AST子树匹配技术验证API调用的功能正确性。研究结果显示,Gorilla在API功能准确性和减少幻觉错误方面显著优于GPT-4,展示了大型语言模型在工具使用方面的潜力。
APIBench数据集构建:
指令生成方法:
评估指标和方法:
torch.hub.load
)为根节点的子树,用它来索引数据集约束条件处理:
检索器感知训练:
评估结果展示方式:
图1: API调用示例
图2: 准确性与幻觉对比图
图3: Gorilla系统架构图
图4: AST子树匹配示例
让我尝试搜索更多关于Berkeley Function Calling Leaderboard (BFCL)的信息,特别是关于其评测指标的详细说明。
Search
Berkeley Function Calling Leaderboard BFCL AST accuracy metric evaluation已掌握的信息
下一步行动计划
让我尝试搜索中文的Toolcall数据集,使用更精确的中文关键词。
Search
中文大语言模型 工具调用 函数调用 数据集 评测基准我看到了一些中文大语言模型的信息,但没有找到专门的中文Toolcall数据集。让我尝试搜索更多关于中文工具调用数据集的信息。
Search
中文大模型工具调用数据集 函数调用评测 开源经过多次搜索,我没有找到专门的中文Toolcall数据集。现在让我整理已收集的信息,为您提供一个全面的Toolcall数据集分析报告。
可视化工具
现在,让我基于所有收集到的信息,为您提供一个最终的综合分析报告。
随着大语言模型(LLMs)在工具调用(Tool Calling/Function Calling)能力上的快速发展,评估这一能力的数据集也日益丰富。本报告全面梳理了当前主流的Toolcall数据集,从场景多样性、指标多样性、上下文多样性和语言支持四个维度进行分析,为模型开发和评估提供参考。
数据集名称 | 场景多样性 | 指标多样性 | 上下文多样性 | 语言支持 |
---|---|---|---|---|
Berkeley Function Calling Leaderboard (BFCL) | 覆盖多种领域:数学计算、物理问题、旅行规划、服务查询等 | AST匹配评估、单/多工具调用评估、可能包含并发和拒绝调用评估 | 结构复杂,包含嵌套结构和丰富的函数参数定义 | 主要英文,可能支持多语言 |
NESTful | 专注嵌套序列API调用,主要覆盖数学推理和编码工具 | 全序列匹配准确率、胜率、专门评估串行接力调用 | 1800+嵌套序列,关注API调用的嵌套依赖关系 | 英文 |
HammerBench | 移动设备真实多轮对话,模拟不完美指令和意图/参数变化 | 细粒度交互评估、每轮对话函数调用性能、失败原因分析 | 高度关注多轮对话上下文理解,模拟用户行为变化 | 英文 |
API-Bank | 超大规模:1000个领域的2138个API,2000+对话样本 | 评估规划、检索和调用API能力 | 对话式设计,模拟真实工具使用场景 | 英文 |
APIBench (Gorilla) | 1,645个API调用,覆盖多模态、视觉、NLP、音频等多领域 | AST子树匹配、功能正确性和幻觉评估、API约束理解能力 | 16,450个指令-API对,支持测试时文档变化适应 | 英文 |
场景多样性:
指标多样性:
上下文多样性:
语言支持:
场景多样性:
指标多样性:
上下文多样性:
语言支持:
场景多样性:
指标多样性:
上下文多样性:
语言支持:
场景多样性:
指标多样性:
上下文多样性:
语言支持:
场景多样性:
指标多样性:
上下文多样性:
语言支持:
通过广泛搜索,目前尚未发现专门针对中文的大规模开源Toolcall数据集。虽然部分中文大模型如XVERSE-13B-2已经具备工具调用能力huggingface.co,但其训练和评估所用的数据集并未公开。这表明中文Toolcall数据集仍是一个亟待填补的空白领域。
基于对各数据集特点的分析,针对不同需求提出以下建议:
全面评估模型工具调用能力:选择BFCL,它是业界公认的基准,覆盖场景最广泛,评估指标最全面。
评估串行接力调用能力:选择NESTful,它专门设计用于评估嵌套序列API调用,提供了1800+测试样例。
评估多轮对话中的工具调用:选择HammerBench,它模拟真实用户行为,特别关注多轮对话中的工具调用。
大规模API覆盖:选择API-Bank,它覆盖了1000个领域的2138个API,规模最大。
关注幻觉问题:选择APIBench (Gorilla),它特别关注API调用中的幻觉问题。
当前英文Toolcall数据集已相对成熟,覆盖了从单一工具调用到复杂的嵌套调用、多轮对话中的工具调用等多种场景。BFCL作为业界标准,提供了全面的评估框架;NESTful专注于串行调用;HammerBench关注多轮对话;API-Bank和APIBench则提供了大规模API覆盖。
然而,中文Toolcall数据集仍是一个明显的空白,这为未来研究提供了重要方向。随着中文大模型的发展,构建专门的中文Toolcall数据集将成为推动中文大模型工具调用能力发展的关键。
未来的Toolcall数据集发展可能会更加关注多模态工具调用、跨语言工具调用以及更复杂的工具组合使用场景,以满足日益增长的实际应用需求。