我将帮您整理GAIA和BrowseComp等Agent评测基准中各大模型厂商的指标榜单。为了提供最完整的信息,我需要澄清几点:
您希望看到哪些主要模型厂商的数据?(例如:OpenAI、Meta、Anthropic、国内的百度/智谱等)
您是否需要特定时间段的榜单数据?(最新的还是某个特定时期的对比)
除了GAIA和BrowseComp外,您是否还关注其他Agent评测基准的榜单?(如AgentBench等)
好的,我将为您制定一个分步骤的总体性计划,以完成关于GAIA和BrowseComp等Agent评测基准中各大模型厂商的指标榜单研究报告。
第一阶段:基准背景与评估维度研究
此阶段旨在深入理解各项评测基准的核心设计理念、评测重点及评估指标,为后续的数据分析建立坚实的认知基础。
信息来源:
第二阶段:多源数据采集与交叉验证
此阶段的核心任务是全面搜集各大模型在目标评测基准上的性能数据,并确保数据的准确性和完整性。
信息来源:
第三阶段:数据整合与可视化呈现
此阶段旨在将收集到的零散数据进行结构化处理,并通过可视化的方式清晰、直观地呈现对比结果。
第四阶段:撰写研究报告
此阶段是将所有研究成果系统性地组织成一份逻辑清晰、图文并茂的最终报告。
让我们开始搜索相关信息。
Search
GAIA benchmark leaderboard AI models performance我看到了关于GAIA和其他Agent基准测试的信息。让我继续搜索更多关于BrowseComp基准测试的信息,以及各大模型厂商在这些基准上的表现。
Search
BrowseComp benchmark leaderboard AI models performance让我继续搜索更多关于GAIA和BrowseComp基准测试的详细信息,特别是关于各大模型厂商的具体表现数据。
Search
GAIA benchmark leaderboard results Claude GPT-4 Gemini让我继续搜索更多关于GAIA和BrowseComp基准测试的详细榜单信息,特别是关注最新的排行榜数据。
该网页展示了GAIA基准测试的排行榜,由gaia-benchmark组织在Hugging Face平台上发布。GAIA(General AI Assistant)是一个评估AI模型通用能力的基准测试。网页主要包含一个排行榜界面,显示了各AI模型在GAIA测试中的表现数据。页面顶部有Hugging Face的导航栏和gaia-benchmark的组织标识,页面获得了456个点赞。排行榜运行在CPU环境上,提供了升级选项。网页分为三个主要标签:App(显示排行榜主内容)、Files(访问后台文件)和Community(包含64条讨论)。排行榜可能展示了各模型的名称、整体准确率以及在不同难度级别任务上的表现数据,但当前页面截图中并未显示具体排名数据。
从提供的网页内容中,我可以确认这是GAIA基准测试的排行榜页面,托管在Hugging Face平台上。然而,当前提供的网页内容截图中并未显示具体的排行榜数据表格,只有页面的框架结构和导航元素。
网页标题为"GAIA Leaderboard",由gaia-benchmark组织创建,已获得456个点赞,并有64条社区讨论。GAIA代表General AI Assistant,是一个评估AI模型通用能力的基准测试框架。
遗憾的是,当前提供的内容中没有包含我们需要的具体排行榜数据,如各模型的名称、准确率以及在不同级别的表现。要获取这些信息,需要查看页面的完整内容,特别是"App"标签下显示的排行榜表格数据。
Hugging Face's logo
GAIA Benchmark组织图标
已掌握的信息
下一步行动计划
huggingface.co/spaces/gaia-benchmark/leaderboard
)。github.com/openai/simple-evals
) 及其相关发布公告。下面先尝试直接访问GAIA的官方Hugging Face排行榜,获取最新的详细数据。
Search
HAL GAIA Leaderboard Princeton University我找到了一些有关GAIA基准测试的排行榜信息,但还需要获取更完整的数据。让我尝试直接访问Princeton大学HAL项目的GAIA排行榜页面,获取最新的详细数据。
该网页展示了GAIA基准测试的排行榜数据,包含了8个不同AI模型在该测试中的表现。排行榜按照模型的总体准确率进行排名,并详细列出了每个模型在三个不同难度级别(Level 1、Level 2和Level 3)的表现数据。Claude-3-5-sonnet-20241022模型以57.58%的总体准确率位居榜首,其次是Claude-3-7-sonnet-20250219和o1-preview-2024-09-12模型,均为56.36%。排行榜还提供了每个模型的API使用成本信息,以及运行次数统计。所有结果均已由HAL团队验证。GAIA测试分为三个难度级别,其中Level 1对于优秀的大语言模型来说是可突破的,而Level 3则表示模型能力的显著提升。网页还提供了每个模型测试轨迹的下载链接,以及指向Inspect ReAct Agent的GitHub链接。
GAIA基准测试排行榜完整数据如下:
Claude-3-5-sonnet-20241022
Claude-3-7-sonnet-20250219
o1-preview-2024-09-12
o3-mini-2025-01-31 med.
o1-mini-2024-09-12
gpt-4o-2024-11-20
gpt-4o-mini-2024-07-18
Meta-Llama-3.1-405B-Instruct-Turbo
从数据分析可见,Claude系列模型在GAIA测试中表现最佳,占据了前两名。Anthropic的Claude-3-5-sonnet和Claude-3-7-sonnet模型以及OpenAI的o1-preview模型在总体准确率上表现相近,但在不同难度级别上有所差异。所有模型在Level 3(最高难度)的表现都明显低于其他级别,表明这一级别确实代表了模型能力的显著跃升。值得注意的是,gpt-4o-mini在Level 3上准确率为0%,表明其完全无法解决最高难度的任务。成本方面,o1-preview模型使用成本最高,达到$641.52,而o3-mini和gpt-4o-mini的成本相对较低。
无与问题相关的图片内容。
现在我需要获取关于BrowseComp基准测试的更详细信息,特别是各大模型在该基准上的表现数据。
BrowseComp是一个由OpenAI开发的网络浏览代理基准测试,包含1,266个需要在互联网上持续搜索难以找到、相互关联信息的问题。尽管问题难度很高,但该基准测试设计简单易用,预测答案简短且易于与参考答案验证。BrowseComp可类比于编程竞赛对编码代理的测试,虽然它不涉及生成长答案或解决歧义等真实用户查询分布的挑战,但它测量了寻找信息时的持久性和创造性这一核心能力。数据集由人类训练师创建,问题设计确保现有模型无法轻易解决,且通过Google搜索前几页无法直接找到答案。人类测试者在两小时内仅能解决29.2%的问题,而OpenAI的Deep Research模型表现最佳,准确率达51.5%。研究还表明,模型性能随测试时计算量的增加而平滑提升,使用并行采样和基于置信度的投票等聚合策略可将准确率进一步提高15%-25%。
BrowseComp测试主要衡量AI代理的三个核心浏览技能:对互联网内容事实性的推理能力、持久深入的浏览能力以及在搜索中的创造性。虽然它不能完全代表真实用户查询的分布,但它有效测量了寻找信息时的持久性和创造性这一核心能力。
图1: BrowseComp性能与测试时计算量的关系图
图2: BrowseComp主题分布饼图
图3: 人类解决BrowseComp问题的时间分布直方图
图4: Deep Research使用并行采样和基于置信度投票的性能图
表1: BrowseComp示例问题
现在我需要获取更多关于BrowseComp的具体排行榜数据,特别是除了OpenAI模型外的其他厂商模型的表现。
Search
BrowseComp benchmark leaderboard complete results Gemini Claude Llama已掌握的信息
下一步行动计划
让我继续搜索关于BrowseComp的更多信息,特别是其他厂商模型的表现数据。
Search
BrowseComp benchmark Claude Gemini Llama performance results我已经收集了足够的信息,现在可以提供一份关于GAIA和BrowseComp这两个主要Agent评测基准的综合报告。
可视化工具
现在我将创建一个关于BrowseComp基准测试的可视化图表,展示各模型的性能表现。
可视化工具
基于收集到的数据和可视化结果,我将提供一份关于GAIA和BrowseComp这两个主要Agent评测基准的综合分析报告。
随着人工智能技术的迅速发展,评估AI代理(Agent)能力的基准测试变得越来越重要。本报告将详细分析两个最具代表性的Agent评测基准:GAIA和BrowseComp,并提供各大模型厂商在这些基准上的完整性能榜单。
GAIA(General AI Assistant Benchmark)是由Meta、HuggingFace和AutoGPT团队联合推出的基准测试,旨在评估通用AI助手在现实场景中处理多步骤推理、工具使用和多模态任务的能力CSDN技术社区。而BrowseComp则是OpenAI开发的一个专注于测试AI代理网络浏览能力的基准,包含1,266个需要在互联网上持续搜索难以找到、相互关联信息的问题cdn.openai.com。
GAIA聚焦于对人类简单但对AI困难的任务,例如需要多工具协作的日常查询(如网页搜索+数据分析+逻辑推理)CSDN技术社区。其问题源自真实场景,如计算临床试验注册人数、解析政府文件中的营养成分标准等。
GAIA采用三级难度体系CSDN技术社区:
以下是基于Princeton大学HAL项目的GAIA基准测试排行榜,展示了各大模型厂商的最新性能数据:
资料来源: 美国普林斯顿大学
从GAIA榜单数据分析可见,Anthropic的Claude系列模型表现最为出色,Claude-3-5-sonnet以57.58%的总体准确率位居榜首美国普林斯顿大学。OpenAI的o1-preview模型紧随其后,与Claude-3-7-sonnet并列第二,总体准确率均为56.36%。值得注意的是,所有模型在Level 3(最高难度)的表现都明显低于其他级别,表明这一级别确实代表了模型能力的显著跃升美国普林斯顿大学。
此外,GAIA测试还考量了模型的运行成本,这对实际应用场景具有重要参考价值:
资料来源: 美国普林斯顿大学
成本数据显示,o1-preview模型使用成本最高,达到$641.52,而o3-mini和gpt-4o-mini的成本相对较低美国普林斯顿大学。这表明在实际应用中,需要在性能和成本之间做出权衡。
除了HAL项目的官方榜单外,还有一些其他模型在GAIA基准上的表现值得关注:
h2oGPTe Agent:据报道,h2oGPTe Agent在GAIA基准测试中取得了65%的前所未有的分数,成为榜首businesswire.com。这表明AI已经接近人类在该基准上的表现(人类平均成功率约为92%)CSDN技术社区。
天桥脑科学研究院的OMNE:该研究院的OMNE多智能体框架在Hugging Face发布的GAIA排行榜中占据了榜首位置,超越了包括微软研究院在内的一些全球顶尖机构的框架腾讯。
Manus:在Level 1-3的得分分别为86.5%、70.1%和57.7%,总体表现优于OpenAI的模型今日头条。
GenSpark:据报道,GenSpark在GAIA基准测试的三个不同级别测试中的表现都超越了Manus和OpenAI Deep Research等产品搜狐网。
OWL项目:作为一个开源复刻Manus的项目,在GAIA Benchmark性能测试中也达到了57.7%的突破搜狐网。
这些数据表明,GAIA基准测试已成为评估AI代理能力的重要标准,各大厂商和研究机构都在此基准上展开激烈竞争。
BrowseComp是OpenAI开发的一个专注于测试AI代理网络浏览能力的基准,包含1,266个挑战性问题搜狐网。与传统基准不同,BrowseComp的问题设计采用"反向"方式:从一个事实出发,创建一个答案难找但易验证的问题openai.com。
BrowseComp的问题特点包括:
以下是各大模型在BrowseComp基准测试上的表现:
BrowseComp榜单数据显示,OpenAI的Deep Research模型表现最为突出,准确率达到51.5%搜狐网。而在中文版的BrowseComp-ZH测试中,DeepResearch也取得了42.9%的准确率arxiv.org。相比之下,其他模型的表现则相形见绌,即使是强如GPT-4o的模型,准确率也仅为0.6%,加上浏览功能后也只有1.9%搜狐网。
这一巨大差距表明,BrowseComp确实是一个极具挑战性的基准测试,专门针对AI代理的网络浏览和信息检索能力设计。值得注意的是,人类训练师在两小时内也仅能解决29.2%的BrowseComp问题搜狐网,这进一步证明了该基准的难度。
作为BrowseComp的中文版本,BrowseComp-ZH是一个专门评估大语言模型在中文网络环境中浏览能力的高难度基准arxiv.org。该基准包含289个多跳问题,涵盖11个不同领域,每个问题都是从一个简短、客观且易于验证的答案(如日期、数字或专有名词)反向设计而来arxiv.org。
在BrowseComp-ZH的测试中,尽管现有模型具有强大的对话和检索能力,但大多数模型的表现都相当挣扎:大量模型的准确率低于10%,只有少数几个超过20%arxiv.org。即使是表现最好的系统OpenAI的DeepResearch,也只达到了42.9%的准确率arxiv.org。这些结果表明,BrowseComp-ZH具有相当的难度,成功不仅需要有效的检索策略,还需要复杂的推理和信息整合能力——这些都是当前模型仍在努力掌握的能力。
GAIA和BrowseComp作为两个主要的Agent评测基准,各有其独特的侧重点:
评测基准 | 主要侧重点 | 问题数量 | 难度特点 | 主要挑战 |
---|---|---|---|---|
GAIA | 多模态处理、工具使用、推理能力 | 466个 | 分为3个难度级别 | 多步骤推理、工具协同、跨模态信息整合 |
BrowseComp | 网络浏览、信息检索、持久性搜索 | 1,266个 | 极高难度,需大量浏览 | 定位难以找到的信息、匹配复杂约束条件 |
GAIA更注重全面评估AI助手的通用能力,包括多模态处理、工具使用和推理能力CSDN技术社区,而BrowseComp则专注于测试AI代理在互联网上定位难以找到、相互关联信息的能力openai.com。
通过对比各大厂商模型在GAIA和BrowseComp上的表现,我们可以得出以下几点结论:
Anthropic的Claude系列:在GAIA基准上表现最为出色,Claude-3-5-sonnet和Claude-3-7-sonnet分别以57.58%和56.36%的总体准确率位居榜首和第二美国普林斯顿大学。然而,在BrowseComp基准上,目前尚未找到Claude系列的公开测试数据。
OpenAI的模型:在GAIA上,o1-preview与Claude-3-7-sonnet并列第二,总体准确率为56.36%美国普林斯顿大学;在BrowseComp上,专门训练的Deep Research模型表现突出,准确率达51.5%搜狐网,远超其他模型。
Meta的Llama系列:在GAIA上,Meta-Llama-3.1-405B-Instruct-Turbo的表现相对较弱,总体准确率仅为12.12%美国普林斯顿大学;在BrowseComp上,目前尚未找到Llama系列的公开测试数据。
Google的Gemini系列:在已搜集的GAIA和BrowseComp官方榜单中,尚未找到Gemini系列的公开测试数据。
尽管GAIA和BrowseComp为评估AI代理能力提供了有价值的基准,但我们也需要认识到模型评测面临的局限性与挑战:
评测机制的可信度:随着模型能力的提升,评测机制的可信度面临挑战。例如,Meta的Llama 4模型在LM Arena评测榜中因使用针对对话优化的实验版本而引发争议东方财富网。
刷榜现象:一些模型可能通过在特定基准测试上进行优化或强化,使测试表现明显虚高东方财富网。这种"刷榜"现象使得评测结果的可信度受到质疑。
评测多样性不足:现有评测主要集中在英文环境下,对其他语言(如中文)的支持相对有限arxiv.org。BrowseComp-ZH的出现在一定程度上弥补了这一不足。
通过对GAIA和BrowseComp两个主要Agent评测基准的分析,我们可以得出以下结论:
Anthropic和OpenAI领先:在GAIA基准上,Anthropic的Claude系列和OpenAI的o1系列表现最为出色;在BrowseComp基准上,OpenAI的Deep Research模型遥遥领先。
专业化与通用化并存:随着AI技术的发展,一些模型(如Deep Research)开始在特定任务上进行专业化训练,而另一些模型(如Claude系列)则保持较强的通用能力。
评测体系仍在完善:随着AI代理能力的不断提升,评测基准也需要不断更新和完善,以更全面、客观地评估模型性能。
未来,我们可以期待更多样化、更具挑战性的Agent评测基准的出现,以及各大厂商在这些基准上的持续竞争与创新。同时,评测机制本身也需要不断优化,以提高可信度和公正性,为AI代理的发展提供更有价值的参考。