login
GAIA与BrowseComp基准模型榜单
2025/06/23·StepFun can make mistakes, check important info.
请给我找出GAIA和browsecomp 等AGENt bmk里几家基模厂商最完整的指标榜单
Sources

我将帮您整理GAIA和BrowseComp等Agent评测基准中各大模型厂商的指标榜单。为了提供最完整的信息,我需要澄清几点:

  1. 您希望看到哪些主要模型厂商的数据?(例如:OpenAI、Meta、Anthropic、国内的百度/智谱等)

  2. 您是否需要特定时间段的榜单数据?(最新的还是某个特定时期的对比)

  3. 除了GAIA和BrowseComp外,您是否还关注其他Agent评测基准的榜单?(如AgentBench等)

直接跳过

好的,我将为您制定一个分步骤的总体性计划,以完成关于GAIA和BrowseComp等Agent评测基准中各大模型厂商的指标榜单研究报告。

Research plan

研究计划:主流AI Agent评测基准(GAIA & BrowseComp)性能榜单分析报告

第一阶段:基准背景与评估维度研究

此阶段旨在深入理解各项评测基准的核心设计理念、评测重点及评估指标,为后续的数据分析建立坚实的认知基础。

  1. 解析核心评测基准:系统性研究GAIA和BrowseComp两个主要评测基准。重点关注其设计目标(例如,GAIA侧重于通用助手能力,BrowseComp聚焦于高难度网络浏览与信息整合)、任务类型、难度分级以及对模型能力(如工具使用、多模态理解、推理链)的具体要求。
  2. 识别关键评估指标:明确每个基准的核心量化指标。例如,GAIA的“Pass@1准确率”和不同难度等级的得分;BrowseComp的“准确率”。同时,关注任何辅助性指标,如任务完成步骤数、耗时等。

信息来源:

  • 官方发布平台:访问各评测基准的官方托管页面,如Hugging Face Spaces和GitHub仓库,以获取最权威的介绍文档和数据集信息。
  • 学术论文:查阅并研读发布这些基准的原始研究论文(通常发布在arXiv.org等预印本网站),以理解其背后的学术动机和方法论。

第二阶段:多源数据采集与交叉验证

此阶段的核心任务是全面搜集各大模型在目标评测基准上的性能数据,并确保数据的准确性和完整性。

  1. 搜集官方排行榜数据:定位并访问GAIA和BrowseComp的官方排行榜。系统性地提取榜单上所有模型的名称、其背后的研发机构/厂商以及对应的性能分数。
  2. 挖掘补充性信息:通过网络检索,查找各大模型厂商(如OpenAI, Meta, Google, Anthropic及国内主要厂商)发布的官方技术报告、博客文章或新闻稿。这些材料中通常会包含其最新模型在关键基准上的表现,可作为官方榜单的补充和验证。
  3. 数据清洗与对齐:整合从不同来源获取的数据。注意区分验证集(Validation Set)得分和测试集(Test Set)得分,并以官方测试集结果为准。统一模型命名,并将模型与其所属厂商进行关联。

信息来源:

  • 官方排行榜:GAIA在Hugging Face上的官方Leaderboard;BrowseComp在OpenAI官方GitHub或相关发布页面上的数据。
  • 厂商官方渠道:各大AI研究机构和公司的官方网站、博客及社交媒体账号。
  • 科技媒体与社区:权威的AI领域新闻网站、技术社区(如CSDN、稀土掘金)和行业分析报告,用于发现和验证模型性能数据。

第三阶段:数据整合与可视化呈现

此阶段旨在将收集到的零散数据进行结构化处理,并通过可视化的方式清晰、直观地呈现对比结果。

  1. 构建综合性能矩阵:创建一个总览表,以模型/厂商为行,以评测基准及其子项目(如GAIA Level 1/2/3)为列,填入对应的性能得分。
  2. 生成对比图表:基于整理好的数据,生成一系列对比图表。例如,可以为GAIA和BrowseComp分别制作总分排名的条形图,或针对GAIA的不同难度等级制作分组条形图,以直观展示各模型在不同挑战下的表现差异。

第四阶段:撰写研究报告

此阶段是将所有研究成果系统性地组织成一份逻辑清晰、图文并茂的最终报告。

  1. 报告结构设计
    • 引言:简述AI Agent及相关评测基准的重要性。
    • 基准介绍:分别详细介绍GAIA和BrowseComp的评测机制。
    • 核心发现:性能榜单:展示在第三阶段制作的综合性能表格与可视化图表,并配以文字解读,清晰列出各厂商模型的排名情况。
    • 总结与展望:总结当前各大模型在Agent任务上的整体表现,并指出可能的未来发展趋势。
  2. 报告撰写与完善:依据设计的结构,填充各部分内容,确保报告的全面性、逻辑性和易读性。
开始研究

Deep Research

让我们开始搜索相关信息。

搜索

Search

GAIA benchmark leaderboard AI models performance
CSDN技术社区
CSDN技术社区
榜单链接:https://huggingface.co/spaces/gaia-benchmark/leaderboard 简介 GAIA(General AI Assistants Benchmark)是由Meta、HuggingFace和AutoGPT团队联合推出的基准测试,旨在评估 通用AI助手在现实场景中处理多步骤推理、工具使用和多模态任务 的能力。任务设计...
维科号
维科号
huggingface排行榜:https://huggingface.co/spaces/gaia-benchmark/leaderboard 问题规模:共包含466个问题,其中166个公开开发集问题和答案,300个测试集问题保留答案用于排行榜竞争。问题类型:多数问题为文本形式,部分附带图像、电子表格等多模态文件(如解析表格数据或识别图像信息)。任务场景:涵盖日常个人任务(如查找网页注册信息)、科学问题(如数据分析)及通用知识查询。答案...
美国普林斯顿大学
美国普林斯顿大学
GAIA is a benchmark for General AI Assistants that requires a set of fundamental abilities such as reasoning, multi-modality handling, web browsing, and tool- ...
CSDN技术社区
CSDN技术社区
GAIA(General AI Assistants Benchmark)是2025年新推出的AI评估基准,旨在通过 模拟真实世界的复杂任务,全面衡量AI在 多步骤推理、工具调用、跨模态处理 等领域的综合能力。其核心特点包括: 真实性问题设计:包含466个非结构化问题,覆盖基础、中级、高级三个难度层级,例如“根据用户需求生成市场趋势分析报告”或“结合图文信息完成医疗诊断建议”。工具链依赖:测试AI调用...
CSDN技术社区
CSDN技术社区
GAIA(General AI Assistants Benchmark)是一个专注于评估通用人工智能助手在 自主规划、多步骤推理、工具调用、上下文记忆、多模态处理 等现实任务中综合能力的基准测试。其测试用例设计强调对人类简单但对AI复杂的任务,覆盖从基础到高级的多样化场景。以下是其测试用例的主要类型及示例: ​一、测试用例的核心分类与示例​ 1.​基础任务(Level 1)​​ ​特点​:单一步骤或简单工具使用(如基本搜索、计算)。示...
CSDN技术社区
CSDN技术社区
GAIA(General AI Assistant Benchmark) GAIA是Meta等提出的 通用AI助手 能力基准,共466道真人设计的问题 klu.ai 与传统NLP基准不同,GAIA的问题贴近现实场景,往往需要模型具有 推理、多模态处理、网络浏览和工具使用 等一系列能力 ai.meta.com 。题目可能附带网页、图像、表格等文件,需要模型检索信息并给...
开源中国社区
开源中国社区
公开排行榜 https://hf.co/spaces/gaia-benchmark/leaderboard 下面让我们继续 构建合适的工具 ️ 我们使用了三种主要工具来解决 GAIA 问题: a.网页浏览器 对于网页浏览,我们主要复用了 Autogen 团队的提交 中的 Markdown 网页浏览器。它包含一个存储当前浏览器状态的 Browser 类,以及几个用于网页导航的工具,如 visit_page、page_d...
腾讯
腾讯
钛媒体App 10月29日消息,天桥脑科学研究院的内部AI团队在人工智能领域取得突破,其自主研发的OMNE多智能体框架在Hugging Face发布的GAIA(通用AI助手)基准排行榜(https://huggingface.co/spaces/gaia-benchmark/leaderboard)中占据了榜首。OMNE超越了包括微软研究院在内的一些全球顶尖机构的框架。这一成就建立在...
https://static-favicon.basemind.com/01JV2KB37APT5FAMB99C4MFDFA
https://static-favicon.basemind.com/01JV2KB37APT5FAMB99C4MFDFA
https://static-favicon.basemind.com/01JVCFBSDXCCEK0XW91JZ498ZM
View all 11 sources

我看到了关于GAIA和其他Agent基准测试的信息。让我继续搜索更多关于BrowseComp基准测试的信息,以及各大模型厂商在这些基准上的表现。

搜索

Search

BrowseComp benchmark leaderboard AI models performance
搜狐网
搜狐网
刚刚,OpenAI开源了一项全新基准测试「BrowseComp」,专为测试AI代理在网络上寻找难以获取信息的能力而设计。这不是普通的AI测评工具,而是一场 真正的网络寻宝大挑战!BrowseComp这名字听着就霸气,直译过来就是「浏览竞赛」,像是给AI们办了场 互联网淘金比赛。OpenAI这次拿出了 1266个超硬核问题 作为测试基准,看看各家AI到底能不能在茫茫网海中找到那根针。这项新基准测试已经在...
搜狐网
搜狐网
BrowseComp的推出,不仅意味着对智能体浏览技术的重新定义,更是对当今AI能力的一次巨大挑战。值得注意的是,此测试基准的难度之高,即便是OpenAI内部的最新模型,如GPT-4o和GPT-4.5,其准确率仅为0.6%和0.9%。即便是具备浏览器功能的GPT-4o,其表现也不过1.9%。这一数据不仅让人惊讶,更突显了BrowseComp在智能体开发和评测领域的权威性。与此形成鲜明对比的是,OpenAI的新款Agent模型—DeepResearch,却...
搜狐网
搜狐网
开源BrowseComp,也是在告诉我们OpenAI对AI透明度和可访问性的重视。科学研究的进步往往依赖于资源的共享与合作,开源策略使得全球的开发者都能够参与到这一技术的进步之中,从而促进整体的技术创新。此外,这种策略也为OpenAI自身的发展注入了新动能,因为更多的研究者能够参与进来,促进技术的多维度发展。这一变革的背景,实际上是在为未来的AI生态圈奠定基础。无论是商业应用,还是科研探索,拥有一个标准化的评测基准,将有助于不同技术之间的横向对比,也能推...
哔哩哔哩
哔哩哔哩
看看 BenchMark 的成绩: 【核心指标】纯文本任务综合性能优秀,比肩国际一线模型;多模态性能领先,各方面性能突出;纯文本推理与多模态推理能力均对标 GPT-4.5 和 Gemini 2.0 Pro 等国际一流模型的水平。【强推理能力】日日新融合模型从 5.5 到 V6/V6 Reasoner,推理能力显著提升,多模态和语言深度推理任务上同时超过了 OpenAI 的 o1 和 Gemini 2.0 flash-thinking 的水平。现实生活中小额理赔的材料审核往往需要 3-7 天...
虎嗅网
虎嗅网
为了衡量AI智能体在互联网上定位难以查找、相互关联信息的能力,现开源基准测试BrowseComp。2.【傅利叶发布首款开源人形机器人 Fourier N1,加速行业生态共建】 4月11日消息,通用机器人公司傅利叶在上海发布首款开源人形机器人Fourier N1。机器人身高1.3米,体重38公斤,拥有23个自由度,采用铝合金与工程塑料复合结构,续航可达2小时以上,最高奔跑速度3.5米/秒。作为傅利叶“Nexus开源生态矩阵”的首个项目,N1同步开放了涵盖物料清单、设计图纸、...
opp2.com
这个测试,主要就测一个能力:定位很难寻找的、复杂纠缠的信息的能力 A simple and challenging benchmark that measures the ability of AI agents to locate hard-to-find,entangled information. 其实说白了,就是要看看大模型们浏览网页和搜索信息的能力,到底强到什么地步了?因为现有的测试比如SimpleQA,其实已经被“刷爆”了。但是,基本上没太多人讨论这个...
网易新闻
网易新闻
AI早知道|苏宁易购上线灵思店员AI 助手;OpenAI 开源 BrowseComp 网易号 互联网早读课 2025-04-14 英伟达 开源「描述一切」模型 视频 机器之心Pro 2025-04-26 当FPGA遇上 开源,要变天了 网易号 半导体产业纵横 2025-04-26 开源 音乐神器,云母音乐,开源 绿色无广告~ 视频 木木创业基地 2025-04-22 OpenAI正打造“最强”开源 模型 最早夏初发布 科技 网易科技报道 2025-04-...
openai.com
openai.com
A simple and challenging benchmark that measures the ability of AI agents to locate hard-to-find information.
https://static-favicon.basemind.com/01JV5NJ6R2D0WH5JD062AXJ2G4
https://static-favicon.basemind.com/01JV28GFZSVS4APS368GT11K70
https://static-favicon.basemind.com/01JV2W0ZVNKF6947TCR4J2EE30
View all 14 sources

让我继续搜索更多关于GAIA和BrowseComp基准测试的详细信息,特别是关于各大模型厂商的具体表现数据。

搜索

Search

GAIA benchmark leaderboard results Claude GPT-4 Gemini
东方财富网
东方财富网
图片来源:视觉中国 北京时间12月7日凌晨,谷歌宣布推出最新的多模态大模型Gemini 1.0,称其是规模最大、功能最强的人工智能模型。谷歌发布的技术报告显示,Gemini在文本和编码等一系列基
知乎
知乎
AI辅助编程 领域一直备受关注,已有的编程AI模型实在太多太多了,今天重点来看看目前最强的两款模型,Claude 4 和谷歌 Gemini 2.5 Pro-0605。 今年5月23日,Anthro
CSDN技术社区
CSDN技术社区
GAIA(General AI Assistant Benchmark) GAIA是Meta等提出的 通用AI助手 能力基准,共466道真人设计的问题 klu.ai 与传统NLP基准不同,GAIA的问题贴近现实场景,往往需要模型具有 推理、多模态处理、网络浏览和工具使用 等一系列能力 ai.meta.com 。题目可能附带网页、图像、表格等文件,需要模型检索信息并给出解决方案 klu.ai。GAIA采用 过程评分,不仅...
维科号
维科号
huggingface排行榜:https://huggingface.co/spaces/gaia-benchmark/leaderboard 问题规模:共包含466个问题,其中166个公开开发集问题和答案,300个测试集问题保留答案用于排行榜竞争。问题类型:多数问题为文本形式,部分附带图像、电子表格等多模态文件(如解析表格数据或识别图像信息)。任务场景:涵盖日常个人任务(如查找网页注册信息)、科学问题(如数据分析)及通用知识查询。答案格式:每个问题对应...
CSDN技术社区
CSDN技术社区
GAIA(General AI Assistants Benchmark)是2025年新推出的AI评估基准,旨在通过 模拟真实世界的复杂任务,全面衡量AI在 多步骤推理、工具调用、跨模态处理 等领域的综合能力。其核心特点包括: 真实性问题设计:包含466个非结构化问题,覆盖基础、中级、高级三个难度层级,例如“根据用户需求生成市场趋势分析报告”或“结合图文信息完成医疗诊断建议”。工具链依赖:测试AI调用搜索引擎、API接口、代码执行等工具的能力,强调 实际应用中的灵活性与自...
今日头条
今日头条
Manus一炮走红!简单比喻吧,如果说OpenAi是研究生,Manus就是博士!下面这张GAIA Benchmark对比图用数据讲了个"学霸班级"的故事:manus.ai 同学简直是全级模范生!看成绩单— Level 1:manus.ai 以86.5%的超高正确率稳坐第一把交椅,OpenAI同学74.8%紧随其后,Previous SOTA就像课堂后排打瞌睡的同学(67.9%) Level 2:学霸继续领跑70.1%,OpenAI微弱落后0.1%(69.1%),而老同学还在迷糊状态(67....
搜狐网
搜狐网
有多厉害呢,在“GAIA Benchmark”(通用人工智能基准测试)图表中,Genspark在三个不同级别(Level 1、Level 2、Level 3)测试中的表现,都超越了Manus、OpenAI Deep Research 等产品。但对于刚刚正式海外上线的Manus而言,GenSpark显然并没有瞄准它作为竞争对手,而是选择Perplexity、秘塔AI以及过去的自己,颠覆AI搜索显然是个更大的市场。如今的AI搜索有几个痛点: 问题思考的时长,回答的长短不好控制,受限于模型能力,...
搜狐网
搜狐网
深度解析:OWL开源复刻Manus,GAIA Benchmark性能突破57.7% 在当前信息技术飞速发展的时代,人工智能作为推动科技进步的重要力量,正在不断地变革各个领域。最近,AI圈内广为讨论的项目无疑是Manus,这是一款据称能实现多个复杂任务的AI代理程序。其远程操控、自动化操作等功能让人惊叹,但随着技术的不断进步,开源项目也逐渐崭露头角,OWL项目的出现,正是这种趋势的典型代表。它不仅成功复刻Manus的多项功能,且在GAIA Benchmark性能测试中取得了...
https://static-favicon.basemind.com/01JV2KB37APT5FAMB99C4MFDFA
https://static-favicon.basemind.com/01JV2KB37APT5FAMB99C4MFDFA
https://static-favicon.basemind.com/01JV1Y8QA2X4A8SN7JRDDNP340
View all 13 sources

让我继续搜索更多关于GAIA和BrowseComp基准测试的详细榜单信息,特别是关注最新的排行榜数据。

网页解析

已掌握的信息

  1. 基准测试基本情况:已明确GAIA和BrowseComp两个核心Agent评测基准的设计目标、评测维度和任务特点。GAIA(由Meta、Hugging Face等推出)侧重于通用AI助手的多模态、多工具和推理能力,并分为三个难度等级。BrowseComp(由OpenAI推出)则专注于测试Agent在真实网络环境中查找高难度、纠缠信息的能力,其问题对大多数模型(包括GPT-4o)极具挑战性。
  2. 初步性能数据:已通过初步搜索获取了部分关键数据。对于GAIA,已发现一个由普林斯顿大学维护的排行榜,其中包含了Claude 3.5 Sonnet、GPT-4o、OpenAI o1/o3系列等模型的具体得分和分级表现。此外,还了解到Manus、GenSpark等新兴Agent在此基准上表现优异。对于BrowseComp,已获知GPT-4o等通用模型得分极低(约1-2%),而OpenAI专门训练的Deep Research模型表现突出(约51.5%),但尚未找到一个集中的官方排行榜。

下一步行动计划

  1. 获取官方权威榜单数据:当前的首要任务是获取两个基准最完整、最新的官方排名数据。虽然已有一个第三方GAIA榜单,但仍需尝试从其官方渠道获取最新信息。对于BrowseComp,需要深入探索其发布源头,以确定是否存在一个官方或半官方的、持续更新的排行榜。
    • 信息源
      • GAIA:Hugging Face上的官方Leaderboard页面 (huggingface.co/spaces/gaia-benchmark/leaderboard)。
      • BrowseComp:OpenAI的官方GitHub仓库 (github.com/openai/simple-evals) 及其相关发布公告。
  2. 数据整合与交叉验证:将从官方渠道、第三方榜单及各大厂商技术报告中搜集到的所有性能数据进行汇总。创建一个以模型/厂商为核心的综合数据表,对齐并验证各模型在GAIA(总分及Level 1/2/3)和BrowseComp上的准确率。
  3. 构建最终报告:基于整理好的数据,撰写一份包含核心发现的分析报告。报告将以清晰的表格和图表形式,直观展示各大模型厂商在两个关键Agent基准上的性能排名与差异,并附上对评测基准和模型表现的简要分析。

下面先尝试直接访问GAIA的官方Hugging Face排行榜,获取最新的详细数据。

搜索

Search

HAL GAIA Leaderboard Princeton University
美国普林斯顿大学
美国普林斯顿大学
The Holistic Agent Leaderboard (HAL) is the standardized, cost-aware, and third-party leaderboard for evaluating agents.
腾讯
腾讯
基准测试如 ToolAlpaca、APIBench 和 Berkeley Function Calling Leaderboard 针对不同复杂度的工具使用场景提供评估,而最新的 ToolSandbox 和 API-Blend 等框架进一步模拟了现实世界中的复杂API交互,为你的Agent工具调用能力提供了全面的评估标准。KwaiKEG团队 推出的 KAgentBench 补充了这一领域,它包含超过3,000个人工编辑的自动化评估数据,专门测试Agent的工具使用能力以及规划、反思、总结和...
微软
微软
了解如何访问 Azure 工作簿中已弃用的故障排除指南。这些故障排除指南现已弃用,不再提供“故障排除指南”菜单项。仍可在左侧的 Azure 工作簿菜单中访问故障排除指南。使用“更改类型”功能更改工作簿类型,并将其从故障排除指南库移动到工作簿库。使用“更改类型”工具栏项更改工作簿类型 选择“编辑”,将工作簿切换到编辑模式。选择“编辑”图标,然后选择“更改类型”。此时将打开一个包含下拉列表的窗口,该列表列出了可更改的工作簿类型。请选择“工作簿”,然后选择“确定”。右上角会出现成功状态弹出窗口。更改可能需要一分钟...
coursera.org
coursera.org
Princeton University 7 Courses•1,945,911 learners 13 modules Gain insight into a topic and learn the fundamentals. 4.9 (11,828 reviews) Intermediate level Some related experience required Flexible schedule Approx.54 hours Learn at your own pace 97...
princeton.edu
princeton.edu
Princeton welcomes applications from students around the world.Information for international students applying for undergraduate degrees(Link is external)are available on the Office of Undergraduate Admission website(Link is external).Internationa...
戴尔
戴尔
尝试在不卸载以前版本的情况下更新 Alienware Over Clocking Controls 应用程序时,您可能会收到“安装失败”错误。
美国普林斯顿大学
美国普林斯顿大学
Stay connected for the latest books,Ideas,and special offers. Stay connected for the latest book news. United States 41 William Street Princeton,New Jersey 08540 United States Phone:+1 609 258 4900 Princeton Asia(Beijing)Consulting Co.,Lt...
微软
微软
发布了一个已知问题:无法从 Excel 连接到语义模型或使用 Excel 中的分析。
https://static-favicon.basemind.com/01JV1VRBM3PXHTPE9XWN5MBMPF
https://static-favicon.basemind.com/01JV1Y8QA2X4A8SN7JRDDNP340
https://static-favicon.basemind.com/01JV2KB37APT5FAMB99C4MFDFA
View all 14 sources

我找到了一些有关GAIA基准测试的排行榜信息,但还需要获取更完整的数据。让我尝试直接访问Princeton大学HAL项目的GAIA排行榜页面,获取最新的详细数据。

网页解析

现在我需要获取关于BrowseComp基准测试的更详细信息,特别是各大模型在该基准上的表现数据。

网页解析

现在我需要获取更多关于BrowseComp的具体排行榜数据,特别是除了OpenAI模型外的其他厂商模型的表现。

搜索

Search

BrowseComp benchmark leaderboard complete results Gemini Claude Llama
docin.com
docin.com
Mialonetal.,2023)(mosto)thesebenchmarks,ocusonretrievingin,ormationthatcanbe,oundeasily,andhencehavebecomesaturatedbyrecentlanguagemodels.Here we introduce a new benchmark called BrowseComp,which stands,or“Browsing Competition”and compris...
搜狐网
搜狐网
当地时间4月10日,美国开放人工智能研究中心(OpenAI)宣布开源包含1266个挑战性问题的基准测试BrowseComp。OpenAI表示,一个高性能的浏览智能体应该能够定位那些难以查找、可能需要在浏览数十甚至数百个网站的过程中才能获取的信息。现有基准测试(如SimpleQA)主要衡量模型检索基本孤立事实的能力,这类测试已被具备快速浏览工具(如支持浏览功能的GPT-4o)的模型所饱和。为了衡量AI智能体在互联网上定位难以查找、
搜狐网
搜狐网
在近期的人工智能领域动态中,美国开放人工智能研究中心(OpenAI)于4月10日发布了新开源项目BrowseComp,此基准测试包含1266个挑战性问题,旨在评估AI智能体在互联网上有效定位和提取难以查找信息的能力。这一举措不仅标志着OpenAI在基准测试方法上的 技术革新,还强调了其在AI超越基本事实检索的使命。对于现代AI模型的挑战,传统的基准测试如SimpleQA已趋于饱和,其主要衡量模型检索孤立事实的能力,尤其是在现今支持浏览的先进模型(如GPT-4o)崭露头角后,传统测试的局限愈...
搜狐网
搜狐网
2025年4月10日,美国领先的人工智能研究机构OpenAI宣布开源一项全新的基准测试方案—BrowseComp,其中包含1266个挑衅性的检索问题。该测试旨在提升人工智能在浏览互联网时信息定位的能力,尤其是在寻找硬找到的、相互关联的信息方面。在互联网信息爆炸的时代,获取信息的方式正在发生翻天覆地的变化。过往的基准测试,如SimpleQA,主要用来衡量模型获取孤立事实的能力,但随着支持浏览功能的GPT-4o等模型的崛起,这类评估已不再能完全满足需求。用户对于获取更复杂信息的要求日益提高,这...
搜狐网
搜狐网
今天凌晨2点,OpenAI正式推出了新的开源项目—BrowseComp,这一专门用于测试智能体浏览器功能的基准引发了科技圈的热议。BrowseComp的推出,不仅意味着对智能体浏览技术的重新定义,更是对当今AI能力的一次巨大挑战。值得注意的是,此测试基准的难度之高,即便是OpenAI内部的最新模型,如GPT-4o和GPT-4.5,其准确率仅为0.6%和0.9%。即便是具备浏览器功能的GPT-4o,其表现也不过1.9%。这一数据不仅让人惊讶,更突显了BrowseCo...
腾讯
腾讯
今天凌晨 2 点,OpenAI 开源了专门用于智能体浏览器功能的测试基准—BrowseComp。这个测试基准非常有难度,连 OpenAI 自己的 GPT-4o、GPT-4.5 准确率只有 0.6%和 0.9%几乎为 0,即便使用带浏览器功能的 GPT-4o 也只有 1.9%。但 OpenAI 最新发布的 Agent 模型 Deep Research 准确率高达 51.5%,在自主搜索、信息整合、准确性校准方面非常优秀。开源地址:https://github.com/openai/simpl...
arxiv.org
arxiv.org
Our dataset, construction guidelines, and benchmark results have been publicly released at https://github.com/PALIN2018/BrowseComp-ZH.
arxiv.org
arxiv.org
The final BrowseComp-ZH dataset consists of 289 complex questions, each with multiple constraints and unique answers, spanning 11 diverse ...
https://static-favicon.basemind.com/01JV2KB37APT5FAMB99C4MFDFA
https://static-favicon.basemind.com/01JV1W94Y24SSB50CST7CZCDHX
View all 10 sources

已掌握的信息

  1. GAIA基准测试榜单已获取:已成功从普林斯顿大学的HAL项目中获得了GAIA基准测试的详细排行榜。该榜单数据完整,包含了来自Anthropic(Claude系列)、OpenAI(GPT-4o、o-series系列)和Meta(Llama 3.1)等多家厂商的8个主流模型,并详细列出了它们在三个难度级别上的准确率、总体排名及API调用成本。目前,Claude-3-5-sonnet以57.58%的准确率位居榜首。
  2. BrowseComp基准测试特性与部分数据明确:已深入了解BrowseComp是由OpenAI推出的高难度网络浏览基准。其核心特点是问题答案难以通过常规搜索找到,旨在测试Agent深度、持久和创造性的信息搜寻能力。已获取OpenAI自家模型的性能数据,结果显示通用模型(如GPT-4o,准确率约1.9%)表现不佳,而专门训练的Deep Research模型则表现优异(准确率达51.5%)。
  3. BrowseComp完整榜单缺失:尽管多次尝试,目前尚未发现一个像GAIA那样包含多家厂商(如Google, Anthropic)模型的、公开的、集中的BrowseComp排行榜。现有数据主要来源于OpenAI的官方发布,缺乏第三方模型的直接对比。

下一步行动计划

  1. 最终确认并整合BrowseComp数据:进行最后一次有针对性的信息搜集,重点查找Google、Anthropic、Meta等主要厂商发布的官方技术报告、博客或论文,确认其顶尖模型(如Gemini、Claude系列)是否公布过在BrowseComp上的性能数据。即使没有完整榜单,零散的数据也极具价值。
  2. 构建综合性能对比矩阵:将已获取的完整GAIA排行榜数据和搜集到的所有BrowseComp性能数据,整合到一个统一的结构化表格中。该表格将清晰地展示各模型在两个不同特性的Agent基准下的表现,并明确标注BrowseComp数据的来源和不完整性。
  3. 数据可视化与报告撰写:基于整理好的数据矩阵,生成一系列对比图表(如条形图),直观地比较各模型在GAIA(分级别对比)和BrowseComp上的性能。最后,撰写一份全面的研究报告,内容包括对两个基准的介绍、完整的性能榜单图表,并对结果进行分析,特别是解读模型在不同类型任务上的能力差异以及当前Agent评测的现状。

让我继续搜索关于BrowseComp的更多信息,特别是其他厂商模型的表现数据。

搜索

Search

BrowseComp benchmark Claude Gemini Llama performance results
腾讯
腾讯
参赛选手包括GPT-4o、Claude、Llama、Gemini、Grok等。其实这是最近爆火的一种新的 测试基准(doge)。游戏结果一定程度上能反映出大模型能力,比如这组测试一共进行了6局游戏,表现最好的是 Claude:它赢了3次!GPT-4o表现有点抽象。就它画的这龙卷风,人类也看不懂。不止如此,在很多轮游戏中,其他模型都在认认真真地答题,而它的第一个回答经常是 Circle?有点子抽象。所以有人就说,这游戏可以当测试基准来用啊。还有人表示,AI...
腾讯云
腾讯云
让Gemini 2当裁判,看Claude3.5和GPT-4如何过招 说起LMSys,这可是AI界的"拳击台。所有的模型提供商都会把自己的模型和 API 提交给他们测试,就像运动员参加奥运会一样。而我们这些普通用户,就是观众,可以给不同模型的表现投票打分。前段时间LMSys刚推出了Copilot Arena(这是一个用于 Cursor AI 和 Copilot 等工具的新型 AI 助手比较平台),让Claude 3.5、GPT-4O这些顶级模型同台竞技。这...
51cto.com
51cto.com
Instruct-tuned模型与Gemma、Mistral、Gemini Pro 1.5、Claude 3 Sonnet在MMLU、GSM-8k等benchmark上的对比如下: 图片 Llama 3 70B在MMLU、HumanEval和GSM-8K三项测试中胜过Gemini 1.5 Pro。尽管它无法与Anthropic表现最为强劲的模型Claude 3 Opus匹敌,但在五个基准(MMLU、GPQA、Human...
东方财富网
东方财富网
抛开备受争议的LM Arena测试,Meta公布的结果显示,Llama 4 Maverick在部分基准测试上表现优于GPT-4o、Gemini 2.0 Flash、DeepSeek-V3等模型,但不及更为领先的GPT-4.5、Claude 3.7 Sonnet、Gemini 2.5 Pro等。尚未发布的Llama 4 Behemoth会在以 STEM 为重点的基准测试上对标这些顶尖模型。此外,目前Meta公布的模型中还没有类似OpenAI o1、Deep...
CSDN技术社区
CSDN技术社区
看这个结果,你就说屌不屌吧,拳打Claude3.5,脚踢GPT-4o,还把Gemini1.5 Pro和Llama3.1 405B给摁在地上摩擦。你很难想象这只是一个两个人花三周训的70B的模型能干出来的事。直到7号,Artificial Analysis用他们自己的标准评测集跑了一通,发现这事不对啊,你这么多项评测集都登顶了,你应该很牛逼才对啊,这得分什么情况?他们是这么说的: “哥们,我们测完了咋感觉你比Llama3.1 70B更拉了呢?老实说,你是不是在骗兄弟们。Ma...
网易
网易
与o3/o4-mini、Claude 4 Opus、DeepSeek-R1相比,只有Gemini 2.5 Flash-Lite每秒输出的token数接近350个。Gemini 2.5最大的改进在于该系列所有模型都原生的融入了动态「Thinking」能力,能够根据推理时间的增加进一步增加能力。面向特定能力的改进 Gemini 2.5进行了专门「领域」能力的优化:代码处理能力、事实准确性、长文本理解、多语言能力、音频和视频处理能力,以及智能...
正观新闻
正观新闻
抛开备受争议的LM Arena测试,Meta公布的结果显示,Llama 4 Maverick在部分基准测试上表现优于GPT-4o、Gemini 2.0 Flash、DeepSeek-V3等模型,但不及更为领先的GPT-4.5、Claude 3.7 Sonnet、Gemini 2.5 Pro等。尚未发布的Llama 4 Behemoth会在以 STEM 为重点的基准测试上对标这些顶尖模型。此外,目前Meta公布的模型中还没有类似OpenAI o1、Deep...
搜狐网
搜狐网
和人类的高考一样,它们也有自己的考试—基准测试(Benchmark)。不过,高考就那么几个科目,基准测试的花样就多了,有的考察通识,有的专攻某一项能力,数学、代码、阅读理解,无所不包。Google 发布Gemini 时的基准测试排名 基准测试的好处是直观,榜单这么一拉,得分高低一目了然,比大段的文字更有拉拢用户的效果。然而,测归测,准不准就不一定了。因为最近的一个疑似造假事件,基准测试的可信度又下降了一层。开源模型新王者,转眼被「打假」 9 月 6 日,Reflectio...
https://static-favicon.basemind.com/01JV28GFZSVS4APS368GT11K70
https://static-favicon.basemind.com/01JV28GFZSVS4APS368GT11K70
https://static-favicon.basemind.com/01JV1W25BJEQ8DBK4PND1YMDKG
View all 13 sources

我已经收集了足够的信息,现在可以提供一份关于GAIA和BrowseComp这两个主要Agent评测基准的综合报告。

可视化工具

可视化工具

现在我将创建一个关于BrowseComp基准测试的可视化图表,展示各模型的性能表现。

可视化工具

可视化工具

基于收集到的数据和可视化结果,我将提供一份关于GAIA和BrowseComp这两个主要Agent评测基准的综合分析报告。

GAIA和BrowseComp基准测试:主流大模型厂商性能榜单分析报告

1. 引言

随着人工智能技术的迅速发展,评估AI代理(Agent)能力的基准测试变得越来越重要。本报告将详细分析两个最具代表性的Agent评测基准:GAIA和BrowseComp,并提供各大模型厂商在这些基准上的完整性能榜单。

GAIA(General AI Assistant Benchmark)是由Meta、HuggingFace和AutoGPT团队联合推出的基准测试,旨在评估通用AI助手在现实场景中处理多步骤推理、工具使用和多模态任务的能力CSDN技术社区。而BrowseComp则是OpenAI开发的一个专注于测试AI代理网络浏览能力的基准,包含1,266个需要在互联网上持续搜索难以找到、相互关联信息的问题cdn.openai.com

2. GAIA基准测试概述

2.1 GAIA基准设计原则

GAIA聚焦于对人类简单但对AI困难的任务,例如需要多工具协作的日常查询(如网页搜索+数据分析+逻辑推理)CSDN技术社区。其问题源自真实场景,如计算临床试验注册人数、解析政府文件中的营养成分标准等。

GAIA采用三级难度体系CSDN技术社区

  • Level 1(基础任务):单一步骤或简单工具使用,如基本搜索/计算
  • Level 2(中级任务):5-10步操作及多工具协同
  • Level 3(高级任务):开放式复杂任务,需自主规划步骤链和工具组合

2.2 GAIA榜单:主流模型性能对比

以下是基于Princeton大学HAL项目的GAIA基准测试排行榜,展示了各大模型厂商的最新性能数据:

资料来源: 美国普林斯顿大学

从GAIA榜单数据分析可见,Anthropic的Claude系列模型表现最为出色,Claude-3-5-sonnet以57.58%的总体准确率位居榜首美国普林斯顿大学。OpenAI的o1-preview模型紧随其后,与Claude-3-7-sonnet并列第二,总体准确率均为56.36%。值得注意的是,所有模型在Level 3(最高难度)的表现都明显低于其他级别,表明这一级别确实代表了模型能力的显著跃升美国普林斯顿大学

此外,GAIA测试还考量了模型的运行成本,这对实际应用场景具有重要参考价值:

资料来源: 美国普林斯顿大学

成本数据显示,o1-preview模型使用成本最高,达到$641.52,而o3-mini和gpt-4o-mini的成本相对较低美国普林斯顿大学。这表明在实际应用中,需要在性能和成本之间做出权衡。

2.3 其他模型在GAIA上的表现

除了HAL项目的官方榜单外,还有一些其他模型在GAIA基准上的表现值得关注:

  1. h2oGPTe Agent:据报道,h2oGPTe Agent在GAIA基准测试中取得了65%的前所未有的分数,成为榜首businesswire.com。这表明AI已经接近人类在该基准上的表现(人类平均成功率约为92%)CSDN技术社区

  2. 天桥脑科学研究院的OMNE:该研究院的OMNE多智能体框架在Hugging Face发布的GAIA排行榜中占据了榜首位置,超越了包括微软研究院在内的一些全球顶尖机构的框架腾讯

  3. Manus:在Level 1-3的得分分别为86.5%、70.1%和57.7%,总体表现优于OpenAI的模型今日头条

  4. GenSpark:据报道,GenSpark在GAIA基准测试的三个不同级别测试中的表现都超越了Manus和OpenAI Deep Research等产品搜狐网

  5. OWL项目:作为一个开源复刻Manus的项目,在GAIA Benchmark性能测试中也达到了57.7%的突破搜狐网

这些数据表明,GAIA基准测试已成为评估AI代理能力的重要标准,各大厂商和研究机构都在此基准上展开激烈竞争。

3. BrowseComp基准测试概述

3.1 BrowseComp基准设计原则

BrowseComp是OpenAI开发的一个专注于测试AI代理网络浏览能力的基准,包含1,266个挑战性问题搜狐网。与传统基准不同,BrowseComp的问题设计采用"反向"方式:从一个事实出发,创建一个答案难找但易验证的问题openai.com

BrowseComp的问题特点包括:

  • 问题简短自包含,答案通常是单个短字符串
  • 问题通常包含多个约束条件,需要匹配多个特征才能找到正确答案
  • 需要浏览大量网站才能解决问题cdn.openai.com

3.2 BrowseComp榜单:主流模型性能对比

以下是各大模型在BrowseComp基准测试上的表现:

资料来源: 搜狐网arxiv.org

BrowseComp榜单数据显示,OpenAI的Deep Research模型表现最为突出,准确率达到51.5%搜狐网。而在中文版的BrowseComp-ZH测试中,DeepResearch也取得了42.9%的准确率arxiv.org。相比之下,其他模型的表现则相形见绌,即使是强如GPT-4o的模型,准确率也仅为0.6%,加上浏览功能后也只有1.9%搜狐网

这一巨大差距表明,BrowseComp确实是一个极具挑战性的基准测试,专门针对AI代理的网络浏览和信息检索能力设计。值得注意的是,人类训练师在两小时内也仅能解决29.2%的BrowseComp问题搜狐网,这进一步证明了该基准的难度。

3.3 BrowseComp-ZH:中文网络浏览能力测试

作为BrowseComp的中文版本,BrowseComp-ZH是一个专门评估大语言模型在中文网络环境中浏览能力的高难度基准arxiv.org。该基准包含289个多跳问题,涵盖11个不同领域,每个问题都是从一个简短、客观且易于验证的答案(如日期、数字或专有名词)反向设计而来arxiv.org

在BrowseComp-ZH的测试中,尽管现有模型具有强大的对话和检索能力,但大多数模型的表现都相当挣扎:大量模型的准确率低于10%,只有少数几个超过20%arxiv.org。即使是表现最好的系统OpenAI的DeepResearch,也只达到了42.9%的准确率arxiv.org。这些结果表明,BrowseComp-ZH具有相当的难度,成功不仅需要有效的检索策略,还需要复杂的推理和信息整合能力——这些都是当前模型仍在努力掌握的能力。

4. 综合分析与比较

4.1 GAIA与BrowseComp的评测侧重点对比

GAIA和BrowseComp作为两个主要的Agent评测基准,各有其独特的侧重点:

评测基准主要侧重点问题数量难度特点主要挑战
GAIA多模态处理、工具使用、推理能力466个分为3个难度级别多步骤推理、工具协同、跨模态信息整合
BrowseComp网络浏览、信息检索、持久性搜索1,266个极高难度,需大量浏览定位难以找到的信息、匹配复杂约束条件

GAIA更注重全面评估AI助手的通用能力,包括多模态处理、工具使用和推理能力CSDN技术社区,而BrowseComp则专注于测试AI代理在互联网上定位难以找到、相互关联信息的能力openai.com

4.2 各大厂商模型在两个基准上的综合表现

通过对比各大厂商模型在GAIA和BrowseComp上的表现,我们可以得出以下几点结论:

  1. Anthropic的Claude系列:在GAIA基准上表现最为出色,Claude-3-5-sonnet和Claude-3-7-sonnet分别以57.58%和56.36%的总体准确率位居榜首和第二美国普林斯顿大学。然而,在BrowseComp基准上,目前尚未找到Claude系列的公开测试数据。

  2. OpenAI的模型:在GAIA上,o1-preview与Claude-3-7-sonnet并列第二,总体准确率为56.36%美国普林斯顿大学;在BrowseComp上,专门训练的Deep Research模型表现突出,准确率达51.5%搜狐网,远超其他模型。

  3. Meta的Llama系列:在GAIA上,Meta-Llama-3.1-405B-Instruct-Turbo的表现相对较弱,总体准确率仅为12.12%美国普林斯顿大学;在BrowseComp上,目前尚未找到Llama系列的公开测试数据。

  4. Google的Gemini系列:在已搜集的GAIA和BrowseComp官方榜单中,尚未找到Gemini系列的公开测试数据。

4.3 模型评测的局限性与挑战

尽管GAIA和BrowseComp为评估AI代理能力提供了有价值的基准,但我们也需要认识到模型评测面临的局限性与挑战:

  1. 评测机制的可信度:随着模型能力的提升,评测机制的可信度面临挑战。例如,Meta的Llama 4模型在LM Arena评测榜中因使用针对对话优化的实验版本而引发争议东方财富网

  2. 刷榜现象:一些模型可能通过在特定基准测试上进行优化或强化,使测试表现明显虚高东方财富网。这种"刷榜"现象使得评测结果的可信度受到质疑。

  3. 评测多样性不足:现有评测主要集中在英文环境下,对其他语言(如中文)的支持相对有限arxiv.org。BrowseComp-ZH的出现在一定程度上弥补了这一不足。

5. 结论与展望

通过对GAIA和BrowseComp两个主要Agent评测基准的分析,我们可以得出以下结论:

  1. Anthropic和OpenAI领先:在GAIA基准上,Anthropic的Claude系列和OpenAI的o1系列表现最为出色;在BrowseComp基准上,OpenAI的Deep Research模型遥遥领先。

  2. 专业化与通用化并存:随着AI技术的发展,一些模型(如Deep Research)开始在特定任务上进行专业化训练,而另一些模型(如Claude系列)则保持较强的通用能力。

  3. 评测体系仍在完善:随着AI代理能力的不断提升,评测基准也需要不断更新和完善,以更全面、客观地评估模型性能。

未来,我们可以期待更多样化、更具挑战性的Agent评测基准的出现,以及各大厂商在这些基准上的持续竞争与创新。同时,评测机制本身也需要不断优化,以提高可信度和公正性,为AI代理的发展提供更有价值的参考。

参考资料

  1. GAIA基准测试官方文档与排行榜
  2. BrowseComp基准测试官方文档与研究报告
  3. Princeton大学HAL项目GAIA排行榜
  4. BrowseComp-ZH研究论文

Key references