GAIA与BrowseComp基准模型榜单

2025/06/23·StepFun can make mistakes, check important info.

请给我找出GAIA和browsecomp 等AGENt bmk里几家基模厂商最完整的指标榜单

Sources

我将帮您整理GAIA和BrowseComp等Agent评测基准中各大模型厂商的指标榜单。为了提供最完整的信息，我需要澄清几点:

您希望看到哪些主要模型厂商的数据？(例如：OpenAI、Meta、Anthropic、国内的百度/智谱等)
您是否需要特定时间段的榜单数据？(最新的还是某个特定时期的对比)
除了GAIA和BrowseComp外，您是否还关注其他Agent评测基准的榜单？(如AgentBench等)

直接跳过

好的，我将为您制定一个分步骤的总体性计划，以完成关于GAIA和BrowseComp等Agent评测基准中各大模型厂商的指标榜单研究报告。

Research plan

研究计划：主流AI Agent评测基准（GAIA & BrowseComp）性能榜单分析报告

第一阶段：基准背景与评估维度研究

此阶段旨在深入理解各项评测基准的核心设计理念、评测重点及评估指标，为后续的数据分析建立坚实的认知基础。

解析核心评测基准：系统性研究GAIA和BrowseComp两个主要评测基准。重点关注其设计目标（例如，GAIA侧重于通用助手能力，BrowseComp聚焦于高难度网络浏览与信息整合）、任务类型、难度分级以及对模型能力（如工具使用、多模态理解、推理链）的具体要求。
识别关键评估指标：明确每个基准的核心量化指标。例如，GAIA的“Pass@1准确率”和不同难度等级的得分；BrowseComp的“准确率”。同时，关注任何辅助性指标，如任务完成步骤数、耗时等。

信息来源：

官方发布平台：访问各评测基准的官方托管页面，如Hugging Face Spaces和GitHub仓库，以获取最权威的介绍文档和数据集信息。
学术论文：查阅并研读发布这些基准的原始研究论文（通常发布在arXiv.org等预印本网站），以理解其背后的学术动机和方法论。

第二阶段：多源数据采集与交叉验证

此阶段的核心任务是全面搜集各大模型在目标评测基准上的性能数据，并确保数据的准确性和完整性。

搜集官方排行榜数据：定位并访问GAIA和BrowseComp的官方排行榜。系统性地提取榜单上所有模型的名称、其背后的研发机构/厂商以及对应的性能分数。
挖掘补充性信息：通过网络检索，查找各大模型厂商（如OpenAI, Meta, Google, Anthropic及国内主要厂商）发布的官方技术报告、博客文章或新闻稿。这些材料中通常会包含其最新模型在关键基准上的表现，可作为官方榜单的补充和验证。
数据清洗与对齐：整合从不同来源获取的数据。注意区分验证集（Validation Set）得分和测试集（Test Set）得分，并以官方测试集结果为准。统一模型命名，并将模型与其所属厂商进行关联。

信息来源：

官方排行榜：GAIA在Hugging Face上的官方Leaderboard；BrowseComp在OpenAI官方GitHub或相关发布页面上的数据。
厂商官方渠道：各大AI研究机构和公司的官方网站、博客及社交媒体账号。
科技媒体与社区：权威的AI领域新闻网站、技术社区（如CSDN、稀土掘金）和行业分析报告，用于发现和验证模型性能数据。

第三阶段：数据整合与可视化呈现

此阶段旨在将收集到的零散数据进行结构化处理，并通过可视化的方式清晰、直观地呈现对比结果。

构建综合性能矩阵：创建一个总览表，以模型/厂商为行，以评测基准及其子项目（如GAIA Level 1/2/3）为列，填入对应的性能得分。
生成对比图表：基于整理好的数据，生成一系列对比图表。例如，可以为GAIA和BrowseComp分别制作总分排名的条形图，或针对GAIA的不同难度等级制作分组条形图，以直观展示各模型在不同挑战下的表现差异。

第四阶段：撰写研究报告

此阶段是将所有研究成果系统性地组织成一份逻辑清晰、图文并茂的最终报告。

报告结构设计：
- 引言：简述AI Agent及相关评测基准的重要性。
- 基准介绍：分别详细介绍GAIA和BrowseComp的评测机制。
- 核心发现：性能榜单：展示在第三阶段制作的综合性能表格与可视化图表，并配以文字解读，清晰列出各厂商模型的排名情况。
- 总结与展望：总结当前各大模型在Agent任务上的整体表现，并指出可能的未来发展趋势。
报告撰写与完善：依据设计的结构，填充各部分内容，确保报告的全面性、逻辑性和易读性。

开始研究

Deep Research

让我们开始搜索相关信息。

GAIA benchmark leaderboard AI models performance

CSDN技术社区

榜单链接：https://huggingface.co/spaces/gaia-benchmark/leaderboard 简介 GAIA(General AI Assistants Benchmark)是由Meta、HuggingFace和AutoGPT团队联合推出的基准测试，旨在评估通用AI助手在现实场景中处理多步骤推理、工具使用和多模态任务的能力。任务设计...

维科号

huggingface排行榜：https://huggingface.co/spaces/gaia-benchmark/leaderboard 问题规模：共包含466个问题，其中166个公开开发集问题和答案，300个测试集问题保留答案用于排行榜竞争。问题类型：多数问题为文本形式，部分附带图像、电子表格等多模态文件（如解析表格数据或识别图像信息）。任务场景：涵盖日常个人任务（如查找网页注册信息）、科学问题（如数据分析）及通用知识查询。答案...

美国普林斯顿大学

GAIA is a benchmark for General AI Assistants that requires a set of fundamental abilities such as reasoning, multi-modality handling, web browsing, and tool- ...

CSDN技术社区

GAIA（General AI Assistants Benchmark）是2025年新推出的AI评估基准，旨在通过模拟真实世界的复杂任务，全面衡量AI在多步骤推理、工具调用、跨模态处理等领域的综合能力。其核心特点包括：真实性问题设计：包含466个非结构化问题，覆盖基础、中级、高级三个难度层级，例如“根据用户需求生成市场趋势分析报告”或“结合图文信息完成医疗诊断建议”。工具链依赖：测试AI调用...

CSDN技术社区

GAIA（General AI Assistants Benchmark）是一个专注于评估通用人工智能助手在自主规划、多步骤推理、工具调用、上下文记忆、多模态处理等现实任务中综合能力的基准测试。其测试用例设计强调对人类简单但对AI复杂的任务，覆盖从基础到高级的多样化场景。以下是其测试用例的主要类型及示例：一、测试用例的核心分类与示例 1.基础任务（Level 1）特点：单一步骤或简单工具使用（如基本搜索、计算）。示...

CSDN技术社区

GAIA(General AI Assistant Benchmark) GAIA是Meta等提出的通用AI助手能力基准，共466道真人设计的问题 klu.ai 与传统NLP基准不同，GAIA的问题贴近现实场景，往往需要模型具有推理、多模态处理、网络浏览和工具使用等一系列能力 ai.meta.com 。题目可能附带网页、图像、表格等文件，需要模型检索信息并给...

开源中国社区

公开排行榜 https://hf.co/spaces/gaia-benchmark/leaderboard 下面让我们继续构建合适的工具 ️ 我们使用了三种主要工具来解决 GAIA 问题: a.网页浏览器对于网页浏览，我们主要复用了 Autogen 团队的提交中的 Markdown 网页浏览器。它包含一个存储当前浏览器状态的 Browser 类，以及几个用于网页导航的工具，如 visit_page、page_d...

腾讯

钛媒体App 10月29日消息，天桥脑科学研究院的内部AI团队在人工智能领域取得突破，其自主研发的OMNE多智能体框架在Hugging Face发布的GAIA（通用AI助手）基准排行榜(https://huggingface.co/spaces/gaia-benchmark/leaderboard)中占据了榜首。OMNE超越了包括微软研究院在内的一些全球顶尖机构的框架。这一成就建立在...

View all 11 sources

我看到了关于GAIA和其他Agent基准测试的信息。让我继续搜索更多关于BrowseComp基准测试的信息，以及各大模型厂商在这些基准上的表现。

BrowseComp benchmark leaderboard AI models performance

搜狐网

刚刚，OpenAI开源了一项全新基准测试「BrowseComp」，专为测试AI代理在网络上寻找难以获取信息的能力而设计。这不是普通的AI测评工具，而是一场真正的网络寻宝大挑战！BrowseComp这名字听着就霸气，直译过来就是「浏览竞赛」，像是给AI们办了场互联网淘金比赛。OpenAI这次拿出了 1266个超硬核问题作为测试基准，看看各家AI到底能不能在茫茫网海中找到那根针。这项新基准测试已经在...

搜狐网

BrowseComp的推出，不仅意味着对智能体浏览技术的重新定义，更是对当今AI能力的一次巨大挑战。值得注意的是，此测试基准的难度之高，即便是OpenAI内部的最新模型，如GPT-4o和GPT-4.5，其准确率仅为0.6%和0.9%。即便是具备浏览器功能的GPT-4o，其表现也不过1.9%。这一数据不仅让人惊讶，更突显了BrowseComp在智能体开发和评测领域的权威性。与此形成鲜明对比的是，OpenAI的新款Agent模型—DeepResearch，却...

搜狐网

开源BrowseComp，也是在告诉我们OpenAI对AI透明度和可访问性的重视。科学研究的进步往往依赖于资源的共享与合作，开源策略使得全球的开发者都能够参与到这一技术的进步之中，从而促进整体的技术创新。此外，这种策略也为OpenAI自身的发展注入了新动能，因为更多的研究者能够参与进来，促进技术的多维度发展。这一变革的背景，实际上是在为未来的AI生态圈奠定基础。无论是商业应用，还是科研探索，拥有一个标准化的评测基准，将有助于不同技术之间的横向对比，也能推...

哔哩哔哩

看看 BenchMark 的成绩：【核心指标】纯文本任务综合性能优秀，比肩国际一线模型；多模态性能领先，各方面性能突出；纯文本推理与多模态推理能力均对标 GPT-4.5 和 Gemini 2.0 Pro 等国际一流模型的水平。【强推理能力】日日新融合模型从 5.5 到 V6/V6 Reasoner，推理能力显著提升，多模态和语言深度推理任务上同时超过了 OpenAI 的 o1 和 Gemini 2.0 flash-thinking 的水平。现实生活中小额理赔的材料审核往往需要 3-7 天...

虎嗅网

为了衡量AI智能体在互联网上定位难以查找、相互关联信息的能力，现开源基准测试BrowseComp。2.【傅利叶发布首款开源人形机器人 Fourier N1，加速行业生态共建】 4月11日消息，通用机器人公司傅利叶在上海发布首款开源人形机器人Fourier N1。机器人身高1.3米，体重38公斤，拥有23个自由度，采用铝合金与工程塑料复合结构，续航可达2小时以上，最高奔跑速度3.5米/秒。作为傅利叶“Nexus开源生态矩阵”的首个项目，N1同步开放了涵盖物料清单、设计图纸、...

opp2.com

这个测试，主要就测一个能力：定位很难寻找的、复杂纠缠的信息的能力 A simple and challenging benchmark that measures the ability of AI agents to locate hard-to-find,entangled information. 其实说白了，就是要看看大模型们浏览网页和搜索信息的能力，到底强到什么地步了？因为现有的测试比如SimpleQA，其实已经被“刷爆”了。但是，基本上没太多人讨论这个...

网易新闻

AI早知道｜苏宁易购上线灵思店员AI 助手；OpenAI 开源 BrowseComp 网易号互联网早读课 2025-04-14 英伟达开源「描述一切」模型视频机器之心Pro 2025-04-26 当FPGA遇上开源，要变天了网易号半导体产业纵横 2025-04-26 开源音乐神器，云母音乐，开源绿色无广告~ 视频木木创业基地 2025-04-22 OpenAI正打造“最强”开源模型最早夏初发布科技网易科技报道 2025-04-...

openai.com

A simple and challenging benchmark that measures the ability of AI agents to locate hard-to-find information.

View all 14 sources

让我继续搜索更多关于GAIA和BrowseComp基准测试的详细信息，特别是关于各大模型厂商的具体表现数据。

GAIA benchmark leaderboard results Claude GPT-4 Gemini

东方财富网

图片来源：视觉中国北京时间12月7日凌晨，谷歌宣布推出最新的多模态大模型Gemini 1.0，称其是规模最大、功能最强的人工智能模型。谷歌发布的技术报告显示，Gemini在文本和编码等一系列基

知乎

AI辅助编程领域一直备受关注，已有的编程AI模型实在太多太多了，今天重点来看看目前最强的两款模型，Claude 4 和谷歌 Gemini 2.5 Pro-0605。今年5月23日，Anthro

CSDN技术社区

维科号

CSDN技术社区

今日头条

Manus一炮走红！简单比喻吧，如果说OpenAi是研究生，Manus就是博士！下面这张GAIA Benchmark对比图用数据讲了个"学霸班级"的故事：manus.ai 同学简直是全级模范生！看成绩单— Level 1：manus.ai 以86.5%的超高正确率稳坐第一把交椅，OpenAI同学74.8%紧随其后，Previous SOTA就像课堂后排打瞌睡的同学（67.9%） Level 2：学霸继续领跑70.1%，OpenAI微弱落后0.1%（69.1%），而老同学还在迷糊状态（67....

搜狐网

有多厉害呢，在“GAIA Benchmark”（通用人工智能基准测试）图表中，Genspark在三个不同级别（Level 1、Level 2、Level 3）测试中的表现，都超越了Manus、OpenAI Deep Research 等产品。但对于刚刚正式海外上线的Manus而言，GenSpark显然并没有瞄准它作为竞争对手，而是选择Perplexity、秘塔AI以及过去的自己，颠覆AI搜索显然是个更大的市场。如今的AI搜索有几个痛点：问题思考的时长，回答的长短不好控制，受限于模型能力，...

搜狐网

深度解析：OWL开源复刻Manus，GAIA Benchmark性能突破57.7% 在当前信息技术飞速发展的时代，人工智能作为推动科技进步的重要力量，正在不断地变革各个领域。最近，AI圈内广为讨论的项目无疑是Manus，这是一款据称能实现多个复杂任务的AI代理程序。其远程操控、自动化操作等功能让人惊叹，但随着技术的不断进步，开源项目也逐渐崭露头角，OWL项目的出现，正是这种趋势的典型代表。它不仅成功复刻Manus的多项功能，且在GAIA Benchmark性能测试中取得了...

View all 13 sources

让我继续搜索更多关于GAIA和BrowseComp基准测试的详细榜单信息，特别是关注最新的排行榜数据。

网页解析

https://huggingface.co/spaces/gaia-benchmark/leaderboard

摘要

该网页展示了GAIA基准测试的排行榜，由gaia-benchmark组织在Hugging Face平台上发布。GAIA（General AI Assistant）是一个评估AI模型通用能力的基准测试。网页主要包含一个排行榜界面，显示了各AI模型在GAIA测试中的表现数据。页面顶部有Hugging Face的导航栏和gaia-benchmark的组织标识，页面获得了456个点赞。排行榜运行在CPU环境上，提供了升级选项。网页分为三个主要标签：App（显示排行榜主内容）、Files（访问后台文件）和Community（包含64条讨论）。排行榜可能展示了各模型的名称、整体准确率以及在不同难度级别任务上的表现数据，但当前页面截图中并未显示具体排名数据。

与问题相关的信息提取

从提供的网页内容中，我可以确认这是GAIA基准测试的排行榜页面，托管在Hugging Face平台上。然而，当前提供的网页内容截图中并未显示具体的排行榜数据表格，只有页面的框架结构和导航元素。

网页标题为"GAIA Leaderboard"，由gaia-benchmark组织创建，已获得456个点赞，并有64条社区讨论。GAIA代表General AI Assistant，是一个评估AI模型通用能力的基准测试框架。

遗憾的是，当前提供的内容中没有包含我们需要的具体排行榜数据，如各模型的名称、准确率以及在不同级别的表现。要获取这些信息，需要查看页面的完整内容，特别是"App"标签下显示的排行榜表格数据。

相关图片

Hugging Face's logo
- Title: Hugging Face's logo
- Content: Hugging Face平台的标志
- Source: Hugging Face
- Link: https://huggingface.co/front/assets/huggingface_logo-noborder.svg
GAIA Benchmark组织图标
- Title: 未知
- Content: GAIA基准测试组织的标志或图标
- Source: gaia-benchmark
- Link: https://cdn-avatars.huggingface.co/v1/production/uploads/6202a599216215a22221dea9/3GKPixI9ZvVW52OLswMBg.png

已掌握的信息

基准测试基本情况：已明确GAIA和BrowseComp两个核心Agent评测基准的设计目标、评测维度和任务特点。GAIA（由Meta、Hugging Face等推出）侧重于通用AI助手的多模态、多工具和推理能力，并分为三个难度等级。BrowseComp（由OpenAI推出）则专注于测试Agent在真实网络环境中查找高难度、纠缠信息的能力，其问题对大多数模型（包括GPT-4o）极具挑战性。
初步性能数据：已通过初步搜索获取了部分关键数据。对于GAIA，已发现一个由普林斯顿大学维护的排行榜，其中包含了Claude 3.5 Sonnet、GPT-4o、OpenAI o1/o3系列等模型的具体得分和分级表现。此外，还了解到Manus、GenSpark等新兴Agent在此基准上表现优异。对于BrowseComp，已获知GPT-4o等通用模型得分极低（约1-2%），而OpenAI专门训练的Deep Research模型表现突出（约51.5%），但尚未找到一个集中的官方排行榜。

下一步行动计划

获取官方权威榜单数据：当前的首要任务是获取两个基准最完整、最新的官方排名数据。虽然已有一个第三方GAIA榜单，但仍需尝试从其官方渠道获取最新信息。对于BrowseComp，需要深入探索其发布源头，以确定是否存在一个官方或半官方的、持续更新的排行榜。
- 信息源：
  - GAIA：Hugging Face上的官方Leaderboard页面 (huggingface.co/spaces/gaia-benchmark/leaderboard)。
  - BrowseComp：OpenAI的官方GitHub仓库 (github.com/openai/simple-evals) 及其相关发布公告。
数据整合与交叉验证：将从官方渠道、第三方榜单及各大厂商技术报告中搜集到的所有性能数据进行汇总。创建一个以模型/厂商为核心的综合数据表，对齐并验证各模型在GAIA（总分及Level 1/2/3）和BrowseComp上的准确率。
构建最终报告：基于整理好的数据，撰写一份包含核心发现的分析报告。报告将以清晰的表格和图表形式，直观展示各大模型厂商在两个关键Agent基准上的性能排名与差异，并附上对评测基准和模型表现的简要分析。

下面先尝试直接访问GAIA的官方Hugging Face排行榜，获取最新的详细数据。

HAL GAIA Leaderboard Princeton University

美国普林斯顿大学

The Holistic Agent Leaderboard (HAL) is the standardized, cost-aware, and third-party leaderboard for evaluating agents.

腾讯

基准测试如 ToolAlpaca、APIBench 和 Berkeley Function Calling Leaderboard 针对不同复杂度的工具使用场景提供评估，而最新的 ToolSandbox 和 API-Blend 等框架进一步模拟了现实世界中的复杂API交互，为你的Agent工具调用能力提供了全面的评估标准。KwaiKEG团队推出的 KAgentBench 补充了这一领域，它包含超过3,000个人工编辑的自动化评估数据，专门测试Agent的工具使用能力以及规划、反思、总结和...

微软

了解如何访问 Azure 工作簿中已弃用的故障排除指南。这些故障排除指南现已弃用，不再提供“故障排除指南”菜单项。仍可在左侧的 Azure 工作簿菜单中访问故障排除指南。使用“更改类型”功能更改工作簿类型，并将其从故障排除指南库移动到工作簿库。使用“更改类型”工具栏项更改工作簿类型选择“编辑”，将工作簿切换到编辑模式。选择“编辑”图标，然后选择“更改类型”。此时将打开一个包含下拉列表的窗口，该列表列出了可更改的工作簿类型。请选择“工作簿”，然后选择“确定”。右上角会出现成功状态弹出窗口。更改可能需要一分钟...

coursera.org

Princeton University 7 Courses•1,945,911 learners 13 modules Gain insight into a topic and learn the fundamentals. 4.9 (11,828 reviews) Intermediate level Some related experience required Flexible schedule Approx.54 hours Learn at your own pace 97...

princeton.edu

Princeton welcomes applications from students around the world.Information for international students applying for undergraduate degrees(Link is external)are available on the Office of Undergraduate Admission website(Link is external).Internationa...

戴尔

尝试在不卸载以前版本的情况下更新 Alienware Over Clocking Controls 应用程序时，您可能会收到“安装失败”错误。

美国普林斯顿大学

Stay connected for the latest books,Ideas,and special offers. Stay connected for the latest book news. United States 41 William Street Princeton,New Jersey 08540 United States Phone:+1 609 258 4900 Princeton Asia(Beijing)Consulting Co.,Lt...

微软

发布了一个已知问题：无法从 Excel 连接到语义模型或使用 Excel 中的分析。

View all 14 sources

我找到了一些有关GAIA基准测试的排行榜信息，但还需要获取更完整的数据。让我尝试直接访问Princeton大学HAL项目的GAIA排行榜页面，获取最新的详细数据。

网页解析

https://hal.cs.princeton.edu/gaia

1. 网页内容摘要

该网页展示了GAIA基准测试的排行榜数据，包含了8个不同AI模型在该测试中的表现。排行榜按照模型的总体准确率进行排名，并详细列出了每个模型在三个不同难度级别（Level 1、Level 2和Level 3）的表现数据。Claude-3-5-sonnet-20241022模型以57.58%的总体准确率位居榜首，其次是Claude-3-7-sonnet-20250219和o1-preview-2024-09-12模型，均为56.36%。排行榜还提供了每个模型的API使用成本信息，以及运行次数统计。所有结果均已由HAL团队验证。GAIA测试分为三个难度级别，其中Level 1对于优秀的大语言模型来说是可突破的，而Level 3则表示模型能力的显著提升。网页还提供了每个模型测试轨迹的下载链接，以及指向Inspect ReAct Agent的GitHub链接。

2. 与问题相关的信息提取

GAIA基准测试排行榜完整数据如下：

Claude-3-5-sonnet-20241022
- 排名：1
- 总体准确率：57.58%
- Level 1准确率：67.92%
- Level 2准确率：59.30%
- Level 3准确率：30.77%
- 总成本：$260.19
- 运行次数：1
Claude-3-7-sonnet-20250219
- 排名：2
- 总体准确率：56.36%
- Level 1准确率：69.81%
- Level 2准确率：54.65%
- Level 3准确率：34.62%
- 总成本：$409.01
- 运行次数：1
o1-preview-2024-09-12
- 排名：3
- 总体准确率：56.36%
- Level 1准确率：69.81%
- Level 2准确率：55.81%
- Level 3准确率：30.77%
- 总成本：$641.52
- 运行次数：1
o3-mini-2025-01-31 med.
- 排名：4
- 总体准确率：49.70%
- Level 1准确率：60.38%
- Level 2准确率：51.16%
- Level 3准确率：23.08%
- 总成本：$47.72
- 运行次数：1
o1-mini-2024-09-12
- 排名：5
- 总体准确率：36.97%
- Level 1准确率：52.83%
- Level 2准确率：34.88%
- Level 3准确率：11.54%
- 总成本：$59.25
- 运行次数：1
gpt-4o-2024-11-20
- 排名：6
- 总体准确率：34.55%
- Level 1准确率：47.17%
- Level 2准确率：31.40%
- Level 3准确率：19.23%
- 总成本：$209.12
- 运行次数：1
gpt-4o-mini-2024-07-18
- 排名：7
- 总体准确率：13.94% (-0.61/+0.61)
- Level 1准确率：28.30%
- Level 2准确率：9.30%
- Level 3准确率：0.00%
- 总成本：$18.38 (-0.63/+0.63)
- 运行次数：2
Meta-Llama-3.1-405B-Instruct-Turbo
- 排名：8
- 总体准确率：12.12%
- Level 1准确率：20.75%
- Level 2准确率：8.14%
- Level 3准确率：7.69%
- 总成本：$128.78
- 运行次数：1

从数据分析可见，Claude系列模型在GAIA测试中表现最佳，占据了前两名。Anthropic的Claude-3-5-sonnet和Claude-3-7-sonnet模型以及OpenAI的o1-preview模型在总体准确率上表现相近，但在不同难度级别上有所差异。所有模型在Level 3（最高难度）的表现都明显低于其他级别，表明这一级别确实代表了模型能力的显著跃升。值得注意的是，gpt-4o-mini在Level 3上准确率为0%，表明其完全无法解决最高难度的任务。成本方面，o1-preview模型使用成本最高，达到$641.52，而o3-mini和gpt-4o-mini的成本相对较低。

3. 相关网页链接

Inspect ReAct Agent - 上下文：与排名1的Claude-3-5-sonnet-20241022模型相关
Inspect ReAct Agent - 上下文：与排名2的Claude-3-7-sonnet-20250219模型相关
Inspect ReAct Agent - 上下文：与排名3的o1-preview-2024-09-12模型相关
Inspect ReAct Agent - 上下文：与排名4的o3-mini-2025-01-31 med.模型相关
Inspect ReAct Agent - 上下文：与排名5的o1-mini-2024-09-12模型相关
Inspect ReAct Agent - 上下文：与排名6的gpt-4o-2024-11-20模型相关
Inspect ReAct Agent - 上下文：与排名7的gpt-4o-mini-2024-07-18模型相关
Inspect ReAct Agent - 上下文：与排名8的Meta-Llama-3.1-405B-Instruct-Turbo模型相关
Download - 上下文：Claude-3-5-sonnet-20241022模型的测试轨迹下载链接
Download - 上下文：Claude-3-7-sonnet-20250219模型的测试轨迹下载链接

4. 相关图片

无与问题相关的图片内容。

现在我需要获取关于BrowseComp基准测试的更详细信息，特别是各大模型在该基准上的表现数据。

网页解析

https://cdn.openai.com/pdf/5e10f4ab-d6f7-442e-9508-59515c65e35d/browsecomp.pdf

摘要

BrowseComp是一个由OpenAI开发的网络浏览代理基准测试，包含1,266个需要在互联网上持续搜索难以找到、相互关联信息的问题。尽管问题难度很高，但该基准测试设计简单易用，预测答案简短且易于与参考答案验证。BrowseComp可类比于编程竞赛对编码代理的测试，虽然它不涉及生成长答案或解决歧义等真实用户查询分布的挑战，但它测量了寻找信息时的持久性和创造性这一核心能力。数据集由人类训练师创建，问题设计确保现有模型无法轻易解决，且通过Google搜索前几页无法直接找到答案。人类测试者在两小时内仅能解决29.2%的问题，而OpenAI的Deep Research模型表现最佳，准确率达51.5%。研究还表明，模型性能随测试时计算量的增加而平滑提升，使用并行采样和基于置信度的投票等聚合策略可将准确率进一步提高15%-25%。

与BrowseComp基准测试相关的详细信息

测试设计

基本构成：BrowseComp包含1,266个挑战性问题，这些问题需要浏览大量网站才能解决。
问题特点：
- 问题设计采用"反向"方式：从一个事实出发，创建一个答案难找但易验证的问题
- 问题简短自包含，答案通常是单个短字符串
- 问题通常包含多个约束条件，需要匹配多个特征才能找到正确答案
数据收集方法：
- 完全由人类训练师创建
- 训练师被要求创建足够困难的问题，确保：
  - 现有模型（包括GPT-4o、OpenAI o1和早期版本的Deep Research）无法解决
  - 通过五次简单的Google搜索无法在首页结果中找到答案
  - 其他人无法在十分钟内解决
主题多样性：数据集涵盖多种主题，包括电视节目和电影(16.2%)、科学技术(13.7%)、艺术(10%)、历史(9.9%)、体育(9.7%)、音乐(9.2%)等
评分方式：使用AI模型比较预测答案与参考答案的语义等价性，采用与"Humanity's Last Exam"相同的评分提示

难度级别

人类表现：
- 人类训练师在两小时内仅能解决29.2%的问题
- 在成功解决的问题中，训练师答案与参考答案的一致率为86.4%
- 解决问题的时间分布广泛，有些问题在不到一小时内解决，但许多问题需要两到三小时
设计难度：
- 问题要求搜索大量潜在答案并匹配问题中提出的约束条件
- 许多答案通过暴力方法查找会过于耗时或不可能，需要创造性的搜索策略

各模型表现数据

OpenAI模型准确率：
- GPT-4o：0.6%
- GPT-4o带浏览功能：1.9%
- GPT-4.5：0.9%
- OpenAI o1：9.9%
- Deep Research：51.5%
校准误差（模型置信度与实际正确率的差距）：
- GPT-4o：69%
- GPT-4o带浏览功能：82%
- GPT-4.5：68%
- OpenAI o1：65%
- Deep Research：91%
计算量与性能关系：
- 测试时计算量增加会平滑提升性能
- 使用并行采样和基于置信度的投票等聚合策略可将准确率进一步提高15%-25%
聚合策略效果：
- 多数投票、加权投票和最佳N选择等方法可显著提升模型性能
- 当使用64个并行样本时，准确率可达到约75-80%

BrowseComp测试主要衡量AI代理的三个核心浏览技能：对互联网内容事实性的推理能力、持久深入的浏览能力以及在搜索中的创造性。虽然它不能完全代表真实用户查询的分布，但它有效测量了寻找信息时的持久性和创造性这一核心能力。

相关图片

图1: BrowseComp性能与测试时计算量的关系图
- Title: BrowseComp performance of an early version of OpenAI Deep Research with varying browsing effort
- Content: 展示了OpenAI Deep Research早期版本在不同浏览努力程度下的BrowseComp准确率，显示准确率随测试时计算量(对数刻度)平滑增长
- Source: OpenAI
- Link: 未知
图2: BrowseComp主题分布饼图
- Title: Distribution of topics in BrowseComp
- Content: 展示了BrowseComp数据集中不同主题的分布，包括电视节目和电影(16.2%)、其他(15.6%)、科学技术(13.7%)等
- Source: OpenAI
- Link: 未知
图3: 人类解决BrowseComp问题的时间分布直方图
- Title: Histograms showing how long it took humans to solve BrowseComp problems or give up
- Content: 两个直方图，分别显示人类成功解决问题和放弃问题的时间分布
- Source: OpenAI
- Link: 未知
图4: Deep Research使用并行采样和基于置信度投票的性能图
- Title: BrowseComp performance of Deep Research when using parallel sampling and confidence-based voting
- Content: 展示了Deep Research模型在使用不同数量的并行样本和三种投票策略(Best of N、Weighted Voting、Majority Voting)时的准确率
- Source: OpenAI
- Link: 未知
表1: BrowseComp示例问题
- Title: Three example questions and reference answers from BrowseComp
- Content: 展示了三个BrowseComp示例问题及其参考答案
- Source: OpenAI
- Link: 未知

现在我需要获取更多关于BrowseComp的具体排行榜数据，特别是除了OpenAI模型外的其他厂商模型的表现。

BrowseComp benchmark leaderboard complete results Gemini Claude Llama

docin.com

Mialonetal.,2023)(mosto)thesebenchmarks,ocusonretrievingin,ormationthatcanbe,oundeasily,andhencehavebecomesaturatedbyrecentlanguagemodels.Here we introduce a new benchmark called BrowseComp,which stands,or“Browsing Competition”and compris...

搜狐网

当地时间4月10日，美国开放人工智能研究中心（OpenAI）宣布开源包含1266个挑战性问题的基准测试BrowseComp。OpenAI表示，一个高性能的浏览智能体应该能够定位那些难以查找、可能需要在浏览数十甚至数百个网站的过程中才能获取的信息。现有基准测试（如SimpleQA）主要衡量模型检索基本孤立事实的能力，这类测试已被具备快速浏览工具（如支持浏览功能的GPT-4o）的模型所饱和。为了衡量AI智能体在互联网上定位难以查找、

搜狐网

在近期的人工智能领域动态中，美国开放人工智能研究中心（OpenAI）于4月10日发布了新开源项目BrowseComp，此基准测试包含1266个挑战性问题，旨在评估AI智能体在互联网上有效定位和提取难以查找信息的能力。这一举措不仅标志着OpenAI在基准测试方法上的技术革新，还强调了其在AI超越基本事实检索的使命。对于现代AI模型的挑战，传统的基准测试如SimpleQA已趋于饱和，其主要衡量模型检索孤立事实的能力，尤其是在现今支持浏览的先进模型（如GPT-4o）崭露头角后，传统测试的局限愈...

搜狐网

2025年4月10日，美国领先的人工智能研究机构OpenAI宣布开源一项全新的基准测试方案—BrowseComp，其中包含1266个挑衅性的检索问题。该测试旨在提升人工智能在浏览互联网时信息定位的能力，尤其是在寻找硬找到的、相互关联的信息方面。在互联网信息爆炸的时代，获取信息的方式正在发生翻天覆地的变化。过往的基准测试，如SimpleQA，主要用来衡量模型获取孤立事实的能力，但随着支持浏览功能的GPT-4o等模型的崛起，这类评估已不再能完全满足需求。用户对于获取更复杂信息的要求日益提高，这...

搜狐网

今天凌晨2点，OpenAI正式推出了新的开源项目—BrowseComp，这一专门用于测试智能体浏览器功能的基准引发了科技圈的热议。BrowseComp的推出，不仅意味着对智能体浏览技术的重新定义，更是对当今AI能力的一次巨大挑战。值得注意的是，此测试基准的难度之高，即便是OpenAI内部的最新模型，如GPT-4o和GPT-4.5，其准确率仅为0.6%和0.9%。即便是具备浏览器功能的GPT-4o，其表现也不过1.9%。这一数据不仅让人惊讶，更突显了BrowseCo...

腾讯

今天凌晨 2 点，OpenAI 开源了专门用于智能体浏览器功能的测试基准—BrowseComp。这个测试基准非常有难度，连 OpenAI 自己的 GPT-4o、GPT-4.5 准确率只有 0.6%和 0.9%几乎为 0，即便使用带浏览器功能的 GPT-4o 也只有 1.9%。但 OpenAI 最新发布的 Agent 模型 Deep Research 准确率高达 51.5%，在自主搜索、信息整合、准确性校准方面非常优秀。开源地址：https://github.com/openai/simpl...

arxiv.org

Our dataset, construction guidelines, and benchmark results have been publicly released at https://github.com/PALIN2018/BrowseComp-ZH.

arxiv.org

The final BrowseComp-ZH dataset consists of 289 complex questions, each with multiple constraints and unique answers, spanning 11 diverse ...

View all 10 sources

已掌握的信息

GAIA基准测试榜单已获取：已成功从普林斯顿大学的HAL项目中获得了GAIA基准测试的详细排行榜。该榜单数据完整，包含了来自Anthropic（Claude系列）、OpenAI（GPT-4o、o-series系列）和Meta（Llama 3.1）等多家厂商的8个主流模型，并详细列出了它们在三个难度级别上的准确率、总体排名及API调用成本。目前，Claude-3-5-sonnet以57.58%的准确率位居榜首。
BrowseComp基准测试特性与部分数据明确：已深入了解BrowseComp是由OpenAI推出的高难度网络浏览基准。其核心特点是问题答案难以通过常规搜索找到，旨在测试Agent深度、持久和创造性的信息搜寻能力。已获取OpenAI自家模型的性能数据，结果显示通用模型（如GPT-4o，准确率约1.9%）表现不佳，而专门训练的Deep Research模型则表现优异（准确率达51.5%）。
BrowseComp完整榜单缺失：尽管多次尝试，目前尚未发现一个像GAIA那样包含多家厂商（如Google, Anthropic）模型的、公开的、集中的BrowseComp排行榜。现有数据主要来源于OpenAI的官方发布，缺乏第三方模型的直接对比。

下一步行动计划

最终确认并整合BrowseComp数据：进行最后一次有针对性的信息搜集，重点查找Google、Anthropic、Meta等主要厂商发布的官方技术报告、博客或论文，确认其顶尖模型（如Gemini、Claude系列）是否公布过在BrowseComp上的性能数据。即使没有完整榜单，零散的数据也极具价值。
构建综合性能对比矩阵：将已获取的完整GAIA排行榜数据和搜集到的所有BrowseComp性能数据，整合到一个统一的结构化表格中。该表格将清晰地展示各模型在两个不同特性的Agent基准下的表现，并明确标注BrowseComp数据的来源和不完整性。
数据可视化与报告撰写：基于整理好的数据矩阵，生成一系列对比图表（如条形图），直观地比较各模型在GAIA（分级别对比）和BrowseComp上的性能。最后，撰写一份全面的研究报告，内容包括对两个基准的介绍、完整的性能榜单图表，并对结果进行分析，特别是解读模型在不同类型任务上的能力差异以及当前Agent评测的现状。

让我继续搜索关于BrowseComp的更多信息，特别是其他厂商模型的表现数据。

BrowseComp benchmark Claude Gemini Llama performance results

腾讯

参赛选手包括GPT-4o、Claude、Llama、Gemini、Grok等。其实这是最近爆火的一种新的测试基准（doge）。游戏结果一定程度上能反映出大模型能力，比如这组测试一共进行了6局游戏，表现最好的是 Claude：它赢了3次！GPT-4o表现有点抽象。就它画的这龙卷风，人类也看不懂。不止如此，在很多轮游戏中，其他模型都在认认真真地答题，而它的第一个回答经常是 Circle？有点子抽象。所以有人就说，这游戏可以当测试基准来用啊。还有人表示，AI...

腾讯云

让Gemini 2当裁判，看Claude3.5和GPT-4如何过招说起LMSys，这可是AI界的"拳击台。所有的模型提供商都会把自己的模型和 API 提交给他们测试，就像运动员参加奥运会一样。而我们这些普通用户，就是观众，可以给不同模型的表现投票打分。前段时间LMSys刚推出了Copilot Arena（这是一个用于 Cursor AI 和 Copilot 等工具的新型 AI 助手比较平台），让Claude 3.5、GPT-4O这些顶级模型同台竞技。这...

51cto.com

Instruct-tuned模型与Gemma、Mistral、Gemini Pro 1.5、Claude 3 Sonnet在MMLU、GSM-8k等benchmark上的对比如下：图片 Llama 3 70B在MMLU、HumanEval和GSM-8K三项测试中胜过Gemini 1.5 Pro。尽管它无法与Anthropic表现最为强劲的模型Claude 3 Opus匹敌，但在五个基准（MMLU、GPQA、Human...

东方财富网

抛开备受争议的LM Arena测试，Meta公布的结果显示，Llama 4 Maverick在部分基准测试上表现优于GPT-4o、Gemini 2.0 Flash、DeepSeek-V3等模型，但不及更为领先的GPT-4.5、Claude 3.7 Sonnet、Gemini 2.5 Pro等。尚未发布的Llama 4 Behemoth会在以 STEM 为重点的基准测试上对标这些顶尖模型。此外，目前Meta公布的模型中还没有类似OpenAI o1、Deep...

CSDN技术社区

看这个结果，你就说屌不屌吧，拳打Claude3.5，脚踢GPT-4o，还把Gemini1.5 Pro和Llama3.1 405B给摁在地上摩擦。你很难想象这只是一个两个人花三周训的70B的模型能干出来的事。直到7号，Artificial Analysis用他们自己的标准评测集跑了一通，发现这事不对啊，你这么多项评测集都登顶了，你应该很牛逼才对啊，这得分什么情况？他们是这么说的： “哥们，我们测完了咋感觉你比Llama3.1 70B更拉了呢？老实说，你是不是在骗兄弟们。Ma...

网易

与o3/o4-mini、Claude 4 Opus、DeepSeek-R1相比，只有Gemini 2.5 Flash-Lite每秒输出的token数接近350个。Gemini 2.5最大的改进在于该系列所有模型都原生的融入了动态「Thinking」能力，能够根据推理时间的增加进一步增加能力。面向特定能力的改进 Gemini 2.5进行了专门「领域」能力的优化：代码处理能力、事实准确性、长文本理解、多语言能力、音频和视频处理能力，以及智能...

正观新闻

搜狐网

和人类的高考一样，它们也有自己的考试—基准测试（Benchmark）。不过，高考就那么几个科目，基准测试的花样就多了，有的考察通识，有的专攻某一项能力，数学、代码、阅读理解，无所不包。Google 发布Gemini 时的基准测试排名基准测试的好处是直观，榜单这么一拉，得分高低一目了然，比大段的文字更有拉拢用户的效果。然而，测归测，准不准就不一定了。因为最近的一个疑似造假事件，基准测试的可信度又下降了一层。开源模型新王者，转眼被「打假」 9 月 6 日，Reflectio...

View all 13 sources

我已经收集了足够的信息，现在可以提供一份关于GAIA和BrowseComp这两个主要Agent评测基准的综合报告。

可视化工具

现在我将创建一个关于BrowseComp基准测试的可视化图表，展示各模型的性能表现。

可视化工具

基于收集到的数据和可视化结果，我将提供一份关于GAIA和BrowseComp这两个主要Agent评测基准的综合分析报告。

GAIA和BrowseComp基准测试：主流大模型厂商性能榜单分析报告

1. 引言

随着人工智能技术的迅速发展，评估AI代理（Agent）能力的基准测试变得越来越重要。本报告将详细分析两个最具代表性的Agent评测基准：GAIA和BrowseComp，并提供各大模型厂商在这些基准上的完整性能榜单。

GAIA（General AI Assistant Benchmark）是由Meta、HuggingFace和AutoGPT团队联合推出的基准测试，旨在评估通用AI助手在现实场景中处理多步骤推理、工具使用和多模态任务的能力CSDN技术社区。而BrowseComp则是OpenAI开发的一个专注于测试AI代理网络浏览能力的基准，包含1,266个需要在互联网上持续搜索难以找到、相互关联信息的问题cdn.openai.com。

2. GAIA基准测试概述

2.1 GAIA基准设计原则

GAIA聚焦于对人类简单但对AI困难的任务，例如需要多工具协作的日常查询（如网页搜索+数据分析+逻辑推理）CSDN技术社区。其问题源自真实场景，如计算临床试验注册人数、解析政府文件中的营养成分标准等。

GAIA采用三级难度体系CSDN技术社区：

Level 1（基础任务）：单一步骤或简单工具使用，如基本搜索/计算
Level 2（中级任务）：5-10步操作及多工具协同
Level 3（高级任务）：开放式复杂任务，需自主规划步骤链和工具组合

2.2 GAIA榜单：主流模型性能对比

以下是基于Princeton大学HAL项目的GAIA基准测试排行榜，展示了各大模型厂商的最新性能数据：

资料来源：美国普林斯顿大学

从GAIA榜单数据分析可见，Anthropic的Claude系列模型表现最为出色，Claude-3-5-sonnet以57.58%的总体准确率位居榜首美国普林斯顿大学。OpenAI的o1-preview模型紧随其后，与Claude-3-7-sonnet并列第二，总体准确率均为56.36%。值得注意的是，所有模型在Level 3（最高难度）的表现都明显低于其他级别，表明这一级别确实代表了模型能力的显著跃升美国普林斯顿大学。

此外，GAIA测试还考量了模型的运行成本，这对实际应用场景具有重要参考价值：

资料来源：美国普林斯顿大学

成本数据显示，o1-preview模型使用成本最高，达到$641.52，而o3-mini和gpt-4o-mini的成本相对较低美国普林斯顿大学。这表明在实际应用中，需要在性能和成本之间做出权衡。

2.3 其他模型在GAIA上的表现

除了HAL项目的官方榜单外，还有一些其他模型在GAIA基准上的表现值得关注：

h2oGPTe Agent：据报道，h2oGPTe Agent在GAIA基准测试中取得了65%的前所未有的分数，成为榜首businesswire.com。这表明AI已经接近人类在该基准上的表现（人类平均成功率约为92%）CSDN技术社区。
天桥脑科学研究院的OMNE：该研究院的OMNE多智能体框架在Hugging Face发布的GAIA排行榜中占据了榜首位置，超越了包括微软研究院在内的一些全球顶尖机构的框架腾讯。
Manus：在Level 1-3的得分分别为86.5%、70.1%和57.7%，总体表现优于OpenAI的模型今日头条。
GenSpark：据报道，GenSpark在GAIA基准测试的三个不同级别测试中的表现都超越了Manus和OpenAI Deep Research等产品搜狐网。
OWL项目：作为一个开源复刻Manus的项目，在GAIA Benchmark性能测试中也达到了57.7%的突破搜狐网。

这些数据表明，GAIA基准测试已成为评估AI代理能力的重要标准，各大厂商和研究机构都在此基准上展开激烈竞争。

3. BrowseComp基准测试概述

3.1 BrowseComp基准设计原则

BrowseComp是OpenAI开发的一个专注于测试AI代理网络浏览能力的基准，包含1,266个挑战性问题搜狐网。与传统基准不同，BrowseComp的问题设计采用"反向"方式：从一个事实出发，创建一个答案难找但易验证的问题openai.com。

BrowseComp的问题特点包括：

问题简短自包含，答案通常是单个短字符串
问题通常包含多个约束条件，需要匹配多个特征才能找到正确答案
需要浏览大量网站才能解决问题cdn.openai.com

3.2 BrowseComp榜单：主流模型性能对比

以下是各大模型在BrowseComp基准测试上的表现：

资料来源：搜狐网 arxiv.org

BrowseComp榜单数据显示，OpenAI的Deep Research模型表现最为突出，准确率达到51.5%搜狐网。而在中文版的BrowseComp-ZH测试中，DeepResearch也取得了42.9%的准确率arxiv.org。相比之下，其他模型的表现则相形见绌，即使是强如GPT-4o的模型，准确率也仅为0.6%，加上浏览功能后也只有1.9%搜狐网。

这一巨大差距表明，BrowseComp确实是一个极具挑战性的基准测试，专门针对AI代理的网络浏览和信息检索能力设计。值得注意的是，人类训练师在两小时内也仅能解决29.2%的BrowseComp问题搜狐网，这进一步证明了该基准的难度。

3.3 BrowseComp-ZH：中文网络浏览能力测试

作为BrowseComp的中文版本，BrowseComp-ZH是一个专门评估大语言模型在中文网络环境中浏览能力的高难度基准arxiv.org。该基准包含289个多跳问题，涵盖11个不同领域，每个问题都是从一个简短、客观且易于验证的答案（如日期、数字或专有名词）反向设计而来arxiv.org。

在BrowseComp-ZH的测试中，尽管现有模型具有强大的对话和检索能力，但大多数模型的表现都相当挣扎：大量模型的准确率低于10%，只有少数几个超过20%arxiv.org。即使是表现最好的系统OpenAI的DeepResearch，也只达到了42.9%的准确率arxiv.org。这些结果表明，BrowseComp-ZH具有相当的难度，成功不仅需要有效的检索策略，还需要复杂的推理和信息整合能力——这些都是当前模型仍在努力掌握的能力。

4. 综合分析与比较

4.1 GAIA与BrowseComp的评测侧重点对比

GAIA和BrowseComp作为两个主要的Agent评测基准，各有其独特的侧重点：

评测基准	主要侧重点	问题数量	难度特点	主要挑战
GAIA	多模态处理、工具使用、推理能力	466个	分为3个难度级别	多步骤推理、工具协同、跨模态信息整合
BrowseComp	网络浏览、信息检索、持久性搜索	1,266个	极高难度，需大量浏览	定位难以找到的信息、匹配复杂约束条件

GAIA更注重全面评估AI助手的通用能力，包括多模态处理、工具使用和推理能力CSDN技术社区，而BrowseComp则专注于测试AI代理在互联网上定位难以找到、相互关联信息的能力openai.com。

4.2 各大厂商模型在两个基准上的综合表现

通过对比各大厂商模型在GAIA和BrowseComp上的表现，我们可以得出以下几点结论：

Anthropic的Claude系列：在GAIA基准上表现最为出色，Claude-3-5-sonnet和Claude-3-7-sonnet分别以57.58%和56.36%的总体准确率位居榜首和第二美国普林斯顿大学。然而，在BrowseComp基准上，目前尚未找到Claude系列的公开测试数据。
OpenAI的模型：在GAIA上，o1-preview与Claude-3-7-sonnet并列第二，总体准确率为56.36%美国普林斯顿大学；在BrowseComp上，专门训练的Deep Research模型表现突出，准确率达51.5%搜狐网，远超其他模型。
Meta的Llama系列：在GAIA上，Meta-Llama-3.1-405B-Instruct-Turbo的表现相对较弱，总体准确率仅为12.12%美国普林斯顿大学；在BrowseComp上，目前尚未找到Llama系列的公开测试数据。
Google的Gemini系列：在已搜集的GAIA和BrowseComp官方榜单中，尚未找到Gemini系列的公开测试数据。

4.3 模型评测的局限性与挑战

尽管GAIA和BrowseComp为评估AI代理能力提供了有价值的基准，但我们也需要认识到模型评测面临的局限性与挑战：

评测机制的可信度：随着模型能力的提升，评测机制的可信度面临挑战。例如，Meta的Llama 4模型在LM Arena评测榜中因使用针对对话优化的实验版本而引发争议东方财富网。
刷榜现象：一些模型可能通过在特定基准测试上进行优化或强化，使测试表现明显虚高东方财富网。这种"刷榜"现象使得评测结果的可信度受到质疑。
评测多样性不足：现有评测主要集中在英文环境下，对其他语言（如中文）的支持相对有限arxiv.org。BrowseComp-ZH的出现在一定程度上弥补了这一不足。

5. 结论与展望

通过对GAIA和BrowseComp两个主要Agent评测基准的分析，我们可以得出以下结论：

Anthropic和OpenAI领先：在GAIA基准上，Anthropic的Claude系列和OpenAI的o1系列表现最为出色；在BrowseComp基准上，OpenAI的Deep Research模型遥遥领先。
专业化与通用化并存：随着AI技术的发展，一些模型（如Deep Research）开始在特定任务上进行专业化训练，而另一些模型（如Claude系列）则保持较强的通用能力。
评测体系仍在完善：随着AI代理能力的不断提升，评测基准也需要不断更新和完善，以更全面、客观地评估模型性能。

未来，我们可以期待更多样化、更具挑战性的Agent评测基准的出现，以及各大厂商在这些基准上的持续竞争与创新。同时，评测机制本身也需要不断优化，以提高可信度和公正性，为AI代理的发展提供更有价值的参考。

参考资料

GAIA基准测试官方文档与排行榜
BrowseComp基准测试官方文档与研究报告
Princeton大学HAL项目GAIA排行榜
BrowseComp-ZH研究论文

研究计划：主流AI Agent评测基准（GAIA & BrowseComp）性能榜单分析报告

Deep Research

摘要

与问题相关的信息提取

相关网页链接

相关图片

1. 网页内容摘要

2. 与问题相关的信息提取

3. 相关网页链接

4. 相关图片

摘要

与BrowseComp基准测试相关的详细信息

测试设计

难度级别

各模型表现数据

相关网页链接

相关图片

GAIA和BrowseComp基准测试：主流大模型厂商性能榜单分析报告

1. 引言

2. GAIA基准测试概述

2.1 GAIA基准设计原则

2.2 GAIA榜单：主流模型性能对比

2.3 其他模型在GAIA上的表现

3. BrowseComp基准测试概述

3.1 BrowseComp基准设计原则

3.2 BrowseComp榜单：主流模型性能对比

3.3 BrowseComp-ZH：中文网络浏览能力测试

4. 综合分析与比较

4.1 GAIA与BrowseComp的评测侧重点对比

4.2 各大厂商模型在两个基准上的综合表现

4.3 模型评测的局限性与挑战

5. 结论与展望

参考资料

Key references