login
DeepResearch产品Benchmark对比
2025/06/23·StepFun can make mistakes, check important info.
现在都有哪家发了deepresearch类产品,然后他们各自宣称的benchmark分数
Sources

我将为您调研各家发布的Deep Research类产品及其宣称的benchmark分数。为了更好地完成这项任务,我需要澄清几点信息:

  1. 您是否需要关注特定时间范围内发布的Deep Research产品(例如2024-2025年),还是希望包含所有历史产品?

  2. 除了各产品宣称的benchmark分数外,您是否也想了解这些产品在某些特定评测基准上的表现比较(如GAIA、SimpleQA等)?

  3. 您是否对某些特定公司或机构(如OpenAI、Perplexity、DeepSeek等)的Deep Research产品更感兴趣?

专门进行深度网络研究并整理信息的AI助手,但是主要看国内产品

好的,这是为您制定的关于国内Deep Research类产品的研究计划。

Research plan

国内Deep Research类产品及其Benchmark表现研究计划

第一阶段:市场扫描与关键产品识别

  1. 初步筛选与列表建立:
    • 通过对行业新闻、科技媒体和研究报告的系统性检索,初步识别并列出所有宣称具备“深度研究”、“AI Agent”或类似自主信息分析与报告生成能力的国内AI产品。
    • 重点关注2024年以来发布或有重大更新的产品,以确保信息的时效性。

第二阶段:产品深度信息采集与核实

  1. 逐一产品深入调研:
    • 针对第一阶段列表中的每一款产品,进行专项信息收集。
    • 研究其核心功能、技术架构、宣称的应用场景以及商业模式。
    • 重点查找并记录各产品官方发布或在权威评测中提及的任何性能基准(Benchmark)分数,特别是行业公认的评测基准,如GAIA、DeepResearch Bench等。

第三阶段:信息整合与对比分析

  1. 构建对比框架:

    • 将收集到的信息进行结构化处理,整理成统一的格式。
    • 关键信息点包括:产品名称、开发公司、发布时间、核心功能特点、以及公开的Benchmark名称与分数。
  2. 生成可视化对比图表:

    • 将结构化数据转化为清晰的对比表格。
    • 该表格将直观展示各产品在不同维度上的异同,特别是其在公开基准测试上的性能表现,便于横向比较。

第四阶段:撰写综合研究报告

  1. 形成最终报告:
    • 基于以上所有信息,撰写一份全面的研究报告。
    • 报告将首先概述国内Deep Research类产品的整体发展态势,随后详细介绍各主要产品的特点与性能数据(结合对比图表),最后对当前市场格局和技术趋势进行总结。

核心信息来源

为确保研究的准确性和权威性,信息获取将主要依赖以下渠道:

  • 官方渠道: 各相关公司的官方网站、官方博客、产品发布会记录及白皮书。
  • 权威科技媒体: 如量子位(QbitAI)、虎嗅网、36氪、机器之心等,获取其深度评测文章和行业分析报告。
  • 学术与预印本平台: 如arXiv,用于查找相关的评测基准论文和技术实现细节,例如中科大团队发布的《DeepResearch Bench》。
  • 行业研究报告: 来自知名市场分析机构(如IDC)发布的关于AI Agent或相关领域的分析报告。
开始研究

Deep Research

首先,让我搜索相关的Deep Research类产品及其benchmark分数。

搜索

Search

国内发布的deep research AI agent产品 benchmark分数 2024
新浪财经_手机新浪网
新浪财经_手机新浪网
这款产品采用了AI agent架构和deep research技术,能够一站式生成文档、PPT、表格(excel)、网页、播客和音视频多模态内容。它具有强大的deep research能力,在GAIA榜单上排名全球第一,超过了OpenAI Deep Research和Manus。天工超级智能体(Skywork Super Agents)的问世,代表中国向全世界隆重宣告:传统的Office类软件已被颠覆,“AI<...
新浪财经_手机新浪网
新浪财经_手机新浪网
为推动这项技术的普及,来自香港大学黄超教授实验室的三位研究员开源了创新型Agent框架Auto-Deep-Research,并一举在 General AI A ssistant bench mark GAIA评测中夺得第三,是开源方案中的最优解。值得注意的是,Auto-Deep-Research仅基于Claude-3.5-Sonnet构建,在成本效益上具有显著优势。此外,系统还支持D...
网易
网易
Deep Research是OpenAI今年发布的第二款AI Agent(人工智能代理,也可称为“智能体”)。上个月,OpenAI推出了“Operator”,它能够协助用户预订航班、规划杂货订单,甚至完成购物。这两项服务目前仅面向每月支付200美元订阅OpenAI最新ChatGPT Pro选项的用户开放。生成式AI训练大模型汇总 大模型,是近年兴起的一种新的人工智能计算范式。和传统AI模型相比,大模型的训练使用了更多的...
虎嗅网
虎嗅网
从2024年末问世的Google Deep Research,到2024年2月以来密集发布的OpenAI Deep Research、Perplexity、xAI Deep Search、Manus,
36氪
36氪
Deep research是一款利用推理合成大量在线信息并为用户完成多步骤研究任务的Agent,目前已整合到ChatGPT中。目前,ChatGPT Pro用户已可使用相关功能,接下来deep research也将对Plus和Team用户开放使用。简单来说,用户只需要告诉ChatGPT需要一份怎样的报告,并在对话框中勾选deep research,ChatGPT就将查找、分析并综合数百个线上资料,创建一份相当于分析师水平的综合报告,而用时...
网易
网易
Deep research是OpenAI在今年2月3日发布的AI Agent模型,用户只需提供一个提示词,深度研究就能搜索、分析并综合数百个在线资源,生成一份媲美专业研究分析师水平的全面报告。最初Deep Research是基于o3 模型的优化版本开发的,并针对网页浏览和数据分析场景进行了专项适配,能够运用推理能力搜索、解读和分析互联网上海量的文本、图像和 PDF 文件,并根据获取的信息灵活调整研究方向。端到端强化学习是 Deep Researc...
搜狐网
搜狐网
Deep Research是OpenAI今年发布的第二款AI Agent(人工智能代理,也可称为“智能体”)。上个月,OpenAI推出了“Operator”,它能够协助用户预订航班、规划杂货订单,甚至完成购物。这两项服务目前仅面向每月支付200美元订阅OpenAI最新ChatGPT Pro选项的用户开放。生成式AI训练大模型汇总 大模型,是近年兴起的一种新的人工智能计算 范式。和传统 AI 模型相比,大模型的训练使用了...
app.myzaker.com
app.myzaker.com
北京时间 2 月 3 日上午,OpenAI 突然发布了一款全新的 Agent(智能体)—deep research。Deep research 是一款利用推理合成大量在线信息并为用户完成多步骤研究任务的 Agent,目前已整合到 ChatGPT 中。目前,ChatGPT Pro 用户已可使用相关功能,接下来 deep research 也将对 Plus 和 Team 用户开放使用。简单来说,用户只需要...
https://static-favicon.basemind.com/01JV51E39CJTT0K728ZAP3CNR3
https://static-favicon.basemind.com/01JV4C8WXWFGHEXJ6SH1R5G2SP
https://static-favicon.basemind.com/01JV1Q6W4G2H790B6KKGJBPQZS
View all 16 sources

我将开始研究当前市场上的Deep Research类产品及其宣称的benchmark分数。首先让我搜索更多相关信息,特别是关于各家公司的产品和他们在benchmark上的表现。

搜索

Search

deep research benchmark GAIA 排名 2025
微博
微博
在 GAIA Benchmark 基准中,Manus 的表现达到了 SOTA:Level 1 86.5%(OpenAI Deep Research 为 74.3%)、Level 2 70.1%(OpenAI Deep Research 为 69.1%)、Level 3 57.7%(OpenAI Deep Research 为 47.6%) 多 Agent 架构、多工具集成共同支持复杂任务执行能力。Manus 并非简单的问答式 AI,其核...
网易
网易
这种优雅而强大的设计在GAIA benchmark评测中取得了骄人成绩:总排名第三,开源方案中位列第一,仅次于OpenAI等闭源系统。值得一提的是,这是前三名中唯一采用Claude-3.5-Donnet的方案,无需依赖更昂贵的o1系列深度思考模型,从而也使其成为了前三方案中最具性价比的选择。更令人欣喜的是,这个框架具备强大的扩展性,不仅支持接入Deepseek-R1模型,还可部署本地开源模型。这意味着,人人都可以搭建属于自己的Deep ...
搜狐网
搜狐网
它内置了开箱即用的 Auto-Deep-Research 多智能体系统,这是一个在 General AI Assistant benchmark GAIA 评测中取得总体第三、开源方案第一的顶尖研究助手。基于 Claude-3.5-sonnet 构建,Deepseek、Huggingface 等多种模型,它不仅是前三名中最经济实惠的方案,更让每个人都能轻松开启深度研究之旅。得益于其突破性的自我发展架构和智能向量数据库,AutoAgent 不仅能让用户通过...
搜狐网
搜狐网
这几年,关于中国大学的排名可谓是争论不断,清华和北大到底谁更强也常常成为话题。那么今天,我就想和你们分享一份基于DeepSeek最新发布的中国大学Top 100排行榜,让我们来看看你是否也认同呢?首先,警告一下哦,这份排名仅供娱乐参考,大家在选择学校和专业时,还是得结合自身情况,选适合自己的,才是最重要的呢!接下来,我们来看看DeepSeek的推荐: 清华大学-NO.1 DeepSeek评价清华为“工科断层领先,大国重器孵化器”,不过文科和医科仍需多努力去追赶北大,听起来...
CSDN博客
CSDN博客
工具使用与代理任务类:如GAIA基准及OpenAI“Deep Research”演示的任务。这类Benchmark通常需要模型 调用外部工具或进行多步骤的计划(如上网搜索、查询数据库)才能完成,例如GAIA中的实时搜索问题,TAU-bench中的具体业务任务 ainews.com [ainews.com](https://www.ainews.com/p/openai-s-12-days-of-shipmas-daily-ai-inno...
买购网
买购网
01 英伟达 RTX 5090 D 85.8 02 英伟达 RTX 5090 84.2 03 英伟达 RTX 4090 82.7 04 ...
澎湃新闻
澎湃新闻
有多厉害呢,在“GAIA Benchmark”(通用人工智能基准测试)图表中,Genspark在三个不同级别(Level 1、Level 2、Level 3)测试中的表现,都超越了Manus、OpenAI Deep Research 等产品。但对于刚刚正式海外上线的Manus而言,GenSpark显然并没有瞄准它作为竞争对手,而是选择Perplexity、秘塔AI以及过去的自己,颠覆AI搜索显然是个更大的市场。如今的AI搜索有几个痛点: 问题思考的时长,回答的长短不好控制...
知乎
知乎
OWL最新提交的结果在智能体测试基准GAIA的验证集上排名平均分第3,在开源项目中排第1。 其Level 1分数81.13同样超过了OpenAI的Deep Research,与Manus晒出的 ...
https://static-favicon.basemind.com/01JV1Q6W4RGQRA2TB66837NPTS
https://static-favicon.basemind.com/01JV2KB37APT5FAMB99C4MFDFA
https://static-favicon.basemind.com/01JVCAZ7ZV8RAXDYCA5ABKGBG4
View all 15 sources

我需要继续搜索更多关于Deep Research类产品的信息,特别是关于其benchmark分数的详细数据。

搜索

Search

天工超级智能体 Skywork Super Agents GAIA benchmark 82.42
证券时报
证券时报
5月26日,昆仑万维天工超级智能体(Skywork Super Agents)APP正式上线。这是全球首款基于AI Agent架构的Office智能体手机APP,标志着“AI Office智能体”时代
腾讯
腾讯
1.昆仑万维发布天工超级智能体(Skywork Super Agents),在GAIA Benchmark上力压群雄,超过OpenAI Deep Research和Manus。2.Skywork定位为AI版的Office,专注于文档、PPT和表格三个场景,提供专业的内容创作能力。3.除此之外,Skywork还包含网页、播客两个专家智能体,以及十余种MCP工具,实现多模态内容生成。4.产品细节方面,
中国证券报
中国证券报
中证报中证网讯(王珞)5月22日,昆仑万维面向全球市场,同步发布天工超级智能体(SkyworkSuper Agents)。该产品采用了AI agent架构和deep research技术,能够一站式生
gongke.net
天工超级智能体(Skywork Super Agents)是由昆仑万维推出的一款基于AI技术的办公智能体,其核心功能是通过深度研究(Deep Research)能力,为用户提供一站式生成文档、PPT、表格、网页、播客等多种模态内容的服务。该AI 办公智能体产品不仅能够生成高质量的文本内容,还能根据用户需求生成可视化图表、数据统计等,帮助用户高效完成各种办公任务。其在GAIA榜单上超越了OpenAI Deep Resea...
今日头条
今日头条
国内AI公司昆仑万维近日推出“天工超级智能体(Skywork Super Agents)”,一上线便在GAIA智能体评估基准测试中超越Manus、OpenAI的Deep Research等多家国际知名竞争对手,成为榜单上的新SOTA(State of the Art)。为什么它能脱颖而出?卓越的多模态能力:天工超级智能体支持五种模态的一站式生成,包括Office三件套(Word、PPT、Excel)、网站、网页和播客等,能满足各种实际工...
凤凰网
凤凰网
此次发布的核心,是天工超级智能体(Skywork Super Agents)的「文档」、「PPT」和「表格」三大智能体。首先来说「文档」。如今,用户的写作需求愈发多元化和专业化,像行业研究、竞品调研、产品规划、学术论文、商业计划、市场推广、创意写作,都是较为高频的需求。这些需求不仅横跨商业、学术、营销等多个领域,更对内容的专业性、创新性与实用性提出了极高要求。为了满足这些需求,天工(Skywork)在它的「文档」
搜狐网
搜狐网
5月22日,昆仑万维面向全球市场,同步发布天工超级智能体(Skywork Super Agents)。这款产品采用了Al agent架构和deep research技术,能够一站式生成文档、PPT、表格(excel)、网页、播客和音视频多模态内容。它具有强大的deep research能力,在 GAIA榜单上排名全球第一,超过了OpenAl Deep Research和Manus。天工超级智能体的问世,代表中国向全世界隆重宣告:传统的O...
雪球
雪球
Deep Research能力:天工超级智能体(Skywork Super Agents)在Meta和HuggingFace的GAIA评测中得分82.42,超越OpenAI Deep Research和Manus,排名全球第一12。
https://static-favicon.basemind.com/01JVCAZ7ZV8RAXDYCA5ABKGBG4
https://static-favicon.basemind.com/01JVBJYSJ0VWXJST2JVGN865TW
https://static-favicon.basemind.com/01JVAV402RAQZCWBZE5B9SD4HG
View all 14 sources

我需要继续搜索关于其他Deep Research类产品的benchmark分数,特别是Manus和OpenAI Deep Research的详细数据。

搜索

Search

Manus GAIA benchmark scores Level 1 86.5 Level 2 70.1 Level 3 57.7
今日头条
今日头条
Manus一炮走红!简单比喻吧,如果说OpenAi是研究生,Manus就是博士!下面这张GAIA Benchmark对比图用数据讲了个"学霸班级"的故事:manus.ai同学简直是全级模范生!看成绩单—Level 1:manus.
微博
微博
在 GAIA Benchmark 基准中,Manus 的表现达到了 SOTA:Level 1 86.5%(OpenAI Deep Research 为 74.3%)、Level 2 70.1%(OpenAI Deep Research 为 69.1%)、Level 3 57.7%(OpenAI Deep Research 为 47.6%) 多 Agent 架构、多工具集成共同支持复杂任务执行能力。Manus
搜狐网
搜狐网
据权威评测机构GAIA Benchmark发布的数据显示,在Level 1测试中,Manus以86.5%的准确率稳居榜首;而在Level 2测试里,Manus继续保持领先优势,达到了70.1%的成绩。相比之下,即使是像OpenAI这样的国际巨头也只能屈居其后。值得注意的是,尽管外界对Manus给予了高度评价,但也有部分声音质疑其原创性。一些开发者指出,Manus展示...
知乎
知乎
其Level 1分数81.13同样超过了OpenAI的Deep Research,与Manus晒出的86.5已经非常接近。 虽然Level 2和Level 3分数还有差距,不过CAMEL-AI团队的李国豪在 ...
CSDN博客
CSDN博客
核心指标:Pass@1准确率. 即单次任务执行的成功率,例如Manus在Level1-3的得分分别为86.5%、70.1%、57.7%,而人类平均成功率高达92%。 在这里插入图片 ...
腾讯
腾讯
Manus成为AI顶流,似乎只用了一个晚上,另加一场不那么正式的发布会。一个邀请码在某鱼已经炒到了5万。不用想,现在最慌的有两批人——投资人,以及大厂。 Manus神奇在何处,是虚火炒作,还是货真价
搜狐网
搜狐网
此外,Manus在权威的GAIA基准测试中创下新纪录,性能远超OpenAI的同类产品。例如在Level 1维度,Manus性能达到86.5%,而OpenAI为74.3%。这表明Manus在技术上已经达到了行业领先水平。2、低配版贾维斯 Manus的另一个亮点在于其独特的用户体验。它通过虚拟机环境将文档阅读、网页浏览及代码运行等过程可视化,用户可以直观地看到AI的思考和执行过程。这种透...
腾讯
腾讯
在GAIA Benchmark基准中,Manus的表现达到了SOTA:Level 1 86.5%(OpenAIDeep Research为74.3%)、Level 2 70.1%(OpenAI Deep Research为69.1%)、Level 3 57.7%(OpenAI Deep Research为47.6%)。多Agent架构、多工具集成共同支持复杂任务执行能力 Manus并非简单的问答式AI...
https://static-favicon.basemind.com/01JV5G46WXTRMHKHVGG5TRZ6EZ
https://static-favicon.basemind.com/01JV1WX7VTZS3SSF3H6G9SHDYE
View all 10 sources

已掌握的信息

  1. 市场主要产品已识别:目前市场上已涌现多款Deep Research类产品,国内主要有昆仑万维的“天工超级智能体”、月之暗面的“Kimi-Researcher”、Genspark的“Genspark Super Agent”以及香港大学开源的“Auto-Deep-Research”等。国际上则以OpenAI的“Deep Research”、Manus、Google Deep Research、Perplexity及xAI Deep Search为代表。
  2. 关键Benchmark为GAIA:多数产品选择在Meta等机构推出的GAIA(General AI Assistant Benchmark)通用AI助手基准上进行评测和宣传。该基准通过不同难度等级(Level 1, 2, 3)来评估AI Agent在真实场景下的综合能力。
  3. 部分产品分数已获取:已收集到部分产品的宣称分数。昆仑万维“天工”在2025年5月宣称其GAIA总分为82.42,位列第一。Manus在同年3月公布的GAIA分级分数为:Level 1 86.5%, Level 2 70.1%, Level 3 57.7%。作为对比,当时OpenAI Deep Research的分数为:Level 1 74.3%, Level 2 69.1%, Level 3 47.6%。此外,月之暗面Kimi在红杉中国发布的Xbench基准测试中取得了69%的通过率。

下一步行动计划

  1. 核实与补全Benchmark数据:当前获取的分数多为各公司自行宣布,下一步需访问权威第三方评测平台,以核实并补全数据。重点是查询GAIA在Hugging Face上的官方排行榜,以及红杉中国发布的Xbench测评的原始报告,以获取最准确、最全面的各产品性能数据。
  2. 系统化整理与对标分析:将所有已核实的产品及其性能数据,按照统一的维度(如开发商、发布时间、GAIA各级别分数、Xbench分数、技术架构特点等)进行结构化整理,形成一个清晰的对比矩阵。
  3. 进行可视化呈现与报告撰写:基于整理好的数据矩阵,生成核心产品的性能对比图表(如GAIA分数对比柱状图),并围绕图表撰写最终的研究报告。报告将系统梳理各产品的优劣势,分析当前市场竞争格局,并对技术发展趋势做出研判。

首先,让我查询GAIA的官方排行榜信息,以获取最权威的benchmark数据。

搜索

Search

GAIA benchmark leaderboard huggingface official 2025
CSDN技术社区
CSDN技术社区
榜单链接:https://huggingface.co/spaces/gaia-benchmark/leaderboard 简介 GAIA(General AI Assistants Benchmark)是由Meta、HuggingFace和AutoGPT团队联合推出的 基准测试,旨在评估 通用AI助手在现实场景中处理多步骤推理、工具使用和多模态任务 的能力。任务设计原则 GAIA聚焦于 对人类简单但对AI困难 的任务...
CSDN技术社区
CSDN技术社区
然后我仔细研究发现,manus和openai都在leaderboard上瞎搞. 榜单地址:https://huggingface.co/gaia-benchmark 先回顾下,GAIA是一个评测agent能力的榜单,比如给你一个 excel 表,让你统计一下三年二班的总分最高分的同学对应的数学分。然后大模型要干的事儿是与调用tool完成任务,给出最终结果。import pandas as pd 读取Excel文件 df...
腾讯
腾讯
钛媒体App 10月29日消息,天桥脑科学研究院的内部AI团队在人工智能领域取得突破,其自主研发的OMNE多智能体框架在Hugging Face发布的GAIA(通用AI助手)基准排行榜(https://huggingface.co/spaces/gaia-benchmark/leaderboard)中占据了榜首。OMNE超越了包括微软研究院在内的一些全球顶尖机构的框架。这一成就建立在TCCI多年的脑科...
CSDN技术社区
CSDN技术社区
官网地址​ ​:Hugging Face GAIA Leaderboard(打不开):https://huggingface.co/spaces/gaia-benchmark/leaderboard GAIA由Meta AI、Hugging Face、AutoGPT等团队联合推出,包含466道需多步骤解决的实际问题,覆盖工具调用、编程、网络检索等能力。三、开源社区 ...
美通社
美通社
他们自主研发的OMNE多智能体框架在GAIA(通用人工智能助手)基准测试排行榜(https://huggingface.co/spaces/gaia-benchmark/leaderboard )上夺得首位,该排行榜由Meta AI、Hugging Face和Hugging Face的AutoGPT共同发起。OMNE的表现优于包括微软研究院(Microsoft Research)在内...
CSDN技术社区
CSDN技术社区
AgentCLUE-General借鉴了GAIA基准(https://huggingface.co/spaces/gaia-benchmark/leaderboard)对难度等级的定义,来定义难度等级: 1 级问题通常只考察一个任务场景,解题所需要的步骤不超过 5 个。2 级问题通常只考察一个任务场景,解题需要 5 个以上的步骤(通常是6-10个)。如果是考察多个任务场景的“多场景组合”任务,解题步数一般也在6-10步...
腾讯
腾讯
梦晨 发自 凹非寺 量子位|公众号 QbitAI Manus背后公司名为“蝴蝶效应”,真的带火了整个智能体赛道— 开源复现潮出现了,商业闭源产品也卷起来了。目前进度最快的两个项目,都是在 Manus 发布的第0天发布了复现代码。除了之前介绍的OpenManus之外,另一个开源项目 OWL已经把 DeepSeek 模型整合到多智能体协作框架中。OWL来自国内开源社区 CAMEL-AI 团队。OWL最新提交的结果在智能体测试基准GAIA的验证集上排名平均分第3,在开源项目中排第1。其Level 1分数 81.1...
app.myzaker.com
app.myzaker.com
GAIA 由 Meta AI、HuggingFace 和 AutoGPT 团队推出,图灵奖得主 Yann LeCun 和 HuggingFace 首席科学家 Thomas Wolf 参与,旨在解决现有大语言模型基准测试被快速突破、难以评估新模型的问题。GAIA 测试由 450+具有明确答案的复杂问题组成,分为三个难度级别,考验智能体系统的工具使用能力以及自主性。Level 1:通常解题步骤不超过 5 步,且不需要工具,或最多使用一种工具...
https://static-favicon.basemind.com/01JV2KB37APT5FAMB99C4MFDFA
https://static-favicon.basemind.com/01JV2KB37APT5FAMB99C4MFDFA
https://static-favicon.basemind.com/01JV33XAB58FABDR2BS3NYHDT4
View all 13 sources

我需要继续搜索更多关于Deep Research类产品的benchmark分数,特别是查看GAIA官方排行榜的最新数据。

看来GAIA官方排行榜网站暂时无法访问。我将尝试通过其他途径获取相关信息,继续搜索更多关于各家Deep Research类产品的benchmark分数。

搜索

Search

红杉中国 Xbench DeepSearch 测评 Kimi-Researcher 69% 2025
新浪新闻
新浪新闻
同一天上线的还有 Kimi v1.5 多模态思考模型。自去年 11 月 Kimi 推出 k0-math 数学模型,12 月发布 k1 视觉思考模型以来,这是第三次 K 系列的重要上新。在短思考模式(short-CoT)的较量中,Kimi k1.5 展现出压倒性优势,其数学、代码、视觉多模态和通用能力全面超越了行业翘楚 GPT-4o 和 Claude 3.5 Sonnet。在长思考模式(long-CoT)的竞争中,Kimi k1.5 的代...
网易
网易
红杉中国正式开源AI基准测试xbench评测集 界面新闻 上海 关注 5 19.9万 次播放 07:18 朝鲜老猛了,俄朝联手,俄罗斯赢定了 33.1万 次播放 07:11 中国芯片首富虞仁荣捐赠300亿 6.3万 次播放 06:46 一个视频说透,为何不急于武统 10.3万 次播放 06:17 5对不为人知的死对头,也许是下一场俄乌战争,邻国恩怨大揭秘!15.0万 次播放 01:49 巴拉望岛原名郑和岛 03:24 德黑兰市民连夜出城!叙利亚主动对以色...
牛客网
牛客网
该模型预训练数据超过20万亿tokens,在多项公开主流模型评测基准上录得高分,位列全球第七名,是非推理类的中国大模型冠军。它展现出极强劲的综合性能,特别是在数学和编程等单项能力上排名第一。AI大模型多维度对比分析 1.基础参数对比 DeepSeek V3专注于长文本逻辑连贯性,moonshot-v1-32k支持代码片段输入且可流式输出,通义千问-Max则在文档理解和多模态支持方面表现突出。建议DeepSeek V3用于深度文本分析,moonshot-v1-32k适用于代...
澎湃新闻
澎湃新闻
1月20日,前后相隔仅几小时的时间里,深度求索与月之暗面先后发布了技术路径相似的DeepSeek-R1及Kimi K1.5多模态思考模型。后来,OpenAI在论文里称,这两家中国AI公司同时独立发现了o1(OpenAI o1推理模型)的秘密。但从结果来看,二者南辕北辙。前者名声大噪,改写全球AI格局,后者却并没有太大声量。在此之前,不会有人想到一家由对冲基金公司孵化、没有进行任何广告投放的AI模型,能够在短短一个月的时间里,打破OpenAI神话,甚至让网友高呼:DeepS...
m.bilibili.com
m.bilibili.com
视频播放量 82、弹幕量 0、点赞数 0、投硬币枚数 0、收藏人数 0、转发人数 0,视频作者 瞎说基,作者简介 黄瓜必须拍,人生必须嗨!相关视频:我的眼里有宇宙的颜色,华为秀大招 中国自制EUV光刻机横空出世|ASML亏麻!中芯王炸 deepseek 华为强强联手,看片?手艺?那些戒不掉的瘾是如何控制你的?深度探究成瘾机制,如何戒瘾,人为什么会爱上AI?深解12年前的《她》对今天的准确“预言”,【小丑片段】笑跟哭一样难受,如何锻炼深度思考能力,吉利银河L6emi提车10天深度体验感受分享...
新浪财经
新浪财经
Missing: Kimi- Researcher 69%
中文开源技术交流社区
中文开源技术交流社区
Missing: Researcher 69%
qbitai.com
qbitai.com
Missing: Kimi- 69%
https://static-favicon.basemind.com/01JV41HADMQ3XKN3TBR66VD9NE
https://static-favicon.basemind.com/01JV1Q6W4G2H790B6KKGJBPQZS
View all 10 sources

我需要继续搜索更多关于红杉中国的Xbench测评和Kimi-Researcher的具体分数数据。

搜索

Search

红杉中国 Xbench DeepSearch Kimi-Researcher 69% 通过率 benchmark
donews.com
donews.com
近日,首个基于端到端自主强化学习技术的智能体Kimi-Researcher正式开启小范围灰度测试。这款专为深度研究任务设计的Agent产品,能够自主规划任务流程并交付高质量成果。其核心能力包括澄清问题、深入推理、主动搜索以及调用工具完成结果交付。通过异步执行方式,Kimi-Researcher确保输出内容的信息覆盖度与质量,最终提供两份成果:一份万字以上的深度研究报告,引用26个高质量信源且支持溯源;另一份则是可交互的动态可视化报告,便...
ITBear科技资讯
ITBear科技资讯
月之暗面公司今日震撼发布其备受瞩目的Kimi研究功能,正式进军竞争激烈的AI智能体领域。据悉,该功能在多项严格...在xbench测试的xbench-DeepSearch项目上,Kimi-Researcher取得了69%的Pass@1得分率(四次运行平均值),优于其他配备搜索工具的模型。在涉及多轮搜索推理(如f rameS、Seal-0)和事实性信息问答(如SimpleQA)的基准测试中,Kimi-Resear...
mparticle.uc.cn
mparticle.uc.cn
IT之家6月21日消息,IT之家从月之暗面Kimi公众号获悉,Kimi的第一个Agent(智能体)Kimi-Researcher于20日开启 小范围灰度测试。Kimi-Researcher是基于端到端自主强化学习(end-to-endagenticRL)技术训练的新一代Agent模型,也是一个专为深度研究任务而生的Agent产品。其后,月之暗面也将逐步开源Kimi-Researcher基础预训练模型及...
网易
网易
在过去两年多的时间里,xbench一直是 红杉中国 在内部使用的跟踪和评估基础模型能力的工具。区别于传统评测集更关注AI系统的能力边界,xbench更关注AI系统面对真实世界任务下的能力表现,并采用长青评估的机制,以一个动态更新的题目扩充评估集来消弭飞速进化的模型能力对评测集的影响。此次发布,红杉中国并未透露xbench评测集结果与其的投资决策的相关性,而将更大的愿景投射于xbench的开源给整个AI...
凤凰网
凤凰网
5月26日,红杉中国宣布推出全新的AI基准测试xbench,并发布论文《xbench:Tracking Agents Productivity,Scaling with Profession-Aligned Real-World Evaluations》。这是首个由投资机构发起,联合国内外十余家顶尖高校和研究机构的数十位博士研究生,采用双轨评估体系和长青评估机制的AI基准测试。xbench将在评估和推动AI系统能力提升上限与技术边界的同...
hongshan.com
有鉴于此,红杉中国今天正式推出一款全新的AI基准测试工具xbench,并发布论文《xbench:Tracking Agents Productivity,Scaling with Profession-Aligned Real-World Evaluations》。在评估和推动AI系统提升能力上限与技术边界的同时,xbench会重点量化AI系统在真实场景的效用价值,并采用长青评估的机制,去捕捉Agent产品的关键突破。摘要 xb...
新浪
新浪
【Kimi-Researcher 深度研究模型开启内测:可生成易追溯的万字报告】Kimi-Researcher 是基于端到端自主强化学习(end-to-end
新浪财经
新浪财经
Missing: Kimi- Researcher 69% 率
https://static-favicon.basemind.com/01JVCAZ7ZV8RAXDYCA5ABKGBG4
https://static-favicon.basemind.com/01JV1Q6W4RGQRA2TB66837NPTS
https://static-favicon.basemind.com/01JV41HADMQ3XKN3TBR66VD9NE
View all 11 sources

已掌握的信息

  1. 市场主要参与者已明确:国内市场已涌现出多款Deep Research类产品,核心参与者包括昆仑万维的“天工超级智能体”、月之暗面的“Kimi-Researcher”以及Genspark的“Genspark Super Agent”等。国际上,OpenAI的“Deep Research”和Manus是该领域的标杆性产品。
  2. 关键评测基准已识别:当前,行业主要通过两大基准来衡量产品能力。一是Meta等机构推出的GAIA(通用AI助手基准),它通过不同难度等级(Level 1/2/3)评估AI Agent的综合能力;二是红杉中国推出的Xbench,其下的DeepSearch任务专注于评估深度搜索研究能力。此外,高难度的HLE(人类最后一次考试)基准也被部分产品用于展示其顶尖推理能力。
  3. 核心产品分数已初步掌握:已收集到各主要产品的宣称分数。昆仑万维“天工”宣称其GAIA总分在2025年5月达到82.42分。月之暗面“Kimi-Researcher”在Xbench的DeepSearch任务中通过率为69%,并在HLE测试中取得26.9%的准确率。作为参照,Manus和OpenAI Deep Research在2025年3月公布了其在GAIA上的分级分数,但这些数据可能已被更新的榜单超越。

下一步行动计划

  1. 数据核实与整合:鉴于GAIA官方排行榜访问不稳定且存在数据争议,下一步的核心任务是将已收集的各产品分数进行系统化整理,并优先通过更可靠的官方信源进行交叉验证。重点是访问红杉中国发布的xbench官方网站(xbench.org)和各产品官网的公告,以获取最权威的评测结果和报告,完成一个全面的产品性能数据矩阵。
  2. 多维度对比与可视化:基于整理后的数据矩阵,进行横向对比分析。不仅要比较GAIA、Xbench、HLE等量化分数,还需深入研究各产品的技术架构、核心功能和应用场景(如“天工”的AI Office定位,“Kimi”的万字报告生成能力)。随后,将关键性能数据制作成对比图表(如柱状图),以直观呈现各产品间的性能差异。
  3. 撰写综合分析报告:在完成数据整合与对比分析的基础上,撰写最终的研究报告。报告将首先概述国内Deep Research类产品的市场格局与发展态势,然后结合图表详细介绍各核心产品的性能表现与功能特点,最后对当前的技术趋势、竞争焦点及评测基准的局限性进行总结与评论。

现在,让我整理已掌握的各产品benchmark分数,并将其可视化呈现。

可视化工具

可视化工具

现在我将整理所有已收集的信息,并提供一份关于Deep Research类产品及其benchmark分数的综合分析报告。

Deep Research类产品及其Benchmark分数分析报告

一、市场概览

随着人工智能技术的快速发展,Deep Research类产品已成为AI领域的重要发展方向。这类产品不仅能够进行基础的对话交互,更能够自主搜索网络信息、分析复杂数据、生成详尽报告,代表了AI从单纯的问答系统向真正的智能助手进化的重要一步。目前,国内外多家企业已推出各自的Deep Research产品,并在不同的benchmark测试中展示了其性能优势。

二、主要Deep Research产品介绍

1. 国际产品

(1) OpenAI Deep Research

OpenAI于2025年2月推出的Deep Research是该领域的先驱产品之一。它基于优化后的o3模型,能够利用推理能力搜索、解释和分析互联网上的大量文本、图像和PDF文件,并根据搜集的信息进行灵活调整网易。该产品目前仅向Pro用户开放,每月订阅费用约200美元新浪财经_手机新浪网

(2) Manus

Manus由Monica团队于2025年3月发布,被称为"全球首款通用Agent产品"微博。它采用多Agent架构,包括规划代理、执行代理和验证代理三个核心模块,能够自主规划并执行复杂任务微博。Manus的特点是具备强大的自主执行能力,不仅能提供建议或答案,还能直接交付完整的任务成果搜狐网

(3) Google Deep Research

Google也推出了自己的Deep Research产品,但目前关于其具体功能和性能的公开信息较少虎嗅网

(4) xAI Deep Search

xAI的Deep Search是该公司在Deep Research领域的尝试,但同样缺乏详细的公开信息虎嗅网

2. 国内产品

(1) 昆仑万维天工超级智能体(Skywork Super Agents)

昆仑万维于2025年5月发布的天工超级智能体采用了AI agent架构和deep research技术,能够一站式生成文档、PPT、表格、网页、播客和音视频多模态内容证券时报。它构建了由"5个专家智能体"+"1个通用智能体"组成的垂直专业系统中国证券报

(2) 月之暗面Kimi-Researcher

月之暗面于2025年6月推出的Kimi-Researcher是基于端到端自主强化学习技术训练的新一代Agent模型,专为深度研究任务设计donews.com。它能够自主规划任务流程,进行澄清问题、深入思考、主动搜索以及调用工具完成结果交付donews.com

(3) Genspark Super Agent

Genspark Super Agent是一个综合性的AI助手,结合了AI搜索、浏览和Agent功能,能够协调多个AI工具高效执行各项任务澎湃新闻

(4) 香港大学Auto-Deep-Research

香港大学黄超教授实验室的三位研究员开源了创新型Agent框架Auto-Deep-Research,这是一个低成本的Deep Research替代方案新浪财经_手机新浪网。它基于Claude-3.5-Sonnet构建,同时支持DeepSeek、Hugging Face等主流模型新浪财经_手机新浪网

三、Benchmark分数对比

目前,评估Deep Research类产品性能的主要benchmark包括GAIA、HLE和Xbench等。

1. GAIA基准测试分数

GAIA (General AI Assistant Benchmark)是由Meta、HuggingFace和AutoGPT团队联合推出的基准测试,旨在评估通用AI助手在现实场景中处理多步骤推理、工具使用和多模态任务的能力CSDN技术社区。GAIA将任务分为三个难度等级:Level 1(基础任务)、Level 2(中级任务)和Level 3(高级任务)CSDN技术社区

资料来源: 微博证券时报知乎

根据GAIA基准测试的结果:

  • 昆仑万维的天工超级智能体宣称在GAIA评测中取得了82.42的高分,超越了OpenAI Deep Research和Manus,位居第一(2025年5月10日数据)新浪财经_手机新浪网证券时报

  • Manus在GAIA基准测试中的表现达到了SOTA水平:Level 1为86.5%(超过OpenAI Deep Research的74.3%)、Level 2为70.1%(超过OpenAI Deep Research的69.1%)、Level 3为57.7%(超过OpenAI Deep Research的47.6%)微博

  • 香港大学开发的开源项目OWL在GAIA的验证集上,其Level 1分数达到81.13%,同样超过了OpenAI的Deep Research,与Manus晒出的86.5%已经非常接近知乎

2. HLE基准测试分数

HLE(Humanity's Last Exam,人类最后一次考试)是由安全AI组织推出的极高难度基准,旨在成为"如果AI通过了这套考题,人类可能无题可出"的最终挑战CSDN博客

资料来源: donews.comITBear科技资讯

在HLE基准测试中:

  • Kimi-Researcher在完全零结构、无流程设计的设置下,Pass@1准确率达到26.9%,Pass@4准确率达到40.17%donews.com。这一表现超过了Claude 4 Opus(10.7%)和Gemini 2.5 Pro(21.6%),略高于OpenAI Deep Research(26.6%),与Gemini-Pro的DeepResearchAgent(26.9%)打平donews.com

  • OpenAI Deep Research在"人类的最后考试"中取得了26.6%的准确率,远远超过了其最接近的竞争对手DeepSeek R1,后者的得分低于10%网易

3. Xbench基准测试分数

Xbench是红杉中国推出的一款全新AI基准测试工具,采用双轨评估体系,构建多维度测评数据集,旨在同时追踪模型的理论能力上限与Agent的实际落地价值网易

在Xbench的DeepSearch任务中,Kimi-Researcher取得了69%的平均通过率,领先该榜中其他模型donews.comITBear科技资讯

四、产品功能与特点对比

1. 功能特点

各家Deep Research产品在功能上各有侧重:

  • OpenAI Deep Research:能够根据用户指令在线搜索文字、图像、PDF文件以及用户上传的文件,进而生成一份详尽的报告网易

  • Manus:具备强大的自主执行能力,能够解压文件、逐页浏览简历、提取关键信息,并生成Excel格式的排名报告搜狐网

  • 天工超级智能体:专注于办公场景,能够一站式生成文档、PPT、表格、网页、播客和音视频多模态内容证券时报。它在这三个智能体里集成了deep research能力,能够提供专家级、咨询级、科研级的内容生成结果中国证券报

  • Kimi-Researcher:专为深度研究任务设计,能够自主规划任务执行流程,进行澄清问题、深入思考、主动搜索以及调用工具完成结果交付donews.com。用户最终将收到两个交付成果:一份信息详实、可溯源的深度研究报告(平均长度在万字以上)和一个可交互、可分享的动态可视化报告mparticle.uc.cn

2. 技术架构

各产品的技术架构也有所不同:

  • OpenAI Deep Research:基于优化后的o3模型,经过优化以进行网络浏览和数据分析网易

  • Manus:采用多Agent架构,包括规划代理、执行代理和验证代理三个核心模块微博。其核心竞争力来自其混合模型腾讯

  • 天工超级智能体:构建了由"5个专家智能体"+"1个通用智能体"组成的垂直专业系统中国证券报

  • Kimi-Researcher:基于端到端自主强化学习技术训练的新一代Agent模型donews.com

五、市场竞争与发展趋势

1. 市场竞争格局

目前,Deep Research类产品的市场竞争格局呈现以下特点:

  • 国际巨头如OpenAI、Google等凭借其强大的技术实力和资金优势,率先推出了Deep Research产品,占据了一定的市场先机。

  • 国内企业如昆仑万维、月之暗面等也迅速跟进,推出了具有竞争力的产品,并在某些benchmark测试中取得了超越国际巨头的成绩。

  • 开源社区如香港大学的Auto-Deep-Research项目也在积极参与竞争,为用户提供了更经济实惠的选择。

2. 发展趋势

Deep Research类产品的未来发展趋势可能包括:

  • 功能多样化:各产品将继续拓展其功能边界,提供更多样化的服务,如天工超级智能体计划在2025年下半年上线中文播客智能体,并拓展教育、医疗、法律等更多垂直领域的专家模块证券时报

  • 性能提升:随着AI技术的不断进步,各产品的性能将持续提升,在各类benchmark测试中的分数也将不断刷新。

  • 应用场景拓展:Deep Research类产品将逐渐渗透到更多的应用场景中,如办公、教育、医疗、法律等领域。

  • 开源生态繁荣:开源社区的活跃参与将推动整个行业的技术创新和进步,为用户提供更多样化的选择。

六、结论与展望

Deep Research类产品代表了AI从单纯的问答系统向真正的智能助手进化的重要一步。目前,各家企业推出的产品在功能、性能和应用场景上各有侧重,为用户提供了多样化的选择。

从benchmark分数来看,昆仑万维的天工超级智能体在GAIA评测中宣称取得了82.42的高分,位居第一;Manus在GAIA的Level 1、2、3测试中分别取得了86.5%、70.1%和57.7%的成绩;Kimi-Researcher在HLE测试中取得了26.9%的Pass@1准确率,在Xbench的DeepSearch任务中取得了69%的平均通过率。

未来,随着AI技术的不断进步和应用场景的不断拓展,Deep Research类产品将在更广泛的领域发挥重要作用,为用户提供更加智能、高效的服务。同时,各家企业也将在技术创新、产品功能和用户体验等方面展开更加激烈的竞争,推动整个行业的快速发展。

Key references