我将为您调研各家发布的Deep Research类产品及其宣称的benchmark分数。为了更好地完成这项任务,我需要澄清几点信息:
您是否需要关注特定时间范围内发布的Deep Research产品(例如2024-2025年),还是希望包含所有历史产品?
除了各产品宣称的benchmark分数外,您是否也想了解这些产品在某些特定评测基准上的表现比较(如GAIA、SimpleQA等)?
您是否对某些特定公司或机构(如OpenAI、Perplexity、DeepSeek等)的Deep Research产品更感兴趣?
好的,这是为您制定的关于国内Deep Research类产品的研究计划。
第一阶段:市场扫描与关键产品识别
第二阶段:产品深度信息采集与核实
第三阶段:信息整合与对比分析
构建对比框架:
生成可视化对比图表:
第四阶段:撰写综合研究报告
为确保研究的准确性和权威性,信息获取将主要依赖以下渠道:
首先,让我搜索相关的Deep Research类产品及其benchmark分数。
Search
国内发布的deep research AI agent产品 benchmark分数 2024我将开始研究当前市场上的Deep Research类产品及其宣称的benchmark分数。首先让我搜索更多相关信息,特别是关于各家公司的产品和他们在benchmark上的表现。
Search
deep research benchmark GAIA 排名 2025我需要继续搜索更多关于Deep Research类产品的信息,特别是关于其benchmark分数的详细数据。
Search
天工超级智能体 Skywork Super Agents GAIA benchmark 82.42我需要继续搜索关于其他Deep Research类产品的benchmark分数,特别是Manus和OpenAI Deep Research的详细数据。
Search
Manus GAIA benchmark scores Level 1 86.5 Level 2 70.1 Level 3 57.7已掌握的信息
下一步行动计划
首先,让我查询GAIA的官方排行榜信息,以获取最权威的benchmark数据。
Search
GAIA benchmark leaderboard huggingface official 2025我需要继续搜索更多关于Deep Research类产品的benchmark分数,特别是查看GAIA官方排行榜的最新数据。
看来GAIA官方排行榜网站暂时无法访问。我将尝试通过其他途径获取相关信息,继续搜索更多关于各家Deep Research类产品的benchmark分数。
Search
红杉中国 Xbench DeepSearch 测评 Kimi-Researcher 69% 2025我需要继续搜索更多关于红杉中国的Xbench测评和Kimi-Researcher的具体分数数据。
Search
红杉中国 Xbench DeepSearch Kimi-Researcher 69% 通过率 benchmark已掌握的信息
下一步行动计划
现在,让我整理已掌握的各产品benchmark分数,并将其可视化呈现。
可视化工具
现在我将整理所有已收集的信息,并提供一份关于Deep Research类产品及其benchmark分数的综合分析报告。
随着人工智能技术的快速发展,Deep Research类产品已成为AI领域的重要发展方向。这类产品不仅能够进行基础的对话交互,更能够自主搜索网络信息、分析复杂数据、生成详尽报告,代表了AI从单纯的问答系统向真正的智能助手进化的重要一步。目前,国内外多家企业已推出各自的Deep Research产品,并在不同的benchmark测试中展示了其性能优势。
OpenAI于2025年2月推出的Deep Research是该领域的先驱产品之一。它基于优化后的o3模型,能够利用推理能力搜索、解释和分析互联网上的大量文本、图像和PDF文件,并根据搜集的信息进行灵活调整网易。该产品目前仅向Pro用户开放,每月订阅费用约200美元新浪财经_手机新浪网。
Manus由Monica团队于2025年3月发布,被称为"全球首款通用Agent产品"微博。它采用多Agent架构,包括规划代理、执行代理和验证代理三个核心模块,能够自主规划并执行复杂任务微博。Manus的特点是具备强大的自主执行能力,不仅能提供建议或答案,还能直接交付完整的任务成果搜狐网。
Google也推出了自己的Deep Research产品,但目前关于其具体功能和性能的公开信息较少虎嗅网。
xAI的Deep Search是该公司在Deep Research领域的尝试,但同样缺乏详细的公开信息虎嗅网。
昆仑万维于2025年5月发布的天工超级智能体采用了AI agent架构和deep research技术,能够一站式生成文档、PPT、表格、网页、播客和音视频多模态内容证券时报。它构建了由"5个专家智能体"+"1个通用智能体"组成的垂直专业系统中国证券报。
月之暗面于2025年6月推出的Kimi-Researcher是基于端到端自主强化学习技术训练的新一代Agent模型,专为深度研究任务设计donews.com。它能够自主规划任务流程,进行澄清问题、深入思考、主动搜索以及调用工具完成结果交付donews.com。
Genspark Super Agent是一个综合性的AI助手,结合了AI搜索、浏览和Agent功能,能够协调多个AI工具高效执行各项任务澎湃新闻。
香港大学黄超教授实验室的三位研究员开源了创新型Agent框架Auto-Deep-Research,这是一个低成本的Deep Research替代方案新浪财经_手机新浪网。它基于Claude-3.5-Sonnet构建,同时支持DeepSeek、Hugging Face等主流模型新浪财经_手机新浪网。
目前,评估Deep Research类产品性能的主要benchmark包括GAIA、HLE和Xbench等。
GAIA (General AI Assistant Benchmark)是由Meta、HuggingFace和AutoGPT团队联合推出的基准测试,旨在评估通用AI助手在现实场景中处理多步骤推理、工具使用和多模态任务的能力CSDN技术社区。GAIA将任务分为三个难度等级:Level 1(基础任务)、Level 2(中级任务)和Level 3(高级任务)CSDN技术社区。
根据GAIA基准测试的结果:
昆仑万维的天工超级智能体宣称在GAIA评测中取得了82.42的高分,超越了OpenAI Deep Research和Manus,位居第一(2025年5月10日数据)新浪财经_手机新浪网证券时报。
Manus在GAIA基准测试中的表现达到了SOTA水平:Level 1为86.5%(超过OpenAI Deep Research的74.3%)、Level 2为70.1%(超过OpenAI Deep Research的69.1%)、Level 3为57.7%(超过OpenAI Deep Research的47.6%)微博。
香港大学开发的开源项目OWL在GAIA的验证集上,其Level 1分数达到81.13%,同样超过了OpenAI的Deep Research,与Manus晒出的86.5%已经非常接近知乎。
HLE(Humanity's Last Exam,人类最后一次考试)是由安全AI组织推出的极高难度基准,旨在成为"如果AI通过了这套考题,人类可能无题可出"的最终挑战CSDN博客。
资料来源: donews.comITBear科技资讯
在HLE基准测试中:
Kimi-Researcher在完全零结构、无流程设计的设置下,Pass@1准确率达到26.9%,Pass@4准确率达到40.17%donews.com。这一表现超过了Claude 4 Opus(10.7%)和Gemini 2.5 Pro(21.6%),略高于OpenAI Deep Research(26.6%),与Gemini-Pro的DeepResearchAgent(26.9%)打平donews.com。
OpenAI Deep Research在"人类的最后考试"中取得了26.6%的准确率,远远超过了其最接近的竞争对手DeepSeek R1,后者的得分低于10%网易。
Xbench是红杉中国推出的一款全新AI基准测试工具,采用双轨评估体系,构建多维度测评数据集,旨在同时追踪模型的理论能力上限与Agent的实际落地价值网易。
在Xbench的DeepSearch任务中,Kimi-Researcher取得了69%的平均通过率,领先该榜中其他模型donews.comITBear科技资讯。
各家Deep Research产品在功能上各有侧重:
OpenAI Deep Research:能够根据用户指令在线搜索文字、图像、PDF文件以及用户上传的文件,进而生成一份详尽的报告网易。
Manus:具备强大的自主执行能力,能够解压文件、逐页浏览简历、提取关键信息,并生成Excel格式的排名报告搜狐网。
天工超级智能体:专注于办公场景,能够一站式生成文档、PPT、表格、网页、播客和音视频多模态内容证券时报。它在这三个智能体里集成了deep research能力,能够提供专家级、咨询级、科研级的内容生成结果中国证券报。
Kimi-Researcher:专为深度研究任务设计,能够自主规划任务执行流程,进行澄清问题、深入思考、主动搜索以及调用工具完成结果交付donews.com。用户最终将收到两个交付成果:一份信息详实、可溯源的深度研究报告(平均长度在万字以上)和一个可交互、可分享的动态可视化报告mparticle.uc.cn。
各产品的技术架构也有所不同:
OpenAI Deep Research:基于优化后的o3模型,经过优化以进行网络浏览和数据分析网易。
天工超级智能体:构建了由"5个专家智能体"+"1个通用智能体"组成的垂直专业系统中国证券报。
Kimi-Researcher:基于端到端自主强化学习技术训练的新一代Agent模型donews.com。
目前,Deep Research类产品的市场竞争格局呈现以下特点:
国际巨头如OpenAI、Google等凭借其强大的技术实力和资金优势,率先推出了Deep Research产品,占据了一定的市场先机。
国内企业如昆仑万维、月之暗面等也迅速跟进,推出了具有竞争力的产品,并在某些benchmark测试中取得了超越国际巨头的成绩。
开源社区如香港大学的Auto-Deep-Research项目也在积极参与竞争,为用户提供了更经济实惠的选择。
Deep Research类产品的未来发展趋势可能包括:
功能多样化:各产品将继续拓展其功能边界,提供更多样化的服务,如天工超级智能体计划在2025年下半年上线中文播客智能体,并拓展教育、医疗、法律等更多垂直领域的专家模块证券时报。
性能提升:随着AI技术的不断进步,各产品的性能将持续提升,在各类benchmark测试中的分数也将不断刷新。
应用场景拓展:Deep Research类产品将逐渐渗透到更多的应用场景中,如办公、教育、医疗、法律等领域。
开源生态繁荣:开源社区的活跃参与将推动整个行业的技术创新和进步,为用户提供更多样化的选择。
Deep Research类产品代表了AI从单纯的问答系统向真正的智能助手进化的重要一步。目前,各家企业推出的产品在功能、性能和应用场景上各有侧重,为用户提供了多样化的选择。
从benchmark分数来看,昆仑万维的天工超级智能体在GAIA评测中宣称取得了82.42的高分,位居第一;Manus在GAIA的Level 1、2、3测试中分别取得了86.5%、70.1%和57.7%的成绩;Kimi-Researcher在HLE测试中取得了26.9%的Pass@1准确率,在Xbench的DeepSearch任务中取得了69%的平均通过率。
未来,随着AI技术的不断进步和应用场景的不断拓展,Deep Research类产品将在更广泛的领域发挥重要作用,为用户提供更加智能、高效的服务。同时,各家企业也将在技术创新、产品功能和用户体验等方面展开更加激烈的竞争,推动整个行业的快速发展。