
我需要了解关于字节跳动发布Game-TARS游戏智能体的信息。这个问题涉及到科技公司的产品发布真实性,我应该搜索最新相关信息来确认。
Search
字节跳动 Game-TARS 游戏智能体 发布根据搜索结果,字节跳动确实发布了名为Game-TARS的游戏智能体。这是一款通用型游戏智能体,由字节跳动的seed团队开发。它基于统一、可扩展的键盘-鼠标动作空间训练,可以在操作系统、网页与模拟环境中进行大规模预训练。
Game-TARS的主要特点是能够像人类一样使用鼠标和键盘操作游戏,而不是通过调用函数。它依托超过5000亿标注量级的多模态训练数据,结合稀疏推理和衰减持续损失技术,提升了智能体的可扩展性和泛化性。
好的,这是一个为您的请求制定的行动计划。
Search
字节跳动 Game-TARS 游戏智能体 发布我将根据搜索结果分析字节跳动发布Game-TARS游戏智能体的信息。
Search
Game-TARS 字节跳动 官方发布 论文我需要进一步了解Game-TARS的官方发布情况,特别是查看一下arxiv上的论文内容。
这篇网页展示了一篇名为"Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents"的学术论文信息。该论文由Zihao Wang等多位研究者共同撰写,提交于2025年10月27日。论文介绍了Game-TARS,一种通用游戏智能体,它采用统一的、可扩展的行动空间,基于人类键盘鼠标输入进行训练。与基于API或GUI的方法不同,这种范式能够在操作系统、网页和模拟游戏等异构领域进行大规模持续预训练。Game-TARS在超过500B的多模态数据和多样化轨迹上进行了预训练。其关键技术包括衰减连续损失函数(用于减少因果混淆)和高效的Sparse-Thinking策略(平衡推理深度和推理成本)。实验表明,Game-TARS在开放世界Minecraft任务上的成功率约为之前最先进模型的2倍,在未见过的网页3D游戏中接近新手人类的通用性,并在FPS基准测试中优于GPT-5、Gemini-2.5-Pro和Claude-4-Sonnet。论文的研究结果表明,简单、可扩展的行动表示结合大规模预训练为具有广泛计算机使用能力的通用智能体提供了一条有前途的路径。
关于Game-TARS论文的详细内容,从网页中可提取以下信息:
作者信息:
论文由多位研究者共同完成,第一作者是Zihao Wang,其他作者包括Xujing Li、Yining Ye、Junjie Fang、Haoming Wang、Longxiang Liu、Shihao Liang、Junting Lu、Zhiyong Wu、Jiazhan Feng、Wanjun Zhong、Zili Li、Yu Wang、Yu Miao、Bo Zhou、Yuanfan Li、Hao Wang、Zhongkai Zhao、Faming Wu、Zhengxuan Jiang、Weihao Tan、Heyuan Yao、Shi Yan、Xiangyang Li、Yitao Liang、Yujia Qin和Guang Shi。
发布日期:
论文提交于2025年10月27日(值得注意的是,这个日期似乎是未来的日期,可能是网页内容的错误)。
摘要:
Game-TARS是一种通用游戏智能体,采用统一的、可扩展的行动空间,该空间锚定于人类对齐的原生键盘鼠标输入。与基于API或GUI的方法不同,这种范式能够在操作系统、网页和模拟游戏等异构领域进行大规模持续预训练。Game-TARS在超过500B的多模态数据和多样化轨迹上进行了预训练。
主要技术创新:
实验结果:
论文DOI:10.48550/arXiv.2510.23691
网页内容中没有包含图片信息。
我需要进一步了解字节跳动与Game-TARS的关系,以及是否有官方确认这一发布。
Search
字节跳动 seed团队 Game-TARS 官方发布已掌握的信息
下一步行动计划
可视化工具
我需要进一步了解Game-TARS的具体能力和应用场景。
字节跳动Seed团队发布了一款名为Game-TARS的通用游戏智能体,其核心创新在于使用与人类相同的键盘和鼠标操作方式来玩游戏,而非传统智能体依赖的特定环境定制动作集。Game-TARS基于统一、可扩展的键盘-鼠标动作空间训练,能在操作系统、网页与模拟环境中进行大规模预训练。该智能体经过超5000亿token的多模态训练数据训练,结合稀疏推理与衰减持续损失技术,大幅提升了可扩展性和泛化性。在《我的世界》、FPS游戏、开放世界游戏和网页游戏等多种类型游戏中,Game-TARS的表现超越了GPT-5、Gemini-2.5-Pro和Claude-4-Sonnet等顶级AI模型。其训练过程包括持续预训练和后训练两个阶段,采用ReAct范式和稀疏推理方法,并引入双层记忆机制以增强长期记忆能力。该项目的第一作者是北京大学人工智能研究院博士生王子豪。
Game-TARS展现了强大而多样化的游戏能力,支持多种游戏类型,并具有广泛的应用场景:
人类化操作能力:Game-TARS最突出的能力是能够像人类一样使用键盘和鼠标进行游戏操作,实现了Human-Native Interaction(人类自然交互)。它能执行三种基本操作:
视觉感知与策略推理:将视觉感知、策略推理、动作执行和长期记忆整合到一个视觉语言模型中,能够理解游戏画面并做出相应决策。
稀疏思维能力:能在关键决策点进行深度推理,模拟人类认知模式,在高熵步骤增强推理。
长期记忆:采用双层记忆机制,短期记忆保存最新图像,长期记忆保留精炼的稀疏思维文本。
指令遵循能力:能够适应随机替换的按键绑定,依靠系统提示理解动作语义。
零样本迁移能力:能在未见过的3D网页游戏中实现零样本迁移,展示了强大的泛化能力。
沙盒建造类游戏:如《我的世界》,Game-TARS在此类游戏中的表现比以前最先进的专家模型提高了约2倍。
第一人称射击游戏(FPS):如Vizdoom,展示了精准的瞄准和射击能力。
3D模拟器游戏:如Miniworld,能够在3D环境中导航和完成任务。
网页游戏:能玩各种在线网页游戏,包括文中提到的《神庙逃亡》。
模拟经营类游戏:如《星露谷》,能够理解和执行复杂的游戏机制。
开放世界游戏:能在开放世界环境中完成各种任务。
游戏测试与开发:可作为自动化测试工具,帮助游戏开发者测试游戏功能和平衡性。
游戏辅助:可作为游戏助手,帮助玩家完成困难任务或提供游戏策略建议。
GUI自动化:训练过程中引入了GUI自动化任务,表明Game-TARS可用于自动化测试和操作各种图形用户界面。
代码生成:后训练阶段引入了代码生成任务,暗示其可能具有编程辅助能力。
科研任务:文中提到后训练引入了科研任务,表明Game-TARS可能在科学研究中有应用潜力。
通用计算机操作:由于其基于键盘和鼠标的操作方式,Game-TARS有潜力成为通用计算机用户代理,执行各种计算机操作任务。
Game-TARS的核心优势在于其统一动作空间的可扩展性,使其能够高效收集大规模数据,并在所有游戏中使用一致的格式进行预训练,为实现真正的通用智能体奠定了基础。
https://arxiv.org/pdf/2510.23691 - 这是Game-TARS研究论文的原始链接,包含了关于该智能体的详细技术信息。
https://zhwang4ai.github.io/ - 这是Game-TARS第一作者王子豪的个人网站,可能包含更多关于该研究的信息。
图片1
图片2
图片3
图片4
图片5
图片6
图片7
图片8
图片9
现在我已经收集了足够的信息来回答用户的问题。让我整理一个全面的答案。
是的,字节跳动确实发布了名为Game-TARS的通用游戏智能体。这款由字节跳动Seed团队开发的智能体代表了游戏AI领域的重大突破,其核心创新在于使用与人类相同的键盘和鼠标操作方式来玩游戏顶端新闻。
Game-TARS基于统一、可扩展的键盘-鼠标动作空间进行训练,能够在操作系统、网页与模拟环境中进行大规模预训练顶端新闻。这种设计使智能体的动作指令集与特定应用或操作系统解耦,实现了与人类用户物理交互方式的直接对齐,即"人类自然交互"(Human-Native Interaction)顶端新闻。
| Game-TARS核心技术特点 | 描述 |
|---|---|
| 统一、可扩展的键盘-鼠标动作空间 | 为游戏交互提供统一的操作框架 |
| 多模态训练数据 | 基于超5000亿token的多模态训练数据 |
| 稀疏推理技术 | Sparse-Thinking技术提升推理效率 |
| 衰减持续损失机制 | decaying continual loss机制优化学习过程 |
| 人类原生交互模式 | Human-Native Interaction模式提升用户体验 |
该智能体依托超过5000亿token标注量级的多模态训练数据,结合稀疏推理(Sparse-Thinking)与衰减持续损失(decaying continual loss)技术,大幅提升了其可扩展性和泛化性顶端新闻。与传统游戏机器人或模块化人工智能不同,Game-TARS将视觉感知、策略推理、动作执行和长期记忆整合到一个视觉语言模型(VLM)中,使其无需针对每款游戏编写特定代码或规则,就能自主学习操作并在各种游戏中完成任务顶端新闻。
在FPS、开放世界、WEB游戏等多种类型游戏中,Game-TARS的表现超越了GPT-5、Gemini-2.5-Pro、Claude-4-Sonnet等顶级AI模型顶端新闻。根据arXiv上发布的研究论文,Game-TARS在开放世界Minecraft任务上的成功率约为之前最先进模型的2倍,在未见过的网页3D游戏中接近新手人类的通用性arxiv.org。
| 模型名称 | Game-TARS | GPT-5 | Gemini-2.5-Pro | Claude-4-Sonnet |
|---|---|---|---|---|
| 游戏类型支持 | FPS游戏、开放世界游戏(Minecraft)、网页3D游戏 | FPS游戏、开放世界游戏(Minecraft)、网页3D游戏 | FPS游戏、开放世界游戏(Minecraft)、网页3D游戏 | FPS游戏、开放世界游戏(Minecraft)、网页3D游戏 |
Game-TARS是字节跳动AI智能体产品线中的最新成员。在此之前,字节跳动已发布了多款智能体产品,包括通用AI智能体TARS、基于视觉-语言模型的UI-TARS-1.5(2025年4月发布)以及原生GUI智能体UI-TARS-2(2025年9月发布)seed.bytedance.com。
| 字节跳动智能体产品线 | 发布时间 | 产品定位 |
|---|---|---|
| TARS | 已发布 | 字节跳动开源的通用AI智能体 |
| UI-TARS-1.5 | 2025年4月 | 基于视觉-语言模型的开源多模态智能体 |
| UI-TARS-2 | 2025年9月 | 原生GUI智能体 |
| Game-TARS | 2025年10月 | 通用游戏智能体 |
Game-TARS的核心创新在于让智能体不再"调用函数打游戏",而是像人类一样用键盘和鼠标操作顶端新闻。相比之下,传统智能体通常依赖为特定环境定制的动作集:在MCP或Code层,它们可以直接调用Search(query)完成搜索,无需打开界面或点击按钮;在GUI层则执行封装好的系统动作,如"双击"或"按下热键"顶端新闻。
Game-TARS专注于最底层的Human Actions(人类动作),包括:
在训练过程中,Game-TARS采用ReAct范式,结合稀疏推理(Sparse Thinking)——只在关键决策点交错进行推理和行动,以模拟人类认知模式顶端新闻。具体做法包括离线思维链与在线"边做边说"(Think-Aloud)、多模态同步采集、视觉锚点因果对齐以及轨迹构建与优化顶端新闻。
根据arXiv上发布的论文信息,Game-TARS的研究论文题为"Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents",由Zihao Wang等多位研究者共同撰写,提交于2025年10月27日arxiv.org。该项目的第一作者是北京大学人工智能研究院博士生王子豪。
综上所述,字节跳动确实发布了Game-TARS通用游戏智能体,这是游戏AI领域的一项重大技术突破。通过模拟人类使用键盘和鼠标的操作方式,结合先进的训练技术和大规模数据,Game-TARS展现了超越现有顶级AI模型的游戏能力,为通用人工智能在游戏领域的应用开辟了新的可能性。