字节跳动发布Game-TARS游戏智能体

2025/11/01·StepFun can make mistakes, check important info.

字节跳动发布Game-TARS游戏智能体是真的吗

Requirement clarification

我需要了解关于字节跳动发布Game-TARS游戏智能体的信息。这个问题涉及到科技公司的产品发布真实性，我应该搜索最新相关信息来确认。

字节跳动 Game-TARS 游戏智能体发布

showapi.com

字节跳动近日发布了一款名为Game-TARS的通用游戏智能体，标志着其在人工智能与游戏交互领域的重大突破。该智能体基于统一且可扩展的键盘和鼠标动作空间进行训练， ...Read more

智源社区

Game-TARS基于统一、可扩展的键盘—鼠标动作空间训练，可在操作系统、网页与模拟环境中进行大规模预训练。依托超5000亿标注量级的多模态训练数据，结合稀疏 ...Read more

showapi.com

Game-TARS的发布标志着通用智能体技术迈入新纪元。依托超过5000亿个token的大规模预训练，结合统一且可扩展的键盘与鼠标动作空间，该智能体在操作系统 ...Read more

顶端新闻

而这，都是由字节seed团队打造的通用型游戏智能体—Game-TARS完成的。Game-TARS基于统一、可扩展的键盘—鼠标动作空间训练，可在操作系统、网页与模拟环境中进行大规模预训练。依托超5000亿标注量级的多模态训练数据，结合稀疏推理（Sparse-Thinking）与衰减持续损失（decaying continual loss），大幅提升了智能体的可扩展性和泛化性。在FPS、开放世界、WEB游...

稀土掘金

TARS：字节跳动开源的AI智能体，让生活更便捷、工作更高效在当今这个数字化时代，自动化和智能化已经成为不可阻挡的趋势。无论是个人用户希望简化日常任务，还是企业寻求提高效率的方法，人工智能（AI）技术都展现出了无限的可能性。在这个背景下，字节跳动推出了一款令人振奋的多模态AI智能体—TARS。本文将带你深入了解TARS的魅力所在，探索它如何通过视...

知乎

## 一、TARS全景解读在人工智能蓬勃发展的当下，字节跳动推出的开源AI代理TARS，宛如一颗璀璨的新星，为行业带来了新的活力。TARS核心定位是一款专注于图形用户界面自动化的多模态AI代理，它

智东西

智东西9月5日消息，9月4日，字节Seed发布了原生GUI智能体UI-TARS-2，其可以自主操作电脑、手机完成搜索、创建网页、搜集新闻、创建查询工具、玩小游戏等诸多 ...Read more

澎湃新闻

henry 发自凹非寺量子位 | 公众号 QbitAI 用鼠标和键盘打游戏的智能体，这就来了！它不仅能在《我的世界》中和普通玩家一较高下。已关注关注重播分享赞关闭观看更多

根据搜索结果，字节跳动确实发布了名为Game-TARS的游戏智能体。这是一款通用型游戏智能体，由字节跳动的seed团队开发。它基于统一、可扩展的键盘-鼠标动作空间训练，可以在操作系统、网页与模拟环境中进行大规模预训练。

Game-TARS的主要特点是能够像人类一样使用鼠标和键盘操作游戏，而不是通过调用函数。它依托超过5000亿标注量级的多模态训练数据，结合稀疏推理和衰减持续损失技术，提升了智能体的可扩展性和泛化性。

您是想了解Game-TARS的技术细节，还是它与其他AI智能体的比较，或者它的实际应用场景？
您对Game-TARS的哪些具体功能或特性最感兴趣？
您是否需要了解字节跳动发布Game-TARS的时间和背景信息？

跳过

好的，这是一个为您的请求制定的行动计划。

Research plan

在字节跳动官方网站、官方技术博客或权威科技媒体（如量子位、智东西、36氪）上，交叉验证“字节跳动发布Game-TARS”这一消息的真实性。
综合分析已提供的搜索结果，从顶端新闻、智源社区等来源中提炼Game-TARS的核心技术特点，如训练数据规模、动作空间设计和模型架构。
梳理并总结Game-TARS相较于传统游戏智能体的主要创新点，特别是在模拟人类键鼠操作和通用性方面的突破。
整理Game-TARS的应用范围和性能表现，包括其支持的游戏类型（如FPS、开放世界）以及与GPT-5等其他模型的对比情况。
辨析Game-TARS与字节跳动先前发布的通用AI智能体TARS（如稀土掘金、知乎文章所述）之间的关系，明确其定位和差异。
整合所有信息，形成一份关于Game-TARS发布事件的全面摘要，内容涵盖其真实性、技术亮点、创新之处及应用能力。

开始研究

Deep Research

字节跳动 Game-TARS 游戏智能体发布

showapi.com

字节跳动近日发布了一款名为Game-TARS的通用游戏智能体，标志着其在人工智能与游戏交互领域的重大突破。该智能体基于统一且可扩展的键盘和鼠标动作空间进行训练， ...

智源社区

Game-TARS基于统一、可扩展的键盘—鼠标动作空间训练，可在操作系统、网页与模拟环境中进行大规模预训练。依托超5000亿标注量级的多模态训练数据，结合稀疏 ...

showapi.com

Game-TARS的发布标志着通用智能体技术迈入新纪元。依托超过5000亿个token的大规模预训练，结合统一且可扩展的键盘与鼠标动作空间，该智能体在操作系统 ...

顶端新闻

稀土掘金

知乎

智东西

智东西9月5日消息，9月4日，字节Seed发布了原生GUI智能体UI-TARS-2，其可以自主操作电脑、手机完成搜索、创建网页、搜集新闻、创建查询工具、玩小游戏等诸多 ...

澎湃新闻

我将根据搜索结果分析字节跳动发布Game-TARS游戏智能体的信息。

Game-TARS 字节跳动官方发布论文

arxiv.org

Abstract:We present Game-TARS, a generalist game agent trained with a unified, scalable action space anchored to human-aligned native ...

showapi.com

字节跳动近日发布了一款名为Game-TARS的通用游戏智能体，标志着其在人工智能与游戏交互领域的重大突破。该智能体基于统一且可扩展的键盘和鼠标动作空间 ...

顶端新闻

henry 发自凹非寺量子位|公众号 QbitAI 用鼠标和键盘打游戏的智能体，这就来了！它不仅能在《我的世界》中和普通玩家一较高下。还能玩《神庙逃亡》、《星露谷》，甚至可以在未见过的3D网页游戏中实现零样本迁移。而这，都是由字节seed团队打造的通用型游戏智能体—Game-TARS完成的。Game-TARS基于统一、可扩展的键盘—鼠标动作空间训练，可在操作系统、网页与模拟环境中进行大规模预训练。依托超5000亿标注量级的...目前...

今日头条

2025年3月25日，字节跳动正式开源其多模态AI代理框架Agent TARS，这款融合视觉解析、跨系统集成与智能工作流编排的工具，标志着AI Agent领域迈入全新阶段。相较于此前爆红的Manus，TARS凭借MCP协议支持、95%的浏览器任务成功率以及开源生态优势，展现出更强大的技术延展性与行业渗透力。本文将结合48小时深度实测，解析其技术内核与应用价值。官网：https://agent-tars.com/ github：https...

中文开源技术交流社区

字节豆包大模型团队宣布开源UI-TARS-1.5。据介绍，这是一款基于视觉-语言模型构建的开源多模态智能体，能够在虚拟世界中高效执行各类任务。

我需要进一步了解Game-TARS的官方发布情况，特别是查看一下arxiv上的论文内容。

网页解析

https://arxiv.org/abs/2510.23691

1. 网页内容摘要

这篇网页展示了一篇名为"Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents"的学术论文信息。该论文由Zihao Wang等多位研究者共同撰写，提交于2025年10月27日。论文介绍了Game-TARS，一种通用游戏智能体，它采用统一的、可扩展的行动空间，基于人类键盘鼠标输入进行训练。与基于API或GUI的方法不同，这种范式能够在操作系统、网页和模拟游戏等异构领域进行大规模持续预训练。Game-TARS在超过500B的多模态数据和多样化轨迹上进行了预训练。其关键技术包括衰减连续损失函数(用于减少因果混淆)和高效的Sparse-Thinking策略(平衡推理深度和推理成本)。实验表明，Game-TARS在开放世界Minecraft任务上的成功率约为之前最先进模型的2倍，在未见过的网页3D游戏中接近新手人类的通用性，并在FPS基准测试中优于GPT-5、Gemini-2.5-Pro和Claude-4-Sonnet。论文的研究结果表明，简单、可扩展的行动表示结合大规模预训练为具有广泛计算机使用能力的通用智能体提供了一条有前途的路径。

2. 与探究问题相关的信息提取

关于Game-TARS论文的详细内容，从网页中可提取以下信息：

作者信息：
论文由多位研究者共同完成，第一作者是Zihao Wang，其他作者包括Xujing Li、Yining Ye、Junjie Fang、Haoming Wang、Longxiang Liu、Shihao Liang、Junting Lu、Zhiyong Wu、Jiazhan Feng、Wanjun Zhong、Zili Li、Yu Wang、Yu Miao、Bo Zhou、Yuanfan Li、Hao Wang、Zhongkai Zhao、Faming Wu、Zhengxuan Jiang、Weihao Tan、Heyuan Yao、Shi Yan、Xiangyang Li、Yitao Liang、Yujia Qin和Guang Shi。

发布日期：
论文提交于2025年10月27日（值得注意的是，这个日期似乎是未来的日期，可能是网页内容的错误）。

摘要：
Game-TARS是一种通用游戏智能体，采用统一的、可扩展的行动空间，该空间锚定于人类对齐的原生键盘鼠标输入。与基于API或GUI的方法不同，这种范式能够在操作系统、网页和模拟游戏等异构领域进行大规模持续预训练。Game-TARS在超过500B的多模态数据和多样化轨迹上进行了预训练。

主要技术创新：

统一的可扩展行动空间：基于人类键盘鼠标输入，使模型能够跨异构领域进行训练
大规模预训练：在超过500B的多模态数据和多样化轨迹上进行训练
衰减连续损失函数(decaying continual loss)：用于减少因果混淆
Sparse-Thinking策略：平衡推理深度和推理成本的高效策略
跨领域泛化能力：能够在操作系统、网页和模拟游戏等不同领域应用

实验结果：

在开放世界Minecraft任务上的成功率约为之前最先进模型的2倍
在未见过的网页3D游戏中接近新手人类的通用性
在FPS基准测试中优于GPT-5、Gemini-2.5-Pro和Claude-4-Sonnet
训练时间和测试时间的扩展结果证实，统一的行动空间在扩展到跨游戏和多模态数据时能够持续改进

论文DOI：10.48550/arXiv.2510.23691

3. 与问题相关的网页链接

Zihao Wang - 第一作者链接
Xujing Li - 作者链接
Yining Ye - 作者链接
Junjie Fang - 作者链接
Haoming Wang - 作者链接
arXiv:2510.23691 - 论文arXiv链接
arXiv:2510.23691v1 - 论文特定版本链接
https://doi.org/10.48550/arXiv.2510.23691 - 论文DOI链接

4. 与问题相关的图片

网页内容中没有包含图片信息。

我需要进一步了解字节跳动与Game-TARS的关系，以及是否有官方确认这一发布。

字节跳动 seed团队 Game-TARS 官方发布

m.aitntnews.com

而这，都是由字节seed团队打造的通用型游戏智能体——Game-TARS完成的。 Game-TARS基于统一、可扩展的键盘—鼠标动作空间训练，可在操作系统、网页与模拟环境中 ...

智源社区

字节seed团队推出通用游戏智能体Game-TARS，基于统一的键盘鼠标动作空间训练，可在操作系统、网页和模拟器中广泛适用。该智能体不仅能在《我的 ...

seed.bytedance.com

目前，UI-TARS-1.5 已在7 个典型的GUI 图形用户界面评测基准中取得SOTA 表现，并首次展现了其在游戏中的长时推理能力和在开放空间中的交互能力。 GitHub： ...

东方财富网

4月17日，字节跳动豆包大模型团队（Seed）发布并开源UI-TARS-1.5。据介绍，这是一款基于视觉-语言模型构建的开源多模态智能体，能够在虚拟世界中高效执行各类任务。目前，UI-TARS-1.5

知乎

一键完成新闻搜索与网页部署，还能帮老师备课。编译| 程茜编辑| 云鹏智东西9月8日消息，9月4日，字节Seed发布了原生GUI智能体UI-TARS-2，其可以自主操作 ...

腾讯

智东西9月8日消息，9月4日，字节Seed发布了原生GUI智能体UI-TARS-2，其可以自主操作电脑、手机完成搜索、创建网页、搜集新闻、创建查询工具、玩小游戏等诸多 ...

qbitai.com

这就是Seed最新发布的智能体UI-TARS-2，它不止采用了All in one这样的原生设计，而且表现更是优于Claude和OpenAI Agent等竞争对手。来看团队成员晒出 ...

已掌握的信息

事件真实性确认：字节跳动发布名为Game-TARS的通用游戏智能体是真实的。该消息已由量子位、智源社区、顶端新闻等多家科技媒体报道，并且核心技术细节已在一篇发布于arXiv的学术论文中详细阐述。
研发团队：Game-TARS由字节跳动的“Seed”团队研发。该团队也负责开发了其他AI智能体，如UI-TARS系列，专注于图形用户界面（GUI）的自动化操作。
核心技术创新：Game-TARS的关键突破在于其统一且可扩展的“键盘-鼠标”动作空间，它模拟真实人类玩家的操作方式，而非依赖特定游戏的API或封装好的高级指令。这种“人类原生交互”（Human-Native Interaction）模式使其具备极高的通用性和泛化能力。
训练规模与方法：该智能体在超过5000亿token的多模态数据上进行了预训练。论文中提到了“稀疏推理”（Sparse-Thinking）和“衰减持续损失”（decaying continual loss）等关键技术，以提升训练效率和模型性能。
性能表现：报道和论文摘要均声称，Game-TARS在多种游戏类型（如FPS、开放世界游戏《我的世界》）中的表现超越了GPT-5、Gemini-2.5-Pro等顶尖模型，并能在未见过的3D网页游戏中实现零样本迁移。

下一步行动计划

构建报告主体框架：整合现有信息，围绕“事件概述”、“核心技术解析”、“性能对比与评估”以及“与TARS家族关系”四个核心部分，搭建一份全面的研究报告。
深入解析技术细节：基于arXiv论文摘要和相关技术解读文章，详细阐述Game-TARS的技术原理。重点解释其“键盘-鼠标”动作空间与传统游戏AI方法的区别与优势，并说明“稀疏推理”等技术在模型训练中扮演的角色。
量化与可视化性能表现：整理并展示Game-TARS在各项基准测试（如FPS游戏、《我的世界》）中的具体性能数据，并与GPT-5等其他模型的公开数据进行对比。可考虑使用图表形式（如柱状图）直观呈现性能差距。
梳理产品演进脉络：明确Game-TARS与字节Seed团队先前发布的UI-TARS、UI-TARS-2等通用GUI智能体的关系。分析Game-TARS是作为该系列在游戏领域的垂直深化，还是一个独立的技术分支，并探讨其在字节跳动AI战略布局中的定位。
总结与展望：综合所有信息，对Game-TARS的发布进行最终总结，评估其在通用人工智能和游戏产业领域的潜在影响和未来发展方向。

可视化工具

我需要进一步了解Game-TARS的具体能力和应用场景。

网页解析

https://www.thepaper.cn/newsDetail_forward_31858451

摘要

字节跳动Seed团队发布了一款名为Game-TARS的通用游戏智能体，其核心创新在于使用与人类相同的键盘和鼠标操作方式来玩游戏，而非传统智能体依赖的特定环境定制动作集。Game-TARS基于统一、可扩展的键盘-鼠标动作空间训练，能在操作系统、网页与模拟环境中进行大规模预训练。该智能体经过超5000亿token的多模态训练数据训练，结合稀疏推理与衰减持续损失技术，大幅提升了可扩展性和泛化性。在《我的世界》、FPS游戏、开放世界游戏和网页游戏等多种类型游戏中，Game-TARS的表现超越了GPT-5、Gemini-2.5-Pro和Claude-4-Sonnet等顶级AI模型。其训练过程包括持续预训练和后训练两个阶段，采用ReAct范式和稀疏推理方法，并引入双层记忆机制以增强长期记忆能力。该项目的第一作者是北京大学人工智能研究院博士生王子豪。

Game-TARS的具体游戏能力、支持的游戏类型和应用场景

Game-TARS展现了强大而多样化的游戏能力，支持多种游戏类型，并具有广泛的应用场景：

游戏能力：

人类化操作能力：Game-TARS最突出的能力是能够像人类一样使用键盘和鼠标进行游戏操作，实现了Human-Native Interaction（人类自然交互）。它能执行三种基本操作：
- mouseMove(dx, dy)：鼠标相对移动
- mouseClick(buttons)：鼠标点击（左键、右键或中键）
- keyPress(xkeys)：键盘按键（单个按键和按键组合）
视觉感知与策略推理：将视觉感知、策略推理、动作执行和长期记忆整合到一个视觉语言模型中，能够理解游戏画面并做出相应决策。
稀疏思维能力：能在关键决策点进行深度推理，模拟人类认知模式，在高熵步骤增强推理。
长期记忆：采用双层记忆机制，短期记忆保存最新图像，长期记忆保留精炼的稀疏思维文本。
指令遵循能力：能够适应随机替换的按键绑定，依靠系统提示理解动作语义。
零样本迁移能力：能在未见过的3D网页游戏中实现零样本迁移，展示了强大的泛化能力。

支持的游戏类型：

沙盒建造类游戏：如《我的世界》，Game-TARS在此类游戏中的表现比以前最先进的专家模型提高了约2倍。
第一人称射击游戏(FPS)：如Vizdoom，展示了精准的瞄准和射击能力。
3D模拟器游戏：如Miniworld，能够在3D环境中导航和完成任务。
网页游戏：能玩各种在线网页游戏，包括文中提到的《神庙逃亡》。
模拟经营类游戏：如《星露谷》，能够理解和执行复杂的游戏机制。
开放世界游戏：能在开放世界环境中完成各种任务。

应用场景：

游戏测试与开发：可作为自动化测试工具，帮助游戏开发者测试游戏功能和平衡性。
游戏辅助：可作为游戏助手，帮助玩家完成困难任务或提供游戏策略建议。
GUI自动化：训练过程中引入了GUI自动化任务，表明Game-TARS可用于自动化测试和操作各种图形用户界面。
代码生成：后训练阶段引入了代码生成任务，暗示其可能具有编程辅助能力。
科研任务：文中提到后训练引入了科研任务，表明Game-TARS可能在科学研究中有应用潜力。
通用计算机操作：由于其基于键盘和鼠标的操作方式，Game-TARS有潜力成为通用计算机用户代理，执行各种计算机操作任务。

Game-TARS的核心优势在于其统一动作空间的可扩展性，使其能够高效收集大规模数据，并在所有游戏中使用一致的格式进行预训练，为实现真正的通用智能体奠定了基础。

与问题相关性最高的前10条网页链接

https://arxiv.org/pdf/2510.23691 - 这是Game-TARS研究论文的原始链接，包含了关于该智能体的详细技术信息。
https://zhwang4ai.github.io/ - 这是Game-TARS第一作者王子豪的个人网站，可能包含更多关于该研究的信息。

与问题相关的图片及链接

图片1
- Title: Game-TARS性能对比图
- Content: 展示Game-TARS在不同游戏任务中与GPT-5、Gemini-2.5-Pro、Claude-4-Sonnet等模型的性能对比
- Source: 字节跳动Seed团队研究
- Link: https://imgpai.thepaper.cn/pphimage/20251031/5d3f911a-e156-4968-8efb-b3a8cca1f33c.jpg
图片2
- Title: Game-TARS的人类自然交互示意图
- Content: 展示Game-TARS如何像人类一样使用键盘和鼠标操作
- Source: 字节跳动Seed团队研究
- Link: https://imgpai.thepaper.cn/pphimage/20251031/aec94883-8320-4026-8205-f8e255c3b835.jpg
图片3
- Title: 不同交互层级对比图
- Content: 展示不同层级的交互方式对比，包括MCP/Code层、GUI层和Human Actions层
- Source: 字节跳动Seed团队研究
- Link: https://imgpai.thepaper.cn/pphimage/20251031/d2404055-55dd-40ac-a266-b44e772c179e.jpg
图片4
- Title: Game-TARS训练架构图
- Content: 展示Game-TARS的训练架构，包括持续预训练和后训练两个阶段
- Source: 字节跳动Seed团队研究
- Link: https://imgpai.thepaper.cn/pphimage/20251031/3a2e0dfb-0e6a-4797-bf83-99a57fb39311.jpg
图片5
- Title: Game-TARS跨领域能力图
- Content: 展示Game-TARS从游戏玩家成长为多功能通用计算机用户的能力扩展
- Source: 字节跳动Seed团队研究
- Link: https://imgpai.thepaper.cn/pphimage/20251031/0d9e608c-9387-4f6a-b40d-fd02fb417ed0.jpg
图片6
- Title: 《我的世界》测试结果
- Content: 展示Game-TARS在《我的世界》中的测试结果，验证统一动作空间和大规模持续预训练的有效性
- Source: 字节跳动Seed团队研究
- Link: https://imgpai.thepaper.cn/pphimage/20251031/4caee23c-ae57-4643-b8cc-cbebdce56d4d.jpg
图片7
- Title: Game-TARS与其他模型性能对比
- Content: 详细展示Game-TARS在各种任务上与Gemini-2.5-Pro、GPT-5和Claude-4-Sonnet的性能对比
- Source: 字节跳动Seed团队研究
- Link: https://imgpai.thepaper.cn/pphimage/20251031/0b840901-76f9-4b88-9c77-57c9bcf44585.jpg
图片8
- Title: Game-TARS可扩展性图表
- Content: 展示Game-TARS在训练和推理过程中的可扩展性
- Source: 字节跳动Seed团队研究
- Link: https://imgpai.thepaper.cn/pphimage/20251031/8a4a270f-41b1-40ee-8ace-6bc245bb32a3.jpg
图片9
- Title: 王子豪照片
- Content: Game-TARS第一作者、北京大学人工智能研究院博士生王子豪的照片
- Source: 未知
- Link: https://imgpai.thepaper.cn/pphimage/20251031/37388922-a58d-4846-ac3c-eaec70645b8a.jpg

现在我已经收集了足够的信息来回答用户的问题。让我整理一个全面的答案。

字节跳动发布Game-TARS游戏智能体：技术突破与行业影响

是的，字节跳动确实发布了名为Game-TARS的通用游戏智能体。这款由字节跳动Seed团队开发的智能体代表了游戏AI领域的重大突破，其核心创新在于使用与人类相同的键盘和鼠标操作方式来玩游戏顶端新闻。

Game-TARS的核心技术特点

Game-TARS基于统一、可扩展的键盘-鼠标动作空间进行训练，能够在操作系统、网页与模拟环境中进行大规模预训练顶端新闻。这种设计使智能体的动作指令集与特定应用或操作系统解耦，实现了与人类用户物理交互方式的直接对齐，即"人类自然交互"(Human-Native Interaction)顶端新闻。

Game-TARS核心技术特点	描述
统一、可扩展的键盘-鼠标动作空间	为游戏交互提供统一的操作框架
多模态训练数据	基于超5000亿token的多模态训练数据
稀疏推理技术	Sparse-Thinking技术提升推理效率
衰减持续损失机制	decaying continual loss机制优化学习过程
人类原生交互模式	Human-Native Interaction模式提升用户体验

该智能体依托超过5000亿token标注量级的多模态训练数据，结合稀疏推理(Sparse-Thinking)与衰减持续损失(decaying continual loss)技术，大幅提升了其可扩展性和泛化性顶端新闻。与传统游戏机器人或模块化人工智能不同，Game-TARS将视觉感知、策略推理、动作执行和长期记忆整合到一个视觉语言模型(VLM)中，使其无需针对每款游戏编写特定代码或规则，就能自主学习操作并在各种游戏中完成任务顶端新闻。

与其他顶级AI模型的性能对比

在FPS、开放世界、WEB游戏等多种类型游戏中，Game-TARS的表现超越了GPT-5、Gemini-2.5-Pro、Claude-4-Sonnet等顶级AI模型顶端新闻。根据arXiv上发布的研究论文，Game-TARS在开放世界Minecraft任务上的成功率约为之前最先进模型的2倍，在未见过的网页3D游戏中接近新手人类的通用性arxiv.org。

模型名称	Game-TARS	GPT-5	Gemini-2.5-Pro	Claude-4-Sonnet
游戏类型支持	FPS游戏、开放世界游戏(Minecraft)、网页3D游戏	FPS游戏、开放世界游戏(Minecraft)、网页3D游戏	FPS游戏、开放世界游戏(Minecraft)、网页3D游戏	FPS游戏、开放世界游戏(Minecraft)、网页3D游戏

与字节跳动其他智能体产品的关系

Game-TARS是字节跳动AI智能体产品线中的最新成员。在此之前，字节跳动已发布了多款智能体产品，包括通用AI智能体TARS、基于视觉-语言模型的UI-TARS-1.5(2025年4月发布)以及原生GUI智能体UI-TARS-2(2025年9月发布)seed.bytedance.com。

字节跳动智能体产品线	发布时间	产品定位
TARS	已发布	字节跳动开源的通用AI智能体
UI-TARS-1.5	2025年4月	基于视觉-语言模型的开源多模态智能体
UI-TARS-2	2025年9月	原生GUI智能体
Game-TARS	2025年10月	通用游戏智能体

技术原理与创新点

Game-TARS的核心创新在于让智能体不再"调用函数打游戏"，而是像人类一样用键盘和鼠标操作顶端新闻。相比之下，传统智能体通常依赖为特定环境定制的动作集：在MCP或Code层，它们可以直接调用Search(query)完成搜索，无需打开界面或点击按钮；在GUI层则执行封装好的系统动作，如"双击"或"按下热键"顶端新闻。

Game-TARS专注于最底层的Human Actions(人类动作)，包括：

mouseMove(dx, dy)：鼠标相对移动，包括x轴和y轴
mouseClick(buttons)：鼠标点击，如左键、右键或中键
keyPress(xkeys)：键盘按键，包括单个按键和按键组合顶端新闻

在训练过程中，Game-TARS采用ReAct范式，结合稀疏推理(Sparse Thinking)——只在关键决策点交错进行推理和行动，以模拟人类认知模式顶端新闻。具体做法包括离线思维链与在线"边做边说"(Think-Aloud)、多模态同步采集、视觉锚点因果对齐以及轨迹构建与优化顶端新闻。

学术背景与研究团队

根据arXiv上发布的论文信息，Game-TARS的研究论文题为"Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents"，由Zihao Wang等多位研究者共同撰写，提交于2025年10月27日arxiv.org。该项目的第一作者是北京大学人工智能研究院博士生王子豪。

结论

综上所述，字节跳动确实发布了Game-TARS通用游戏智能体，这是游戏AI领域的一项重大技术突破。通过模拟人类使用键盘和鼠标的操作方式，结合先进的训练技术和大规模数据，Game-TARS展现了超越现有顶级AI模型的游戏能力，为通用人工智能在游戏领域的应用开辟了新的可能性。

Source(20)

showapi.com

智源社区

showapi.com

顶端新闻

稀土掘金

知乎

智东西

澎湃新闻

arxiv.org

Abstract:We present Game-TARS, a generalist game agent trained with a unified, scalable action space anchored to human-aligned native ...

showapi.com

顶端新闻

今日头条

中文开源技术交流社区

字节豆包大模型团队宣布开源UI-TARS-1.5。据介绍，这是一款基于视觉-语言模型构建的开源多模态智能体，能够在虚拟世界中高效执行各类任务。

m.aitntnews.com

智源社区

字节seed团队推出通用游戏智能体Game-TARS，基于统一的键盘鼠标动作空间训练，可在操作系统、网页和模拟器中广泛适用。该智能体不仅能在《我的 ...

seed.bytedance.com

东方财富网

知乎

腾讯

qbitai.com

这就是Seed最新发布的智能体UI-TARS-2，它不止采用了All in one这样的原生设计，而且表现更是优于Claude和OpenAI Agent等竞争对手。来看团队成员晒出 ...