为了更好地帮您研究"用于提升OSWorld、WebVoyager这两个benchmark上表现的开源训练数据",我需要了解几个关键信息:
您是否需要特定类型的开源训练数据(如网页导航数据、桌面操作数据、多模态交互数据等)?
您是否对某些特定模型(如GPT系列、Claude系列或其他开源模型)用于这些benchmark的训练数据特别感兴趣?
您是否希望了解这些benchmark的最新评测结果和相关训练方法?
好的,收到您的研究任务。
为了高效、系统地完成关于“用于提升OSWorld、WebVoyager这两个benchmark表现的开源训练数据”的调研,我为您制定了以下分步骤的研究计划。该计划旨在全面梳理相关信息,并最终形成一份逻辑清晰、内容详实的研究报告。
此阶段旨在深入理解OSWorld和WebVoyager这两个基准测试的核心,明确它们对训练数据的具体要求,为后续的数据搜集提供清晰指引。
此阶段将广泛搜集与桌面操作和网页导航任务相关的开源训练数据集。
此阶段将对初步筛选出的数据集进行详细的审查和评估,以判断其适用性和质量。
此阶段旨在通过分析当前最先进(SOTA)模型的训练方法,反向推导并验证高效的训练数据。
此阶段将所有搜集和分析的信息进行系统性地整合,形成最终的研究报告。
首先,让我们开始搜索相关信息。
Search
OSWorld WebVoyager benchmark AI agent training data我将搜索更多关于OSWorld和WebVoyager这两个benchmark以及用于提升它们表现的开源训练数据的信息。
Search
OSWorld WebVoyager benchmark description dataset我需要更多关于OSWorld和WebVoyager这两个benchmark的详细信息,以及用于提升它们表现的开源训练数据。让我继续搜索更具体的信息。
Search
WebVoyager benchmark description dataset training data我需要继续搜索更多关于OSWorld和WebVoyager这两个benchmark的详细信息,特别是关于用于提升它们表现的开源训练数据。
Search
OSWorld WebVoyager benchmark training data open source dataset已掌握的信息
OpenWebVoyager
和TTI
模型,它们被描述为“开源、开放数据”,是潜在的训练数据来源。Mind2Web
、BearCubs
和GUI-World
,它们可能作为补充训练数据。下一步行动计划
当前研究已成功完成初步信息搜集,下一步将进入深度分析和信息整合阶段。此前的行动计划框架依然有效,后续将聚焦于对已发现线索的深入挖掘。
TTI
模型)和项目(如OpenWebVoyager
)。目标是找到它们在训练过程中实际使用的、根据原始基准任务扩展或处理后形成的开源训练数据集,并分析其数据增强或构建方法。Mind2Web
、AITW
等其他相关领域的公开数据集。分析它们与OSWorld及WebVoyager在任务类型、交互方式和数据形态上的异同,评估它们作为预训练或辅助微调数据的潜力和价值。Search
OSWorld dataset github training data download我需要更具体地搜索OSWorld和WebVoyager的GitHub仓库,以找到它们的训练数据。
Search
github.com OSWorld WebVoyager benchmark repository我需要直接访问OSWorld和WebVoyager的GitHub仓库,以找到它们的训练数据。
Search
github.com/os-world OSWorld benchmark我现在需要直接访问OSWorld和WebVoyager的GitHub仓库,以找到它们的代码和训练数据。
Search
github.com/xlang-ai/OSWorld github.com/WebVoyager已掌握的信息
github.com/xlang-ai/OSWorld
),这是获取其原始任务数据的最直接渠道。Agent-S
(github.com/simular-ai/Agent-S
)、字节跳动的UI-TARS
以及LangChain社区对WebVoyager的实现。这些项目是寻找经过处理、可直接用于训练的数据集的关键线索。Mind2Web
, WebArena
, GUI-World
等,这些可以作为扩展训练数据来源。下一步行动计划
xlang-ai/OSWorld
的GitHub仓库进行彻底探查,重点分析其data
或tasks
目录下的文件结构和内容。目标是理解其369个基准任务的数据格式(如任务描述、初始状态配置、评估脚本),并评估这些原始轨迹数据直接用于模型训练的可行性与具体方法。Agent-S
, UI-TARS
等)的GitHub仓库。重点是分析它们的训练代码和文档,以确定它们究竟使用了何种数据进行训练——是直接使用了OSWorld/WebVoyager的原始轨迹,还是构建了新的、经过处理和增强的训练集。这将揭示将基准数据转化为有效训练数据的最佳实践。OpenWebVoyager
等衍生项目,看其是否公开发布了更易于使用的、基于WebVoyager任务的训练数据集。xlang-ai/OSWorld
, simular-ai/Agent-S
, bytedance/UI-TARS
os-world.github.io
, arXiv.orgSearch
github.com/xlang-ai/OSWorld data training dataset我需要进一步了解OSWorld和WebVoyager的数据集和训练数据。
Search
huggingface.co/datasets/xlangai/windows_osworld dataset training data我需要查看OSWorld的GitHub仓库以获取更多信息。
Search
github.com/xlang-ai/OSWorld training data format我需要更详细地了解OSWorld的数据格式和训练数据。让我直接访问其GitHub仓库。
已掌握的信息
xlangai/windows_osworld
)和其GitHub项目(xlang-ai/OSWorld
)。Hugging Face页面明确指出,其内容包含任务示例(task examples)、评估文档和虚拟机快照,这直接构成了可用的数据基础。Agent-S
和UI-TARS
。这些项目的代码库是理解如何将原始基准任务转化为有效训练数据的关键参考。下一步行动计划
xlang-ai/OSWorld
的GitHub仓库文件和目录结构,xlangai/windows_osworld
在Hugging Face上的文件预览和说明文档。Agent-S
等先进开源模型是如何利用OSWorld和WebVoyager数据的。重点是分析它们的源代码,特别是数据加载(dataloader)和预处理部分,以揭示它们是如何解析、增强原始基准数据,并将其构造成模型可以学习的训练样本的。这将为我们提供将数据转化为有效训练资源的第一手实践经验。
Agent-S
(simular-ai/Agent-S
) 等模型的GitHub代码库。Search
OSWorld GitHub repository structure data format training我需要直接访问OSWorld的GitHub仓库来获取更多关于其数据结构和格式的信息。
Search
xlang-ai/OSWorld GitHub repository structure README.md我需要直接访问OSWorld的GitHub仓库README文件来了解其数据结构和格式。
Search
github.com/xlang-ai/OSWorld README.md data format我需要直接访问OSWorld的GitHub仓库来了解其数据结构和格式。让我尝试访问其URL。
由于您没有提供网页内容,我无法分析OSWorld仓库的结构。如果您能提供相关网页内容,我将很乐意帮您分析OSWorld仓库的结构、数据格式和训练数据相关的部分。
摘要:无法提供,因为没有网页内容。
相关信息提取:无与问题有关的内容。
相关网页链接:无法识别,因为没有提供网页内容。
相关图片提取:无法提取,因为没有提供网页内容。
如果您能提供OSWorld仓库相关的网页内容,我将能够更好地帮助您分析其结构、数据格式和训练数据相关的部分。
已掌握的信息
xlangai/windows_osworld
)和其GitHub项目(xlang-ai/OSWorld
)。这些资源包含了基准测试所需的任务示例、评估文档和虚拟机快照。Agent-S
、UI-TARS
和Aria-UI
。这些项目的代码库是理解如何将原始基准任务转化为有效训练数据的关键参考。下一步行动计划
xlang-ai/OSWorld
的GitHub仓库文件和目录结构,xlangai/windows_osworld
在Hugging Face上的文件预览和说明文档。Agent-S
等先进开源模型是如何利用OSWorld和WebVoyager数据的。重点是分析它们的源代码,特别是数据加载(dataloader)和预处理部分,以揭示它们是如何解析、增强原始基准数据,并将其构造成模型可以学习的训练样本的。这将为我们提供将数据转化为有效训练资源的第一手实践经验。
Agent-S
(simular-ai/Agent-S
) 等模型的GitHub代码库。Search
WebVoyager benchmark dataset format github.com我需要继续搜索WebVoyager的数据格式和训练数据相关信息。
Search
WebVoyager github dataset format training data我需要直接查看WebVoyager的GitHub仓库来了解其数据格式和训练数据。
Search
github.com MinorJerry/WebVoyager dataset format我现在需要直接访问WebVoyager的GitHub仓库。
已掌握的信息
xlangai/windows_osworld
)和其GitHub项目(xlang-ai/OSWorld
)。这些资源包含了基准测试所需的任务示例、评估文档和虚拟机快照。对于WebVoyager,其原始GitHub仓库(MinorJerry/WebVoyager
)是核心信息源。Agent-S
、UI-TARS
和Aria-UI
。这些项目的代码库是理解如何将原始基准任务转化为有效训练数据的关键参考。下一步行动计划
xlang-ai/OSWorld
的GitHub仓库中的文档和代码,以及xlangai/windows_osworld
在Hugging Face上的文件说明。MinorJerry/WebVoyager
的GitHub仓库,WebVoyager原始论文,以及LangChain等主流AI框架的官方文档。Agent-S
等先进开源模型是如何利用OSWorld和WebVoyager数据的。重点是分析它们的源代码,特别是数据加载和预处理部分,以揭示它们是如何解析、增强原始基准数据,并将其构造成模型可以学习的训练样本的。
Agent-S
(simular-ai/Agent-S
)、UI-TARS
(bytedance/UI-TARS
)等模型的GitHub代码库。Search
OSWorld github.com/xlang-ai/OSWorld data format training我需要进一步了解OSWorld和WebVoyager的数据格式和训练数据。
Search
OSWorld data format json configuration evaluation script我需要进一步了解OSWorld的数据格式和训练数据。
Search
OSWorld task configuration json format example github我需要进一步了解OSWorld的数据格式和训练数据。
Search
OSWorld github task configuration json format example已掌握的信息
xlang-ai/OSWorld
)和Hugging Face数据集(xlangai/windows_osworld
)上。WebVoyager的数据则主要通过其原始论文和官方GitHub仓库(MinorJerry/WebVoyager
)来定义和获取。Agent-S
、UI-TARS
和Aria-UI
。这些项目的开源代码库是理解如何将原始基准任务数据转化为有效训练数据的宝贵参考。下一步行动计划
xlang-ai/OSWorld
GitHub仓库中的*.json
配置文件和相关文档;WindowsAgentArena
等衍生项目的论文中可能包含的格式说明。MinorJerry/WebVoyager
)和其原始论文。重点是寻找定义任务(tasks)或示例(examples)的相关文件(可能是JSON、YAML或Python脚本),以揭示其任务指令、目标网址和评估条件的具体组织形式。
MinorJerry/WebVoyager
GitHub仓库;WebVoyager的原始ArXiv论文。Agent-S
等先进开源模型是如何消费OSWorld和WebVoyager数据的。重点是分析其源代码中的数据加载(Data Loader)和预处理模块,以理解它们如何解析原始数据、进行数据增强,并最终构建成模型可以学习的训练样本(如指令-截图-动作序列)。
simular-ai/Agent-S
、bytedance/UI-TARS
等项目的GitHub代码库。OSWorld和WebVoyager是两个评估AI智能体在真实环境中执行任务能力的重要基准测试。OSWorld专注于跨操作系统(Windows、macOS、Ubuntu)的桌面环境操作任务CSDN技术社区,包含369个源自实际用例的任务m.bilibili.com。WebVoyager则侧重于真实网站的浏览和交互能力测试arxiv.org。这两个基准测试对评估多模态AI智能体的实用性至关重要,但当前最先进的模型在这些基准上的表现仍有很大提升空间,例如在OSWorld上,最佳模型的成功率仅为12.24%,远低于人类的72.36%m.bilibili.com。
OSWorld官方提供的数据主要托管在两个位置:
GitHub仓库(xlang-ai/OSWorld):包含任务示例、环境配置和评估脚本GitHub Pages。这些数据以JSON配置文件形式组织,每个任务定义包含任务ID、指令、初始状态设置、后处理步骤和评估函数GitHub Pages。
Hugging Face数据集:
这些官方数据虽然主要用于评估,但也可以作为训练数据的基础,通过分析任务配置文件和执行轨迹,可以提取出有价值的训练样本。
OSWorld-G:这是一个基于OSWorld的增强数据集,专注于改进GUI交互能力。它包含564个精细标注的样本,系统性地覆盖了文本匹配、元素识别和布局理解等方面arxiv.org。这个数据集特别关注UI分解和交互理解,为模型提供了更细粒度的训练信号。
WindowsAgentArena:由微软开发的基于OSWorld框架的扩展数据集,专注于Windows环境,包含150多个多样化的Windows任务arxiv.org。该数据集的JSON配置文件格式与OSWorld兼容,但增加了更多针对Windows特定应用的任务。
WebVoyager的官方数据主要来自其GitHub仓库(MinorJerry/WebVoyager)huggingface.co,包含643个涵盖15个常见网站的任务researchgate.net。这些任务数据以结构化格式存储,包含任务指令、目标网站和评估标准等信息。
WebVoyager2025Valid:这是一个经过修改的WebVoyager子集,专为验证目的而设计huggingface.co。该数据集保留了原始WebVoyager的核心特性,但进行了一定的优化,使其更适合模型训练和验证。
OpenWebVoyager:这是一个通过迭代改进构建的多模态Web智能体数据集arxiv.org,基于原始WebVoyager数据,但增加了更多的注释和训练信号,有助于提升模型在Web交互任务上的表现。
除了直接针对OSWorld和WebVoyager的数据集外,还有一些通用的辅助训练数据集可以帮助提升模型在这两个基准上的表现:
Mind2Web:这是一个用于开发和评估Web通用智能体的数据集GitHub Pages,包含丰富的网页导航和交互示例,可以帮助模型学习基本的Web交互模式。
Aguvis:一个统一的纯视觉框架数据集,用于自主GUI交互openreview.net。该数据集的特点是直接基于屏幕图像操作,无需依赖后台数据,简化了部署流程。
Proxy Lite:这是一个轻量级(3B参数)的开源视觉语言模型数据集,专为网络自动化任务设计微博。该数据集在WebVoyager评估中表现出色,且资源占用较低,适合资源受限的场景。
Agent-S:一个开源的智能体框架数据集,通过Agent-Computer接口实现与计算机的自动交互微博。在OSWorld评估中表现优异,比基线提高了约80%的成功率。
OSWorld的任务数据主要以JSON配置文件形式组织cnblogs.com,典型的配置文件包含以下关键部分:
这些配置文件可以直接用于训练数据生成,通过执行任务并记录成功轨迹,创建"指令-截图-动作"三元组训练样本。
WebVoyager的数据格式更侧重于Web交互,通常包含:
这些数据可以用于构建针对Web导航和交互的训练样本,特别适合训练专注于网页操作的智能体。
不同模型在OSWorld和WebVoyager上的表现与其使用的训练数据密切相关:
Claude 3.5 Sonnet:在OSWorld评估中获得14.9%的成功率太平洋电脑网,使用了专有的computer use训练数据。
GPT-4 Vision:在OSWorld上的成功率不超过20%稀土掘金,主要使用专有数据训练。
Agent-S:通过使用开源训练数据,在OSWorld上的表现比基线提高了约80%微博。
Aria-UI:在OSWorld上的任务成功率达到15.2%(排名第三)微博,使用了纯视觉方法和开源训练数据。
OpenAI的CUA:在WebVoyager基准测试中取得了87%的成功率m.oschina.net,但使用的是专有训练数据。
Nova Act:亚马逊的AI智能体,在多项基准测试中表现优异,但未公布其在WebVoyager上的具体成绩东方财富网。
基于上述分析,以下开源训练数据集对提升OSWorld和WebVoyager基准测试表现最有价值:
对于研究者和开发者,建议采用多数据集混合训练策略,结合OSWorld和WebVoyager的原始任务数据与这些专门设计的训练数据集,可以更有效地提升模型在这两个基准测试上的表现。
随着多模态智能体技术的快速发展,我们预计将会出现更多针对OSWorld和WebVoyager的专门训练数据集。特别是随着Claude 3.5和OpenAI的CUA等模型展示出的潜力,开源社区很可能会开发出更多高质量的训练数据来缩小与这些专有模型的差距。未来的数据集可能会更加注重任务多样性、跨应用场景的泛化能力以及更精细的交互注释,从而进一步推动开源模型在这些基准测试上的表现提升。