以下是根据您提供的原文,经过SEO优化与处理后整理的文章。文章在保持原意的基础上,优化了结构、语言表达和关键词布局,更符合搜索引擎收录与排名的要求。
## (由多段落组成)
近日,字节跳动旗下Seed团队发布了一项突破性研究成果——新一代原生GUI智能体 UI-TARS-2,该智能体具备自主操作电脑、手机等设备的能力,能够完成搜索信息、创建网页、新闻采集、构建查询工具、甚至玩小游戏等多种任务。相关论文已于9月2日在arXiv平台上线,引起广泛关注。
UI-TARS-2在多个GUI基准测试中表现优异,不仅超越了OpenAI与Claude Agent,还在15款小游戏中的综合表现达到了人类水平的60%。字节团队发布的演示视频中,该智能体仅凭一条提示词“搜索字节Seed 1.6模型相关新闻并创建现代风格网页进行部署”,便成功完成了从新闻搜索、网页设计到部署上线的全过程。
在执行任务过程中,UI-TARS-2首先将复杂任务拆解为多个子任务,包括新闻检索、网页设计、功能测试等。它利用LinkReader工具获取信息,随后构建项目目录、选择合适的设计风格,并对网页功能进行自主检测,确保运行无误。
字节Seed团队在技术报告中指出,UI-TARS-2的研发过程中克服了多项技术挑战,包括数据扩展性、多轮强化学习、纯GUI操作限制以及环境稳定性等问题。为此,他们提出了一套系统化的训练方法,涵盖数据飞轮机制、多轮强化学习框架、混合GUI环境集成以及统一沙盒平台,有效提升了模型的适应性与泛化能力。
在多个实际应用场景中,UI-TARS-2展示了强大的任务执行能力。例如,它可以创建重量单位转换工具、统计Hugging Face数据集字符数、为音乐教师设计教学网页,甚至使用Jupyter比较数值大小。这些任务不仅涉及信息检索,还融合了编程、数据处理与网页设计等多方面能力。
在游戏测试中,UI-TARS-2的表现同样令人印象深刻。在15款游戏中,其平均归一化得分为59.8,接近人类水平的60%。相比OpenAI CUA和Claude Computer Use等智能体,其得分高出2.4倍和2.8倍。此外,该模型在LMGame-Bench等开源游戏基准测试中也展现出出色的推理能力与稳定性。
UI-TARS-2还通过GUI-SDK扩展了与终端及外部工具的交互能力,在长时程任务如信息搜索与软件工程测试中均表现优异,例如在Terminal Bench任务中得分达到45.3分。这表明其训练方法在多个交互场景中具备良好的迁移能力。
字节Seed团队指出,传统GUI智能体多依赖模块化设计,受限于专家规则与任务定制,扩展性差。而UI-TARS-2则构建在四大核心技术支柱之上:可扩展数据飞轮、稳定多轮强化学习框架、混合GUI环境支持、统一沙盒平台。这一系统方法论显著提升了模型的自主性与适应能力。
通过持续预训练、监督微调、拒绝采样与多轮强化学习的协同优化,UI-TARS-2能够在多任务、多平台环境中持续学习与进化。实验表明,虽然特定任务的变体可能在单一基准中表现更优,但UI-TARS-2在统一系统下实现了GUI、浏览器、移动端及游戏场景的均衡性能。
此外,研究人员还对训练过程与交互扩展性进行了深入分析,验证了多轮智能体在多样化环境中的学习潜力。这种能力不仅提升了参数共享效率,也促进了跨领域的能力迁移,使UI-TARS-2兼具图形交互与高级推理的综合能力。
总的来说,UI-TARS-2的推出标志着GUI智能体迈入了一个新阶段,为未来更强大、更智能的计算机交互系统奠定了基础。它不仅在技术层面实现了多项突破,也为多模态智能体的发展提供了全新的思路与方向。
##
本文来源: