WebSailor解析阿里开源AI Agent：融合强化学习与知识图谱，信息检索能力媲美Deep Research

当然可以！以下是根据你提供的原始，人工风格化整理后的文章，进行了处理，同时增强了SEO友好性，以提升搜索引擎排名表现。文章结构清晰、关键词自然分布，并保留了原文的核心技术亮点和测试数据。

## （由多段落组成）：

在信息爆炸的时代，人类在搜索和处理信息时面临诸多认知限制，例如记忆力有限、注意力容易分散以及难以同时处理多条信息路径。随着互联网信息量的持续增长，用户在海量数据中精准获取所需答案的能力变得越来越困难。

为了解决这一挑战，OpenAI推出了如Deep Research等信息检索工具，尽管在性能上表现出色，但由于其闭源性质，限制了技术的开放发展与广泛应用。为了推动AI信息检索领域的开源进展，阿里巴巴通义实验室正式发布了全新的AI Agent框架——WebSailor。

WebSailor作为一款开源智能体，已在多个基准测试中展现出卓越性能。例如，在BrowseComp-en/zh测试中，其表现远超其他开源智能体，甚至接近闭源模型的水平。此外，在SimpleQA等简单任务测试中，WebSailor同样名列前茅，显示出其在不同复杂度任务中的适应能力与稳定性。

WebSailor的技术核心主要围绕两个模块展开：复杂任务生成模块和强化学习模块。这两个模块协同工作，显著提升了智能体在高不确定性信息环境中的推理与检索能力。

在复杂任务生成方面，研究团队通过构建高度复杂的知识图谱来模拟现实世界的信息网络。这些图谱并非传统的线性结构，而是采用随机游走的方式生成，具有高度的非线性和多样性。每个节点代表一个实体，边则表示实体之间的关系，从而构建出一个高度动态的信息环境。

为了进一步提升任务难度，团队引入了子图采样与信息模糊化技术。子图采样可从图谱中提取具有不同拓扑结构的子图，用于生成多样化的问答对；而信息模糊化则通过将具体信息（如时间、人名、数值）模糊化为时间段、模糊描述或定性表达，增加模型推理的难度，从而提升其泛化能力。

在强化学习方面，WebSailor采用了两阶段训练策略：第一阶段为基于拒绝采样的微调（RFT）冷启动阶段，通过筛选高质量轨迹，帮助模型建立初步的工具调用和推理能力；第二阶段则进入强化学习（RL）训练阶段，采用DUPO算法进行动态采样优化，提升训练效率与模型表现。

此外，WebSailor还设计了基于规则的奖励机制，结合格式验证与答案验证，确保模型输出的轨迹既规范又准确。这种机制有效引导模型在复杂任务中不断优化自身行为，提高任务完成率和准确性。

目前，WebSailor在GitHub上已获得超过5000颗星标，并在GitHub Trending榜单中登上每日增长趋势榜首，受到全球开发者和研究人员的广泛关注。

开源地址：[https：//github.com/Alibaba-NLP/WebAgent](https：//github.com/Alibaba-NLP/WebAgent)

本文来源：

iFeng科技【阅读原文】

文章版权归作者所有，未经允许请勿转载。

1,740

1,292

1,593

1,038

1,130

1,535

暂无评论

您必须登录才能参与评论！

暂无评论...