LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

(由多段落组成):

近年来,大语言模型(LLM)在智能体系统中的应用不断深化,尤其是在多智能体协作场景中展现出巨大潜力。从医疗诊断到代码生成、科研辅助乃至具身智能领域,多个LLM协同工作的模式已被证明能显著超越单一智能体的表现。然而,尽管多智能体系统的性能优势明显,现有的强化学习训练框架大多仍局限于单智能体优化,缺乏对“群体行为”进行联合进化的有效机制。这一瓶颈严重制约了多智能体系统在复杂任务中的进一步突破。

为解决这一关键挑战,来自加州大学圣地亚哥分校(UCSD)与英特尔的研究团队提出了一种全新的通用多智能体强化学习框架——PettingLLMs。该框架首次实现了真正意义上的“群体强化”,支持任意数量和组合的LLM共同参与训练,并通过创新的树状采样策略与角色化奖励机制,大幅提升模型在长程规划、工具调用与跨任务协作中的表现能力。实验数据显示,在典型任务中,其性能提升最高可达原始水平的5.8倍以上。

PettingLLMs的核心技术亮点在于其独特的AT-GRPO算法(Agent-Tree Group Relative Policy Optimization),该方法结合了树状结构的贪婪搜索采样与组内相对策略优化。在每一轮交互中,每个智能体作为树的一个节点展开K个候选动作分支,并基于即时奖励选择最优路径继续扩展。这种机制有效平衡了探索与利用之间的矛盾,使系统既能发现新策略,又能快速收敛到高效协作模式。更重要的是,该设计确保了在同一比较组内的所有响应都源自相同的上下文输入,从而满足GRPO算法对“公平优势计算”的基本要求。

另一个关键技术突破是角色感知的双层奖励机制。每个智能体不仅获得与其职责相关的专属奖励(如程序员智能体关注代码正确性),还共享反映整体任务完成度的全局奖励。这种设计促使个体在精进专业能力的同时,主动与其他成员协同配合,最终形成高度互补且不可替代的协作关系。消融实验证明,若将已训练好的两个智能体角色互换,任务准确率会从96%骤降至6%,充分说明它们已演化出深度分工的能力。

为了灵活适配不同应用场景,PettingLLMs构建了一个异步分布式训练架构,支持两种训练范式:专属模型模式与共享模型模式。在专属模式下,每个智能体拥有独立的模型参数池,轨迹数据被路由至对应更新单元进行个性化训练;而在共享模式中,所有智能体的经验被统一汇总,用于迭代一个共用的基础模型。这种灵活性使得开发者可以根据任务需求自由配置资源,极大提升了框架的实用性与可扩展性。

此外,研究团队已将PettingLLMs完全开源,提供一套简洁高效的开发接口与详尽的环境搭建教程。开发者只需定义特定任务下的智能体交互逻辑与奖励函数,即可快速部署新的多智能体训练流程。目前框架已内置多种主流任务环境,涵盖数学推理(如AIME24/25、OlympiadBench)、编程竞赛(LiveCodeBench、APPS、CodeContests)以及复杂路径规划(Sokoban、Plan-Path)等场景。

实验结果令人振奋:在推箱子(Sokoban)这类需要长期规划的任务中,经过AT-GRPO训练后,双智能体系统的成功率从最初的14%飙升至96%;在路径规划任务Plan-Path中更是达到99.5%的惊人准确率。代码生成方面,LiveCodeBench提升6.1个百分点,APPS提升4.2%,CodeContests提升达7.0%。数学推理任务中,AIME 24和AIME 25分别实现+9.0%与+17.9%的显著增益。这些成果验证了PettingLLMs在跨任务、跨模型规模上的强大泛化能力。

更值得关注的是,训练过程中智能体间的协作效率持续提升:平均完成任务所需的对话轮次不断减少,学习曲线同步上升,显示出系统内部正逐渐形成高效的沟通与分工机制。这标志着LLM智能体正从“被动响应”迈向“主动协作”的新阶段。随着PettingLLMs的广泛应用,未来我们有望看到更多具备自主协作能力的AI团队出现在教育、软件开发、科学研究等高价值场景中。

多智能体强化学习, LLM智能体, PettingLLMs, 工具调用能力, 大语言模型协作

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...