LLM强化学习新框架！UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

（由多段落组成）：

近年来，大语言模型（LLM）在智能体系统中的应用不断深化，尤其是在多智能体协作场景中展现出巨大潜力。从医疗诊断到代码生成、科研辅助乃至具身智能领域，多个LLM协同工作的模式已被证明能显著超越单一智能体的表现。然而，尽管多智能体系统的性能优势明显，现有的强化学习训练框架大多仍局限于单智能体优化，缺乏对“群体行为”进行联合进化的有效机制。这一瓶颈严重制约了多智能体系统在复杂任务中的进一步突破。

为解决这一关键挑战，来自加州大学圣地亚哥分校（UCSD）与英特尔的研究团队提出了一种全新的通用多智能体强化学习框架——PettingLLMs。该框架首次实现了真正意义上的“群体强化”，支持任意数量和组合的LLM共同参与训练，并通过创新的树状采样策略与角色化奖励机制，大幅提升模型在长程规划、工具调用与跨任务协作中的表现能力。实验数据显示，在典型任务中，其性能提升最高可达原始水平的5.8倍以上。

PettingLLMs的核心技术亮点在于其独特的AT-GRPO算法（Agent-Tree Group Relative Policy Optimization），该方法结合了树状结构的贪婪搜索采样与组内相对策略优化。在每一轮交互中，每个智能体作为树的一个节点展开K个候选动作分支，并基于即时奖励选择最优路径继续扩展。这种机制有效平衡了探索与利用之间的矛盾，使系统既能发现新策略，又能快速收敛到高效协作模式。更重要的是，该设计确保了在同一比较组内的所有响应都源自相同的上下文输入，从而满足GRPO算法对“公平优势计算”的基本要求。

另一个关键技术突破是角色感知的双层奖励机制。每个智能体不仅获得与其职责相关的专属奖励（如程序员智能体关注代码正确性），还共享反映整体任务完成度的全局奖励。这种设计促使个体在精进专业能力的同时，主动与其他成员协同配合，最终形成高度互补且不可替代的协作关系。消融实验证明，若将已训练好的两个智能体角色互换，任务准确率会从96%骤降至6%，充分说明它们已演化出深度分工的能力。

为了灵活适配不同应用场景，PettingLLMs构建了一个异步分布式训练架构，支持两种训练范式：专属模型模式与共享模型模式。在专属模式下，每个智能体拥有独立的模型参数池，轨迹数据被路由至对应更新单元进行个性化训练；而在共享模式中，所有智能体的经验被统一汇总，用于迭代一个共用的基础模型。这种灵活性使得开发者可以根据任务需求自由配置资源，极大提升了框架的实用性与可扩展性。

此外，研究团队已将PettingLLMs完全开源，提供一套简洁高效的开发接口与详尽的环境搭建教程。开发者只需定义特定任务下的智能体交互逻辑与奖励函数，即可快速部署新的多智能体训练流程。目前框架已内置多种主流任务环境，涵盖数学推理（如AIME24/25、OlympiadBench）、编程竞赛（LiveCodeBench、APPS、CodeContests）以及复杂路径规划（Sokoban、Plan-Path）等场景。

实验结果令人振奋：在推箱子（Sokoban）这类需要长期规划的任务中，经过AT-GRPO训练后，双智能体系统的成功率从最初的14%飙升至96%；在路径规划任务Plan-Path中更是达到99.5%的惊人准确率。代码生成方面，LiveCodeBench提升6.1个百分点，APPS提升4.2%，CodeContests提升达7.0%。数学推理任务中，AIME 24和AIME 25分别实现+9.0%与+17.9%的显著增益。这些成果验证了PettingLLMs在跨任务、跨模型规模上的强大泛化能力。

更值得关注的是，训练过程中智能体间的协作效率持续提升：平均完成任务所需的对话轮次不断减少，学习曲线同步上升，显示出系统内部正逐渐形成高效的沟通与分工机制。这标志着LLM智能体正从“被动响应”迈向“主动协作”的新阶段。随着PettingLLMs的广泛应用，未来我们有望看到更多具备自主协作能力的AI团队出现在教育、软件开发、科学研究等高价值场景中。

多智能体强化学习, LLM智能体, PettingLLMs, 工具调用能力, 大语言模型协作

本文来源：