全球首个分布式强化学习(RL)训练模型INTELLECT-2已发布。该模型通过整合全球闲置或分散的计算资源完成了强化学习训练,大幅降低了训练成本,其性能可媲美DeepSeek-R1。
一旦这种范式被广泛接受,意味着RL训练将不再依赖于集中式算力,任何人皆可参与模型训练,大公司对算力的垄断时代或将终结。此版本共有19个个人/机构提供了算力支持,此外还有不少大佬愿意投资,包括Karpathy、FlashAttention作者Tri Dao、HuggingFace联创兼CEO Clem Delangue等。
目前INTELLECT-2支持网页端体验,只需简单注册即可使用。与其他通用助手页面类似,但输入仅限文本。它强调了这是首个去中心化RL训练的大规模模型,具备强化学习训练、参数规模与性能平衡、数据隐私安全与社区驱动等特点。
INTELLECT-2采用了一个超大型众包项目的形式,任何拥有闲置算力的人都可以参与其中。“异步”指的是不同阶段可以独立并行进行,因此不同性能的设备可以同时参与而不会相互影响。具体流程中涉及四大关键组件:核心RL框架PRIME-RL、参数分发网络SHARDCAST、推理验证协议TOPLOC以及Protocol Testnet。
在训练过程中,INTELLECT2采用了两步异步强化学习模式和双面GRPO剪辑技术,以缓解梯度尖峰,使训练更加稳定。数据方面,INTELLECT2结合离线和在线过滤来选择具有挑战性的任务,显著提高了模型学习效率。
实验结果表明,与基线模型QwQ-32B相比,INTELLECT-2在数学和编程基准测试上的表现有所提升。团队曾获得Karpathy等人的投资,接下来计划提高推理-训练计算的比例,并融合独立训练的RL模型。
本文来源:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...