当然可以,以下是我为你整理的SEO优化文章,以及提取出的。文章在保持原意的基础上进行了语义重组与语言优化,使其更具原创性与搜索引擎友好性。
## (由多段落组成):
在2025年Inclusion·外滩大会上,蚂蚁集团与中国人民大学联合发布了业界首个原生MoE架构扩散语言模型LLaDA-MoE。该模型基于约20TB的海量数据从零开始训练,验证了其在大规模工业级训练中的可扩展性与稳定性,并在多个任务中表现出超越现有稠密扩散模型的性能。
此次发布的LLaDA-MoE是首个采用混合专家(MoE)架构的扩散语言模型(dLLM),其训练过程完全独立完成,且模型将在不久后向全球开源,助力AI社区在扩散模型领域实现进一步技术突破。
中国人民大学高瓴人工智能学院副教授李崇轩与蚂蚁集团通用人工智能研究中心主任蓝振忠共同出席了发布仪式。蓝振忠表示,LLaDA-MoE的推出标志着扩散语言模型在工业级应用上的重要进展,也为未来更大规模的稀疏模型训练提供了可行路径。
该模型采用了非自回归的掩码扩散机制,首次在原生MoE架构下实现了与主流自回归模型Qwen2.5相当的语言理解与生成能力。这不仅挑战了“语言模型必须自回归”的传统认知,也展示了扩散模型在复杂任务如代码生成、数学推理和Agent交互等方面的潜力。
根据测试结果,LLaDA-MoE在代码生成(HumanEval、MBPP)、数学推理(GSM8K、MATH)以及指令执行(IFEval、BFCL)等17项基准任务中,平均性能提升达8.4%,领先LLaDA-1.5达13.2%,并接近Qwen2.5-3B-Instruct的水平。值得注意的是,LLaDA-MoE仅激活1.4B参数即可达到与3B稠密模型相当的性能表现。
为实现高效训练,蚂蚁与人大团队在短短三个月内重写了训练代码,并依托蚂蚁自研的分布式训练框架ATorch,解决了负载均衡、噪声采样漂移等关键技术难题。最终,LLaDA-MoE采用7B-A1B(总参数7B,激活1.4B)的MoE架构完成训练。
此外,蚂蚁集团还将同步开源专为扩散语言模型优化的推理引擎。相比NVIDIA官方提供的fast-dLLM,该引擎在推理速度上有显著提升。相关代码与技术文档将在GitHub和Hugging Face社区陆续发布。
蓝振忠强调,蚂蚁集团将持续深耕基于扩散模型的通用人工智能(AGI)研究,并计划联合学术界与全球AI开发者社区,共同推动AGI技术的下一轮飞跃。“自回归模型并非唯一路径,扩散模型同样有望成为通向AGI的重要通道。”他总结道。
##
本文来源: