近日,据《科创板日报》报道,华为将在8月12日的“2025金融AI推理应用落地与发展论坛”上,发布其在AI推理领域的重要技术成果。这一技术突破有望降低中国AI推理对HBM(高带宽内存)的高度依赖,进一步提升国内AI大模型的推理效率,并在完善AI推理生态系统方面迈出关键一步。
事实上,华为在AI推理技术上的创新已有显著成果。早在2025年3月,华为便与北京大学展开合作,联合推出了名为DeepSeek的全栈开源推理方案。该方案基于北大自主研发的SCOW算力平台和鹤思调度系统,整合了包括DeepSeek、openEuler、MindSpore以及vLLM/RAY等在内的多个开源社区组件,成功实现了在华为昇腾平台上的高效推理部署。
在实际性能测试中,华为昇腾平台展现了强劲的推理能力。例如,在部署DeepSeek V3/R1模型时,CloudMatrix 384超节点在50ms时延限制下单卡解码吞吐量达到了1920 Tokens/s;而Atlas 800I A2推理服务器在100ms时延约束下,单卡吞吐量也达到了808 Tokens/s,展现出卓越的处理效率。
此外,华为与科大讯飞的深度合作也取得了突破性进展。双方成功实现了在国产算力平台上对MoE(混合专家)模型的大规模跨节点专家并行推理。这一技术优化使得推理吞吐量提升了3.2倍,同时端到端延迟降低了50%,为国内AI推理的规模化落地提供了有力支撑。
随着人工智能技术的不断演进,华为在AI推理领域的持续创新不仅推动了国内大模型技术的发展,也为国产算力生态的构建奠定了坚实基础。未来,华为或将在更多行业场景中推动AI推理技术的广泛应用。
AI推理技术,华为昇腾,HBM内存,DeepSeek,AI大模型
本文来源:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...