摩尔线程发布 Torch-MUSA v2.7.0,增强 AI 模型训练与推理支持

(由多段落组成):

近日,摩尔线程正式推出其面向PyTorch生态的深度学习加速扩展库——Torch-MUSA v2.7.0,标志着国产GPU在AI计算生态建设上的又一重要进展。此次更新在功能整合、性能提升和硬件兼容性方面实现了全面升级,进一步增强了开发者在MUSA架构下进行高效模型训练与推理的能力。值得一提的是,在短短一个月内,Torch-MUSA连续发布了v2.5.0与v2.7.0两个版本,展现出团队快速迭代与响应社区需求的强大技术实力。

从v2.5.0版本开始,Torch-MUSA采用了与主流PyTorch主版本号同步的命名策略,即当前发布的v2.7.0对应PyTorch 2.7.0,极大简化了开发者的版本匹配流程,降低使用门槛。这一举措不仅提升了工具链的一致性,也为未来无缝对接最新AI框架特性打下基础。新版本深度集成了摩尔线程自研的高性能计算库 muSolver 与 muFFT,显著增强了在科学计算、信号处理等高负载场景下的运算效率,为复杂AI任务提供更强支持。

在内存管理方面,Torch-MUSA v2.7.0首次引入对统一内存设备(UMM) 的全面支持,特别是在基于Arm架构的边缘SoC平台上,通过UMA(统一内存寻址)设计,实现CPU与GPU共享同一物理内存空间。该机制有效减少了传统异构计算中频繁的主机与设备间数据拷贝,避免重复内存分配,并允许GPU直接访问由CPU分配的内存区域,大幅降低模型运行时的内存开销与延迟,特别适用于资源受限的边缘计算场景。

本次更新还大幅扩展了算子支持范围,新增包括 `ilshift`、`irshift`、`angle`、`logit`、`ctcLossTensor` 及其反向传播、`glu_bwd` 等数十个常用操作符,同时增加了对稀疏矩阵CSR格式的基础操作支持,强化了对量化训练相关算子的覆盖。此外,修复了此前版本中 `torch.norm` 存在的形状错误问题,优化了 `argmax/argmin` 在空输入情况下的异常行为,并支持 `reduce_sum` 对uint8输入转int64输出的类型转换,提升了框架的鲁棒性与灵活性。

性能层面,多个核心操作如 `var/std`、`pad`、`convolution3d` 和 `layer_norm` 均获得效率优化,C++扩展接口也新增了 `tensor.is_musa()` 方法,便于开发者在底层代码中判断设备类型。系统级功能同样增强,开放了 `torch.musa.mccl.version()` 接口以支持多卡通信版本查询,并提供 `getCurrentMUSABlasHandle` 等BLAS句柄获取能力,助力高性能数学库集成。针对大规模训练场景,FSDP2流水线并行策略得到改进,有助于减少分布式训练中的显存占用。

展望未来,摩尔线程表示将持续跟进PyTorch官方更新节奏,计划在下一版本中支持 PyTorch 2.9.0,并继续深化性能调优与生态兼容性建设。作为开源项目,Torch-MUSA已在GitHub平台公开源码,欢迎广大开发者参与共建。项目地址:[https://github.com/MooreThreads/torch_musa](https://github.com/MooreThreads/torch_musa)
*广告声明:文中含有的外部链接(如超链接、二维码等形式)旨在传递更多信息,仅供读者参考,IT之家所有均包含此声明。*

Torch-MUSA, 摩尔线程, PyTorch, 统一内存管理, 国产GPU

本文来源: IT之家【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...