摩尔线程发布 Torch-MUSA v2.7.0，增强 AI 模型训练与推理支持

（由多段落组成）：

近日，摩尔线程正式推出其面向PyTorch生态的深度学习加速扩展库——Torch-MUSA v2.7.0，标志着国产GPU在AI计算生态建设上的又一重要进展。此次更新在功能整合、性能提升和硬件兼容性方面实现了全面升级，进一步增强了开发者在MUSA架构下进行高效模型训练与推理的能力。值得一提的是，在短短一个月内，Torch-MUSA连续发布了v2.5.0与v2.7.0两个版本，展现出团队快速迭代与响应社区需求的强大技术实力。

从v2.5.0版本开始，Torch-MUSA采用了与主流PyTorch主版本号同步的命名策略，即当前发布的v2.7.0对应PyTorch 2.7.0，极大简化了开发者的版本匹配流程，降低使用门槛。这一举措不仅提升了工具链的一致性，也为未来无缝对接最新AI框架特性打下基础。新版本深度集成了摩尔线程自研的高性能计算库 muSolver 与 muFFT，显著增强了在科学计算、信号处理等高负载场景下的运算效率，为复杂AI任务提供更强支持。

在内存管理方面，Torch-MUSA v2.7.0首次引入对统一内存设备（UMM）的全面支持，特别是在基于Arm架构的边缘SoC平台上，通过UMA（统一内存寻址）设计，实现CPU与GPU共享同一物理内存空间。该机制有效减少了传统异构计算中频繁的主机与设备间数据拷贝，避免重复内存分配，并允许GPU直接访问由CPU分配的内存区域，大幅降低模型运行时的内存开销与延迟，特别适用于资源受限的边缘计算场景。

本次更新还大幅扩展了算子支持范围，新增包括 `ilshift`、`irshift`、`angle`、`logit`、`ctcLossTensor` 及其反向传播、`glu_bwd` 等数十个常用操作符，同时增加了对稀疏矩阵CSR格式的基础操作支持，强化了对量化训练相关算子的覆盖。此外，修复了此前版本中 `torch.norm` 存在的形状错误问题，优化了 `argmax/argmin` 在空输入情况下的异常行为，并支持 `reduce_sum` 对uint8输入转int64输出的类型转换，提升了框架的鲁棒性与灵活性。

性能层面，多个核心操作如 `var/std`、`pad`、`convolution3d` 和 `layer_norm` 均获得效率优化，C++扩展接口也新增了 `tensor.is_musa()` 方法，便于开发者在底层代码中判断设备类型。系统级功能同样增强，开放了 `torch.musa.mccl.version()` 接口以支持多卡通信版本查询，并提供 `getCurrentMUSABlasHandle` 等BLAS句柄获取能力，助力高性能数学库集成。针对大规模训练场景，FSDP2流水线并行策略得到改进，有助于减少分布式训练中的显存占用。

展望未来，摩尔线程表示将持续跟进PyTorch官方更新节奏，计划在下一版本中支持 PyTorch 2.9.0，并继续深化性能调优与生态兼容性建设。作为开源项目，Torch-MUSA已在GitHub平台公开源码，欢迎广大开发者参与共建。项目地址：[https：//github.com/MooreThreads/torch_musa](https：//github.com/MooreThreads/torch_musa)
*广告声明：文中含有的外部链接（如超链接、二维码等形式）旨在传递更多信息，仅供读者参考，IT之家所有均包含此声明。*

Torch-MUSA, 摩尔线程, PyTorch, 统一内存管理, 国产GPU

本文来源：