英伟达自毁CUDA门槛!15行Python写GPU内核,性能匹敌200行C++

(由多段落组成):

近日,GPU计算领域迎来一场颠覆性变革——英伟达正式发布全新版本 CUDA 13.1,官方将其定义为“自2006年CUDA诞生以来最具里程碑意义的升级”。此次更新的核心在于引入了革命性的 CUDA Tile 编程模型,首次实现用仅 15行Python代码编写高性能GPU内核,性能可媲美传统需200行手工优化的CUDA C++程序,极大降低了GPU编程门槛。

长期以来,GPU并行计算以高难度著称。传统的CUDA采用SIMT(单指令多线程)架构,开发者必须深入掌握线程索引、共享内存管理、Warp调度和同步机制等底层细节,才能充分发挥GPU算力,尤其是Tensor Core这类专用单元的潜力。这种高度依赖经验的开发模式,使得精通CUDA的工程师成为稀缺人才,严重制约了高性能计算在AI与科学计算领域的普及速度。

而CUDA Tile的出现彻底改变了这一局面。新模型将数据划分为“瓦片”(Tile),开发者只需定义在这些数据块上执行的操作逻辑,无需关心底层线程如何分配或硬件资源如何调度。编译器与运行时系统会自动完成从Tile运算到GPU物理核心(包括Tensor Core)的映射,极大简化了开发流程。这种抽象层级的提升,堪比当年NumPy对Python数值计算的推动作用。

为了支撑这一范式转变,英伟达构建了两大关键技术支柱:一是全新的 CUDA Tile IR,作为中间虚拟指令集,在高级语言与硬件之间建立通用抽象层,确保基于Tile编写的代码具备跨代兼容性,可无缝运行于Blackwell及未来架构的GPU之上;二是推出 cuTile Python API,让熟悉Python的数据科学家也能直接编写高效GPU内核,真正实现“会写脚本就能做高性能计算”。

与此同时,本次更新还针对新一代Blackwell架构进行了多项关键性能优化:
– cuBLAS库现已支持FP64与FP32精度在Tensor Core上的仿真加速;
– 新增 Grouped GEMM API,在MoE(混合专家)类大模型训练中性能提升最高达4倍;
– cuSOLVER 的批处理特征值分解在RTX PRO 6000上相较L40S提速约2倍;
– 开发者工具 Nsight Compute 已全面支持CUDA Tile内核的性能剖析,并能将指标精准回溯至Python源码级别,助力调试与调优。

然而,这项技术突破也引发了行业深思。芯片设计传奇人物 Jim Keller(曾主导AMD Zen、苹果A系列、特斯拉FSD芯片设计)公开质疑:“英伟达是否正在亲手削弱自己的护城河?”原因在于,Tile编程模型本质上是一种更高层次的抽象,不专属于NVIDIA硬件。AMD、Intel乃至其他AI芯片厂商的架构同样可以支持类似范式。一旦开发者习惯于“声明式”Tile编程,算法逻辑将更容易迁移到其他支持该模型的平台,从而降低对CUDA生态的依赖。

不过,英伟达显然早有布局。虽然Tile模型提升了移植可能性,但其底层依赖的是 CUDA专属的Tile IR与运行时环境。这意味着开发者编写的代码虽可在不同代际的NVIDIA GPU间无缝迁移(如从Blackwell到下一代架构),但若想转向AMD或Intel平台,仍需重构适配。因此,真正的“可移植性红利”更多惠及的是NVIDIA自身生态的延续性,而非竞争对手。

无论如何,一个不可否认的趋势是:GPU编程正从“专家专属”走向“大众化”。过去只有少数HPC专家才能驾驭的极致性能,如今普通Python程序员也能通过简洁代码触达。随着cuTile Python的普及,越来越多AI研究员、数据科学家将能够自主实现高性能计算逻辑,不再受制于底层优化瓶颈。这不仅加快了算法迭代速度,也为AI基础设施的 democratization 打开新篇章。

参考链接:[1] https://developer.nvidia.com/blog/focus-on-your-algorithm-nvidia-cuda-tile-handles-the-hardware
[2] https://x.com/jimkxa/status/1997732089480024498

CUDA 13.1, GPU编程, CUDA Tile, cuTile Python, 英伟达

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...