DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

(由多段落组成):

2025年9月,人工智能领域迎来一项引人瞩目的技术动向:国产大模型厂商DeepSeek在发布其最新版本DeepSeek v3.2时,悄然引入了一项未在论文中详细披露的关键技术——全面采用国产GPU编程语言TileLang。这一举动虽仅在官方公告中轻描淡写地提及一次,却迅速在开发者社区掀起热议,转发与讨论热度甚至超过了其新推出的稀疏注意力机制DSA。

TileLang并非普通编程工具,而是一种专为高性能计算设计的领域专用语言(DSL),定位直指英伟达CUDA生态,目标是成为国产AI芯片底层开发的核心支撑。令人意外的是,DeepSeek作为国内顶尖AI团队,竟选择用TileLang替代国际主流的Triton(由OpenAI支持开发),此举被视为对国产算力生态的一次重要“站台”。

更值得关注的是,华为昇腾在第一时间宣布完成对TileLang的适配,实现“Day0级”兼容。这标志着TileLang已获得主流国产硬件厂商的认可。此前,在华为全联接大会2025的开发者日上,TileLang核心成员董宇骐现场展示了使用该语言实现FlashAttention算子的过程——代码量从传统方式的500多行骤降至80行以内,性能却依然媲美原生实现,极大提升了开发效率。

TileLang由北京大学计算机学院主导研发,核心团队包括博士生王磊、董宇骐以及副研究员杨智。项目于2025年1月正式开源,短短数月内GitHub星标突破1.9k,展现出强劲的技术吸引力。其设计理念强调“解耦调度与数据流”,通过Python风格语法降低门槛,并基于TVM构建编译器后端,让开发者既能快速上手,又能深入底层优化。

该语言以“Tile”为核心抽象单元,允许开发者清晰控制数据在寄存器、共享内存和全局内存之间的流动路径。同时提供三层编程接口:初学者可使用硬件无关的高层API专注算法逻辑;中级用户可通过Tile Library调用预优化算子;专家级开发者则能直接操作线程绑定、内存合并等底层特性,实现极致性能调优。

DeepSeek显然属于最后一类用户。据v3.2技术报告透露,团队早期借助TileLang快速搭建内核原型,随后再进行精细化调优。特别是在KV缓存共享和闪电索引器(lightning indexer)的设计中,TileLang提供的高效内存管理能力显著提升了DSA模块的运行速度,实测表现远超传统实现方案。

事实上,DeepSeek与TileLang的合作早有渊源。早在6月的北京智元大会上,曾在DeepSeek实习的北大博士袁境阳就公开表示:“TileLang的算子实现效率更高。”此后,王磊也发文感谢DeepSeek团队敢于在核心产品中尝试新兴语言。而在DeepSeek首次开源FlashMLA内核后不久,TileLang团队便以其为基准测试,在H100平台上实现了几乎持平的MLA解码性能。

此次DeepSeek v3.2的成功落地,不仅验证了TileLang在真实大规模训练场景中的可行性,也为国产AI软硬件协同生态注入强心剂。随着沐曦、华为等国产GPU厂商纷纷加入适配行列,TileLang正逐步构建起一条独立于CUDA之外的技术路径,有望成为中国自主可控AI基础设施的重要拼图。

未来,随着更多头部AI公司关注并接入这一生态,TileLang或将成为打破国外GPU编程垄断的关键力量,推动中国在AI底层技术领域的真正突围。

TileLang, DeepSeek v3.2, 国产GPU, 华为昇腾, CUDA替代

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...