(由多段落组成):
在全球人工智能基础设施飞速发展的背景下,一个源自中国的开源项目正逐渐走向世界舞台的中心——它就是由趋境科技与清华大学KVCache.AI团队联合打造的高性能异构推理框架 KTransformers。该项目不仅在系统层面实现了重大突破,其研究成果《KTransformers: Unleashing the Full Potential of CPU/GPU Hybrid Inference for MoE Models》更成功入选计算机系统领域顶级会议 SOSP 2025,被誉为“计算机界的奥斯卡”,标志着中国在AI底层系统创新上的国际影响力持续提升。
KTransformers的核心目标是解决大模型推理中的算力瓶颈问题,尤其是在MoE(Mixture of Experts,专家混合)架构日益普及的当下。传统全GPU推理方案成本高昂、资源依赖性强,难以满足多样化部署需求。而KTransformers另辟蹊径,提出了一套基于CPU+GPU协同工作的异构推理新范式,通过智能调度和算子优化,让消费级硬件也能高效运行千亿参数级别的大模型,如DeepSeek-V3-671B,在单台配备RTX 4080与双路Xeon处理器的设备上即可实现接近多卡GPU集群的性能表现。
技术实现上,KTransformers进行了多项关键创新。首先,针对Intel AMX指令集定制开发高吞吐计算核,并结合tile-aware内存布局策略,使CPU在处理稀疏专家模块时性能大幅提升,单路Xeon相较PyTorch原生实现提速近4倍。其次,引入NUMA感知张量并行与CUDA Graph调度机制,显著降低跨设备通信开销,提升整体协同效率。最引人注目的是其提出的“专家延迟机制(Expert Deferral)”——利用Transformer残差连接的延迟容忍特性,允许GPU在执行当前层注意力的同时,CPU仍在计算前一层的专家输出,从而打破传统串行依赖,实现真正的流水线并行,模型吞吐平均提升1.45倍,decode速度可达30+ tokens/s,精度损失几乎可忽略不计。
这一系列技术创新不仅停留在论文层面,已全面落地为开源工程系统。更值得关注的是,KTransformers近期宣布与主流大模型推理框架 SGLang 深度融合,双方架构合并至同一主干分支。SGLang作为当前最具工程实用性的LLM/VLM服务引擎,在复杂对话、结构化生成等场景中表现出色。此次合作意味着开发者将无需手动集成即可同时使用全GPU高并发推理与异构低成本推理两种模式,尤其适用于GPU资源紧张但CPU算力富余的本地化部署场景。例如,通过Multi-GPU+CPU混合部署,可将更多专家模型置于GPU端,减少内存带宽压力,显著提升整体吞吐能力。
目前,KTransformers已在GitHub收获超过15.2k Stars,跻身全球最受欢迎的大模型推理框架前列。包括通义千问(Qwen)、Kimi、智谱AI在内的多家头部模型厂商均在其发布首日即推荐支持KTransformers作为官方推理后端。同时,该框架也被多个国产一体机产品线采纳,成为国产软硬件协同生态的重要一环。背后推动者趋境科技深度参与了从架构设计、底层算子优化到社区维护的全流程,在本次与SGLang的合作中更是承担了主要工程实现与主干合入工作,展现出强大的技术整合能力。
长远来看,KTransformers所追求的不仅是“让大模型能在本地跑起来”,更是要构建一条普惠型AI落地路径。趋境科技正积极携手国产CPU/GPU平台,探索全国产化、高性价比的推理解决方案,助力数十家行业客户实现AI能力下沉。未来,随着更多企业能够以更低门槛接入大模型能力,AI将真正从“少数巨头的游戏”转变为“人人可用的工具”。据悉,研究团队内部已在尝试基于KTransformers进行轻量级微调实验,无需增加显卡或更改模型结构即可完成模型调优——这或许预示着下一个技术爆发点即将到来。
KTransformers, 大模型推理, 异构计算, SGLang, MoE模型
本文来源:
量子位【阅读原文】

