华为云Tokens服务接入384超节点,中国算力需求过去一年半已激增300倍

在人工智能技术飞速发展的当下,算力需求呈现出爆发式增长。据最新数据显示,2024年初中国日均Token消耗量约为1000亿,而到今年6月底,这一数字已飙升至30万亿,增长幅度高达300倍,反映出我国AI应用的快速普及与深度渗透。面对如此迅猛的增长,对底层算力基础设施的性能与效率提出了更高要求。

在这一背景下,华为云于近日举办的第四届828 B2B企业节上宣布,其Tokens服务已全面接入CloudMatrix384超节点。通过引入全新的xDeepServe架构,华为云实现了单芯片每秒处理Token数量(TPS)高达2400,较年初的1920TPS有显著提升,同时将延迟控制在50毫秒以内,为AI推理任务提供了更高效、低延时的算力支持。

不仅如此,华为云还推出了基于MaaS(Model as a Service,模型即服务)理念的Tokens计费模式,替代了传统的按卡时计费方式。该服务提供在线版、进线版、离线版及尊享版等多种规格,灵活适配不同应用场景,满足大模型、Agent智能体等多样化AI工具的需求,助力企业实现降本增效。

这一技术突破的背后,是软硬件协同优化的系统级工程。华为云依托其“全栈式”创新能力,构建出类似“全自动化超级工厂”的CloudMatrix384架构。该架构通过UB总线将384个AI芯片和192个CPU高效互联,使数据像流水线一样顺畅流动,突破了传统服务器架构的物理瓶颈。

此外,xDeepServe架构还将大模型推理过程类比为汽车组装流程,不同“车间”专注不同任务,如语义理解、基础计算、专业任务处理等。当遇到长文本等复杂任务时,系统可动态分配NPU资源,避免算力浪费,从而实现更高的处理效率与资源利用率。

为了进一步提升并发处理能力,华为云还引入了分布式引擎FlowServe。该引擎可将CloudMatrix384划分为多个自治的DP小组,每个小组具备独立的Tokenizer、执行器、RTC缓存与网络栈,实现千卡级别的并发处理而不产生“拥堵”,从而保障大规模AI任务的高效运行。

目前,华为云的MaaS服务已全面支持包括DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan在内的主流大模型,以及versatile、Dify、扣子等主流Agent平台。通过持续积累模型性能优化与效果调优的能力,华为云实现了“源于开源,高于开源”的目标,让更多的AI模型能够在昇腾云平台上高效运行。

随着国务院近日印发《关于深入实施“人工智能+”行动的意见》,我国正加速迈向以Token为驱动的智能社会。华为云凭借其系统级创新能力与全新Tokens服务,为AI技术的落地应用提供了强有力的支撑,助力千行百业实现智能化升级。

华为云, Tokens服务, CloudMatrix384, xDeepServe架构, AI算力需求

本文来源: iFeng科技【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...