AIGC大模型能力提升10倍!安谋科技Arm China掏出最强NPU IP大招

(由多段落组成):

在人工智能加速向终端设备下沉的当下,端侧大模型的算力需求日益增长。2023年11月14日,安谋科技正式推出其专为端侧AI大模型打造的新一代NPU IP——“周易”X3,标志着国产自研AI算力IP迈入全新阶段。这款新品不仅延续了Arm生态的技术优势,更通过与CPU、GPU的深度协同,构建起一套高效、灵活的异构计算架构,全面支撑AI在智能终端的本地化部署。

“周易”X3的核心亮点在于软硬件深度融合的设计理念。它采用先进的DSP+DSA混合架构,实现从传统定点运算向高精度浮点(FP8)计算的跨越,单个Cluster算力可达8-80TFLOPS,核心带宽最高达256GB/s,显著提升数据吞吐效率。更重要的是,该NPU内置AI专属硬件加速引擎AIFF,并搭配专用调度器,使得CPU负载可低至0.5%,大幅降低系统开销,确保AI任务运行更加稳定流畅。

在软件生态方面,“周易”X3依托安谋自主研发的Compass AI平台,提供覆盖模型训练到部署的全链路工具支持。该平台已全面兼容TensorFlow、PyTorch、ONNX等主流框架,支持动态Shape、GPTQ量化技术以及Hugging Face模型库接入,适配LLM、VLM、VLA、MoE等多种前沿大模型结构。目前,其支持的AI算子超过160种,兼容模型数量突破270个,展现出强大的通用性与扩展能力。

性能表现上,“周易”X3实现了跨越式升级。相比前代产品,CNN类模型推理速度提升30%-50%;在同等算力条件下,AIGC大模型处理能力提升约10倍。尤其在大模型关键阶段——Prefill中,算力利用率高达72%,而Decode阶段在启用自研WDC解压引擎后,有效带宽利用率甚至突破100%,充分释放硬件潜能。

发布会现场还展示了基于“周易”X3的多个实际应用场景。例如,在AI PC上本地运行MiniCPM v2.6模型,可实现拍照即识物,实时解析图像;通过Stable Diffusion v1.5进行文生图创作,生成质量高且响应时间仅为秒级,极大提升了创作者效率;同时,端侧运行DeepSeek-R1-Distill-Qwen-1.5B等轻量大模型,也实现了流畅对话和快速Token输出,用户体验显著优化。

作为国内最早布局NPU研发的企业之一,安谋科技自2018年起便组建本土团队深耕AI芯片IP领域,至今已完成五代产品的迭代并实现商业化落地。“周易”系列NPU的研发与技术支持完全由中国团队主导,体现了安谋科技对本土技术创新的坚定投入。

展望未来,安谋科技明确将战略重心聚焦于“AI Arm China”,全面拥抱AI时代。公司计划在未来两年内持续推出更多高性能NPU产品,覆盖AI PC、智能手机、智能汽车(如ADAS、智能座舱)、具身智能机器人及物联网设备等多个赛道,助力中国AI产业实现从底层IP到上层应用的全栈式自主可控。

随着端侧AI爆发趋势日益明显,安谋科技凭借“周易”X3这一强大IP,正加速推动AI能力在终端的普惠落地。无论是性能、能效还是生态整合,“周易”X3都展现出强劲竞争力,有望成为国产AI算力底座的重要支柱。

NPU IP, 端侧大模型, 安谋科技, AI PC, 异构计算

本文来源: 智东西【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...