中科曙光正式公布scaleX万卡超集群:每节点640卡、总算力超500亿亿次

(由多段落组成):

在人工智能飞速发展的今天,算力已成为推动技术进步的核心驱动力。随着大模型训练对计算资源需求的指数级增长,单张加速卡的性能已不再是决定性因素,取而代之的是如何高效整合成千上万张AI加速卡,构建具备超强并行处理能力的超级算力集群。在此背景下,国产科技企业正加速布局高密度、高性能的万卡级AI基础设施,中科曙光近期发布的scaleX万卡超算集群,正是这一趋势下的里程碑式成果。

作为国内首个正式亮相并展示真机运行的万卡级AI集群,中科曙光的scaleX项目标志着我国在自主可控、开放兼容的超大规模算力平台建设方面迈出了关键一步。与华为等厂商采用封闭自研架构不同,scaleX致力于打造一个开放生态,支持多品牌GPU加速卡和主流计算框架,目前已完成对400多个热门大模型及世界模型的适配与深度优化,广泛适用于AI训练推理、金融风控建模、地质勘探、科学研究等多个高精尖领域。

该集群由多个scaleX640超节点构成,每个机柜可容纳高达640张加速卡,并通过自研的scaleFabric高速网络实现互联。整套系统共集成10240张加速卡,总算力突破5EFlops(即每秒500亿亿次浮点运算),HBM显存总量超过650TB,总带宽达18PB/s以上。片间互连带宽超过4.5PB/s,柜间通信带宽也达到500TB/s以上,确保了数据在超大规模集群中的高效流通。

在硬件设计上,scaleX采用“一拖二”高密度架构,单个超节点即可实现千卡级算力集成,双计算柜组合更可扩展至1280卡规模。为应对高密度带来的散热挑战,中科曙光融合多项前沿技术,包括超高速正交结构、高密度刀片服务器、浸没式相变液冷以及高压直流供电方案,打造出业内集成度最高的液冷超节点。其中,全浸没液冷技术将服务器完全置于特制冷却液中,配合冷凝换热装置CDM,单机柜散热能力高达1.72兆瓦,PUE值低至1.04,能效表现远超传统风冷系统。值得一提的是,其子公司曙光数创已拥有139项液冷相关专利,是国内唯一实现液冷技术大规模商业化落地的企业。

网络通信方面,中科曙光自主研发的scaleFabric网络芯片成为集群性能跃升的关键。该芯片提供400Gb/s超高带宽,端到端延迟低于1微秒,交换芯片转发延迟仅260纳秒,整体通信效率较传统InfiniBand网络提升达2.33倍。结合面向超大规模组网优化的协议设计与链路可靠性增强技术,整个集群可轻松扩展至十万卡级别,同时网络建设成本降低30%,显著提升了部署经济性。

在系统优化层面,中科曙光引入“超级隧道”三级协同机制,覆盖芯片、系统到应用层的全栈调优。借助BurstBuffer缓存加速、XDS数据调度等核心技术,大模型训练与推理效率提升30%-40%,GPU资源利用率最高提升55%。此外,平台还具备AI应用亲和性和数据预加载加速能力,进一步缩短任务响应时间。在可靠性管理上,一体化智能管控系统大幅延长平均无故障时间(MTBF),缩短平均修复时间(MTTR),保障集群可用性高达99.99%,相当于每月停机时间不足4分钟,满足关键业务连续运行需求。

AI算力集群, 中科曙光scaleX, 万卡级超算, 液冷服务器, 大模型训练

本文来源: 快科技【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...