中科曙光正式公布scaleX万卡超集群：每节点640卡、总算力超500亿亿次

（由多段落组成）：

在人工智能飞速发展的今天，算力已成为推动技术进步的核心驱动力。随着大模型训练对计算资源需求的指数级增长，单张加速卡的性能已不再是决定性因素，取而代之的是如何高效整合成千上万张AI加速卡，构建具备超强并行处理能力的超级算力集群。在此背景下，国产科技企业正加速布局高密度、高性能的万卡级AI基础设施，中科曙光近期发布的scaleX万卡超算集群，正是这一趋势下的里程碑式成果。

作为国内首个正式亮相并展示真机运行的万卡级AI集群，中科曙光的scaleX项目标志着我国在自主可控、开放兼容的超大规模算力平台建设方面迈出了关键一步。与华为等厂商采用封闭自研架构不同，scaleX致力于打造一个开放生态，支持多品牌GPU加速卡和主流计算框架，目前已完成对400多个热门大模型及世界模型的适配与深度优化，广泛适用于AI训练推理、金融风控建模、地质勘探、科学研究等多个高精尖领域。

该集群由多个scaleX640超节点构成，每个机柜可容纳高达640张加速卡，并通过自研的scaleFabric高速网络实现互联。整套系统共集成10240张加速卡，总算力突破5EFlops（即每秒500亿亿次浮点运算），HBM显存总量超过650TB，总带宽达18PB/s以上。片间互连带宽超过4.5PB/s，柜间通信带宽也达到500TB/s以上，确保了数据在超大规模集群中的高效流通。

在硬件设计上，scaleX采用“一拖二”高密度架构，单个超节点即可实现千卡级算力集成，双计算柜组合更可扩展至1280卡规模。为应对高密度带来的散热挑战，中科曙光融合多项前沿技术，包括超高速正交结构、高密度刀片服务器、浸没式相变液冷以及高压直流供电方案，打造出业内集成度最高的液冷超节点。其中，全浸没液冷技术将服务器完全置于特制冷却液中，配合冷凝换热装置CDM，单机柜散热能力高达1.72兆瓦，PUE值低至1.04，能效表现远超传统风冷系统。值得一提的是，其子公司曙光数创已拥有139项液冷相关专利，是国内唯一实现液冷技术大规模商业化落地的企业。

网络通信方面，中科曙光自主研发的scaleFabric网络芯片成为集群性能跃升的关键。该芯片提供400Gb/s超高带宽，端到端延迟低于1微秒，交换芯片转发延迟仅260纳秒，整体通信效率较传统InfiniBand网络提升达2.33倍。结合面向超大规模组网优化的协议设计与链路可靠性增强技术，整个集群可轻松扩展至十万卡级别，同时网络建设成本降低30%，显著提升了部署经济性。

在系统优化层面，中科曙光引入“超级隧道”三级协同机制，覆盖芯片、系统到应用层的全栈调优。借助BurstBuffer缓存加速、XDS数据调度等核心技术，大模型训练与推理效率提升30%-40%，GPU资源利用率最高提升55%。此外，平台还具备AI应用亲和性和数据预加载加速能力，进一步缩短任务响应时间。在可靠性管理上，一体化智能管控系统大幅延长平均无故障时间（MTBF），缩短平均修复时间（MTTR），保障集群可用性高达99.99%，相当于每月停机时间不足4分钟，满足关键业务连续运行需求。

AI算力集群, 中科曙光scaleX, 万卡级超算, 液冷服务器, 大模型训练

本文来源：

快科技【阅读原文】

# 每日AI快讯 # 中科曙光正式公布scaleX万卡超集群：每节点640卡、总算力超500亿亿次 # 快科技

文章版权归作者所有，未经允许请勿转载。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

中科曙光正式公布scaleX万卡超集群：每节点640卡、总算力超500亿亿次

曾揭露硅谷惊天骗局《纽约时报》记者起诉谷歌、OpenAI盗用书籍训练AI

抖音播放量超1.3亿，AI动态漫开始讨好女性观众了？

相关文章

暂无评论

AI最新资讯

中科曙光正式公布scaleX万卡超集群：每节点640卡、总算力超500亿亿次

曾揭露硅谷惊天骗局 《纽约时报》记者起诉谷歌、OpenAI盗用书籍训练AI

抖音播放量超1.3亿，AI动态漫开始讨好女性观众了？

相关文章

暂无评论

AI最新资讯

曾揭露硅谷惊天骗局《纽约时报》记者起诉谷歌、OpenAI盗用书籍训练AI