(由多段落组成):
在2025年于韩国首尔举行的全球顶级系统领域学术盛会SOSP上,阿里云重磅推出了一项名为“Aegaeon”的创新性计算资源池化架构。这一技术突破旨在应对当前人工智能大模型服务中普遍存在的GPU利用率低下问题,特别是在面对流量波动剧烈、请求不可预测的大型语言模型应用场景时,展现出极强的适应能力与优化潜力。
传统的AI推理服务通常采用“一模型一GPU”的固定分配模式,导致大量显卡资源在空闲或低负载状态下被闲置,造成严重的硬件浪费。Aegaeon通过引入Token级别的细粒度调度机制,彻底颠覆了这种低效架构。该方案实现了GPU资源的虚拟化共享,允许多个不同的大模型在同一张GPU上按需切换执行任务,从而大幅提升硬件利用效率。
作为一款面向推理阶段的智能调度系统,Aegaeon能够在每个输出token生成之后,实时判断是否需要进行模型切换,并将微小的计算任务精准地调度至共享资源池中。依托组件复用、显存动态管理以及KV缓存同步优化等全栈式技术创新,系统成功将模型间切换带来的性能开销降低了97%,实现亚毫秒级响应速度,确保用户体验不受影响。
在长达三个多月的内部测试中,Aegaeon部署于阿里云模型市场,稳定运行数十个参数规模高达720亿的大型语言模型。实测数据显示,原本需要1192块NVIDIA H20 GPU才能支撑的服务负载,如今仅需213块即可完成,GPU使用量减少达82%。这一成果不仅验证了技术可行性,更凸显其在降本增效方面的巨大商业价值。
随着AI模型日益普及和推理需求持续增长,算力成本已成为制约行业发展的关键瓶颈。Aegaeon的推出为大规模模型服务提供了全新的资源调度范式,目前已深度集成至阿里云百炼平台,助力企业以更低的成本实现高性能AI推理服务。未来,该技术有望成为云服务商优化AI基础设施的核心工具之一。
阿里云,Aegaeon,大模型推理,GPU资源优化,算力调度
本文来源:
快科技【阅读原文】

