阿里云称其GPU池化系统可减少82%的GPU使用率,提升9倍输出
GPU池化:阿里云的Aegaeon系统实现显著资源优化
阿里云近日宣布,通过其名为“Aegaeon”的GPU池化系统,成功减少了高达82%的GPU需求,从而显著提升了云端服务的处理能力。这项创新成果已在2025年ACM操作系统研讨会(SOSP)上分享,展示了该系统如何在不确定和突发的并发推理任务中,利用更少的GPU芯片处理更多模型请求。
在论文中,阿里云阐述了其GPU池化技术的核心优势,特别是在处理“专用GPU实例的并发推理工作负载”时的表现。与现有的多模型服务方案相比,Aegaeon采用了更精细的资源调度和自适应伸缩机制,能够将GPU的使用效率提升至新的水平。
GPU池化的新突破:Aegaeon实现每GPU支持最多7个模型
传统的GPU池化方法,如多重复用和自动扩展,通常只能支持2-3个模型并行运行,这受到GPU内存容量的限制。然而,Aegaeon系统采用了一种名为“基于令牌的自动伸缩”方法,使得每个GPU能够高效地支持最多七个模型。
Aegaeon的自适应伸缩机制能够根据每个模型的请求“令牌”粒度,动态调整计算资源,避免了高延迟阻塞(HOL blocking),实现了GPU池化的最佳效果。根据阿里云的测试,Aegaeon在多个模型、超过720亿个参数的负载下,表现出1.5倍至9倍的性能提升。
大规模测试与资源优化:82%减少GPU需求
阿里云表示,Aegaeon已经在其模型市场中进行Beta部署,处理了数十个不同的模型。通过这一技术,阿里云将所需GPU数量从1,192个减少到213个,实现了82%的GPU需求削减。这一创新不仅提升了计算效率,还减少了因低频调用模型所占用的闲置GPU资源。
论文中指出,现有的方法,如多重复用和自动扩展,虽然有助于提高资源使用率,但对于频繁调用的模型来说,仍然存在大量的资源浪费。相比之下,Aegaeon通过动态扩展和缩减,能够更智能地分配GPU资源,显著提升计算能力和服务响应速度。
Aegaeon技术背后的硬件支持与测试环境
为了验证其GPU池化技术的效果,阿里云在两台节点上使用了总共16个Nvidia H800 80GB GPU,配备了2TB DDR5内存和192个Intel Xeon Platinum 8469C CPU。根据测试结果,Aegaeon能够在高负载情况下保持较低的GPU占用率,且实现显著的性能提升。
阿里云还为其测试环境配备了eRDMA弹性RDMA网络,这为GPU池化提供了更高效的数据传输通道,进一步优化了整体性能。
行业反响与未来展望
尽管Aegaeon的GPU池化技术取得了显著进展,但这一技术的突破尚未在行业内引起与DeepSeek所发布的V3模型类似的震动。美国的超大规模云服务商通常不公开其GPU优化的“秘方”,因此业内可能已在类似的解决方案上有所部署。
尽管如此,阿里云Aegaeon系统的成功应用为GPU资源的高效利用和AI计算任务的优化提供了新的思路,也为未来云计算和大规模AI模型部署提供了参考。




