阿里云新技术砍掉82%英伟达需求阿里云用213块GPU干了1192块的活阿里云秘

阿里云新技术砍掉82%英伟达需求阿里云用213块GPU干了1192块的活

阿里云秘密武器亮相顶会SOSP：用新技术砍掉82%的英伟达GPU需求。

一时引起不小关注与讨论。【图1】

这项研究由阿里巴巴与北大合作，阿里云CTO周靖人带队。

研究提出最新GPU池化系统Aegaeon，用token级别的自动扩缩容技术，硬是把GPU使用量从1192个"瘦身"到213个。【图2】

这项研究出发点在对阿里云自身业务一项观察。

在Model Studio（百炼平台）上，他们发现了一个让人头疼的现象：17.7%的GPU被分配去服务那些几乎没人用的冷门模型，而这些模型只处理了总请求量的1.35%。

之前要同时运行这些模型时，要么给每个模型单独分配GP，很多冷门模型的GPU经常空着浪费，要么用旧方法让一个GPU跑2-3个模型（因为GPU 内存不够，跑不了更多），总之资源利用率特别低。

Aegaeon瞄准这一痛点，通过精细化的资源调度，彻底改变了GPU资源分配的游戏规则。

具体来说，在他们统计的779个模型中，有94.1%的模型属于长尾模型，平均每秒请求量不到0.2个。【图3】

与此同时，那些热门模型比如DeepSeek和通义千问虽然请求量大，但也经常出现突发流量，导致预留的GPU资源时而过载、时而闲置。

如果按照理想情况计算，单个GPU每秒应该能处理好几个请求，这意味着当前的资源利用率还有超过10倍的优化空间。【图4】

传统的做法是给每个模型分配专用GPU，但这种"一对一"的服务模式在面对大量偶发性请求时，简直就是在烧钱。

Token级别调度，让GPU"见缝插针"

Aegaeon的核心创新在于采用了token级别的自动扩缩容技术，而不是像现有系统那样在请求级别进行调度。

具体来说，系统会在生成每个token时动态决定是否需要切换模型，而不是等到整个请求处理完才考虑切换。

如此一来，可以让让GPU灵活处理多个模型的请求，大大减少了模型之间的等待时间。论文显示，通过这种方式，单个GPU可以同时服务多达7个不同的模型。【图5】

为了实现这个目标，研究团队还进行了一系列底层优化：

- 通过组件复用减少了80%的初始化开销；

- 采用显式内存管理避免了内存碎片；

- 实现了细粒度的KV缓存同步机制，让模型切换时间从几十秒缩短到1秒以内。

整体来看，这些优化将自动扩缩容的开销降低了97%。【图6】

Aegaeon展现出最高可达9倍的性能提升，最低也有1.5倍，计算资源得到了极大的优化。

根据论文数据，与现有的ServerlessLLM和MuxServe等系统相比，Aegaeon能够支撑2-2.5倍的请求到达率，有效吞吐量（goodput）提升了1.5到9倍。在测试环境中，使用16块H800 GPU的集群，系统成功服务了从6B到72B参数规模的多个模型。【图7】

更重要的是，这套系统已经在阿里云百炼平台进行了超过3个月的生产环境测试。

在实际部署中，它服务了47个不同规模的模型，包括28个1.8B-7B的小模型和19个32B-72B的大模型。GPU利用率从之前的13.3%-33.9%提升到了48.1%，期间没有出现任何SLO违规或服务中断。【图8】

论文地址：

0 阅读：0

美国同意英伟达的芯片只要回到国内建厂，就能卖给中国。一出政策，中国立马反击：只要