pytorch官博:的 Mooncake 正式加入 PyTorch 生态系统pytorch.org/blog/mooncake-joins-pytorch-ecosystem/
"我们非常高兴地宣布,Mooncake 正式加入 PyTorch 生态系统!通过将 Mooncake 高性能的 KVCache 传输和存储能力与 SGLang、vLLM 和 TensorRT-LLM 等 PyTorch 原生推理引擎相结合,我们正在为大语言模型的部署解锁更高水平的吞吐量和可扩展性。
关于 MooncakeMooncake 旨在解决 LLM 服务中的“内存墙(memory wall)”问题。随着上下文长度的增加和模型规模的扩大,键值(KV)缓存与特定 GPU 工作节点(worker)的静态绑定已成为主要的瓶颈。
Mooncake 赋能推理引擎打破这种绑定,解锁了四项关键能力:
🌟(Encoder) 预填充-解码分离(Prefill-Decode Disaggregation): Mooncake 高性能的传输引擎(Transfer Engine)将计算密集型的预填充(prefill/encoder)阶段与对延迟敏感的生成(decoding)阶段分离到不同的集群中。
🌟全局 KVCache 复用: 通过充当 KV 块的分布式共享内存,Mooncake Store 使得有效的缓存在不同请求和引擎实例之间实现全局复用。
🌟弹性专家并行(Elastic Expert Parallelism): 通过将专家(experts)与特定工作节点解耦,Mooncake-EP 实现了弹性和高可用的服务。在混合专家(MoE)模型中,专家可以被动态路由或恢复,从而确保即使在部分节点故障期间也能保持高可用性。
🌟 PyTorch 分布式后端: Mooncake Backend 作为一个容错的 PyTorch 分布式后端运行。它提供了强大的集合通信原语,能够在出现 Rank 故障时无缝继续运行。
🌟权重更新: Mooncake Store 通过在内部存储权重,支持强化学习(RL)和检查点(checkpoint)场景下的快速权重更新。它提供了张量原生(tensor-native)和零拷贝 API。"
HOW I AI
