3月9日电,据海光信息官微9日消息,近日,上海人工智能实验室推出DeepLink多元算力混合推理加速方案(简称“DeepLink混推方案”),并携手海光DCU开展混合调度与协同推理等相关测试,为全面迈向AGI筑牢国产算力基座。
该方案通过创新的“预填充-解码分离”架构,首次实现了对昇腾、沐曦、平头哥、壁仞等多款国产芯片的混合调度与协同推理,在千卡规模实测中,推理时延最大优化34.5%,吞吐提升32%,让异构算力真正实现“1+1>2”的效能跃升。
技术底座:四大核心组件 DeepLink混推方案并非简单的硬件堆叠,其背后是一套完整的软件技术栈,旨在打通上层应用与底层多元硬件的壁垒。 ️ DLInfer:统一的推理中间件 作为软硬件协同的“翻译官”,DLInfer通过标准化的融合算子接口,屏蔽了底层不同芯片的硬件差异。它已兼容InternLM、Qwen、DeepSeek等主流大模型,并支持超过5款国产硬件接入。其提供的Eager和Graph两种执行模式,分别满足快速调试和极致性能优化的需求。
DLSlime:高速通信库 这是实现跨芯片高效协同的“神经网络”。DLSlime全面兼容RDMA、NVLink等主流高速互联协议,在核心场景下带宽利用率可突破97%。其异步处理能力能实现计算与通信的重叠,大幅降低传输延迟,是异构集群高效协作的关键。 DLRouter:智能流量路由系统 扮演着“智能交通指挥官”的角色。它支持基于KV Cache感知的请求路由,能智能地将计算任务分发到最合适的芯片上,最大限度减少重复计算,实现集群负载的均衡分配。
DLSolver:策略求解器 这是方案的“智慧大脑”。它能自动获取异构芯片的全面评测数据,结合具体的模型配置和用户设定的服务等级目标,动态匹配并求解出最优的“预填充-解码”任务分离配置策略,在性能和成本间找到最佳平衡点。
核心原理:PD分离与异构协同 方案的核心创新在于将大模型推理的两个关键阶段——预填充(Prefill)和解码(Decode)——进行物理层面的分离,并部署到特性最匹配的芯片上。
DeepLink的解法:将此类任务调度到高带宽或大显存芯片(如部分推理卡或旧款高显存卡)组成的集群上。多张此类芯片通过张量并行(TP)互联,能低成本地提供海量的KV Cache读写吞吐。 协同流程:预填充集群快速完成计算后,通过DLSlime高速通信库,将生成的KV Cache“搬运”至解码集群。解码集群则调用针对PagedAttention等算子深度优化的内核,高效完成文本生成。这种“田忌赛马”式的资源适配,实现了整体成本(TCO)的优化和效能的倍增。 实测效能与产业落地
正如团队所言:“硬件决定了性能的上限,而软件栈决定了我们能多大程度逼近这个上限。” DeepLink混推方案正是通过软件定义的创新,试图在国产算力的“战国时代”,画下一条通向高效协同的未来路线图。
