上海人工智能实验室推出DeepLink多元算力混合推理加速方案

AI新视界 2026-03-10 15:13:47

3月9日电，据海光信息官微9日消息，近日，上海人工智能实验室推出DeepLink多元算力混合推理加速方案（简称“DeepLink混推方案”），并携手海光DCU开展混合调度与协同推理等相关测试，为全面迈向AGI筑牢国产算力基座。

该方案通过创新的“预填充-解码分离”架构，首次实现了对昇腾、沐曦、平头哥、壁仞等多款国产芯片的混合调度与协同推理，在千卡规模实测中，推理时延最大优化34.5%，吞吐提升32%，让异构算力真正实现“1+1>2”的效能跃升。

技术底座：四大核心组件 DeepLink混推方案并非简单的硬件堆叠，其背后是一套完整的软件技术栈，旨在打通上层应用与底层多元硬件的壁垒。 ️ DLInfer：统一的推理中间件作为软硬件协同的“翻译官”，DLInfer通过标准化的融合算子接口，屏蔽了底层不同芯片的硬件差异。它已兼容InternLM、Qwen、DeepSeek等主流大模型，并支持超过5款国产硬件接入。其提供的Eager和Graph两种执行模式，分别满足快速调试和极致性能优化的需求。

DLSlime：高速通信库这是实现跨芯片高效协同的“神经网络”。DLSlime全面兼容RDMA、NVLink等主流高速互联协议，在核心场景下带宽利用率可突破97%。其异步处理能力能实现计算与通信的重叠，大幅降低传输延迟，是异构集群高效协作的关键。 DLRouter：智能流量路由系统扮演着“智能交通指挥官”的角色。它支持基于KV Cache感知的请求路由，能智能地将计算任务分发到最合适的芯片上，最大限度减少重复计算，实现集群负载的均衡分配。

DLSolver：策略求解器这是方案的“智慧大脑”。它能自动获取异构芯片的全面评测数据，结合具体的模型配置和用户设定的服务等级目标，动态匹配并求解出最优的“预填充-解码”任务分离配置策略，在性能和成本间找到最佳平衡点。

核心原理：PD分离与异构协同方案的核心创新在于将大模型推理的两个关键阶段——预填充（Prefill）和解码（Decode）——进行物理层面的分离，并部署到特性最匹配的芯片上。

DeepLink的解法：将此类任务调度到高带宽或大显存芯片（如部分推理卡或旧款高显存卡）组成的集群上。多张此类芯片通过张量并行（TP）互联，能低成本地提供海量的KV Cache读写吞吐。协同流程：预填充集群快速完成计算后，通过DLSlime高速通信库，将生成的KV Cache“搬运”至解码集群。解码集群则调用针对PagedAttention等算子深度优化的内核，高效完成文本生成。这种“田忌赛马”式的资源适配，实现了整体成本（TCO）的优化和效能的倍增。实测效能与产业落地

正如团队所言：“硬件决定了性能的上限，而软件栈决定了我们能多大程度逼近这个上限。” DeepLink混推方案正是通过软件定义的创新，试图在国产算力的“战国时代”，画下一条通向高效协同的未来路线图。