00:00 / 01:54
连播
清屏
智能
倍速
点赞4
00:00 / 05:59
连播
清屏
智能
倍速
点赞2
00:00 / 01:57
连播
清屏
智能
倍速
点赞67
DeepSeekV4前夕与北京大学清华大学联合发布重磅论文 DeepSeek联合清北发布DualPath系统:突破智能体推理I/O瓶颈 DeepSeek与北京大学、清华大学联合发布重磅论文,提出全新大模型推理系统DualPath,成功解决智能体应用中的存储I/O瓶颈问题,将推理吞吐量提升近一倍。 问题根源:智能体场景下的I/O失衡 当大模型进化为多轮交互的智能体时,计算瓶颈从GPU算力转向存储I/O带宽。由于每次只追加少量Token,KV-Cache命中率超过95%,GPU大量时间浪费在等待从外部存储读取海量历史数据。现有架构中,所有KV-Cache都从预填充节点加载,导致其存储网卡带宽饱和,而解码节点带宽闲置。 双路径创新:全局带宽资源池化 DualPath系统创新性地引入“存储->预填充”和“存储->解码->预填充”双路径加载机制。通过动态分配两条路径的数据流量,系统成功聚合所有节点的存储带宽,将离线推理吞吐量提升最高1.87倍,在线服务吞吐量平均提升1.96倍。 关键技术突破 流量隔离:利用InfiniBand虚拟通道机制,将模型推理通信分配至高优先级通道,KV-Cache传输在计算网络空闲间隙进行,避免相互干扰。 动态调度:自适应请求调度器实时监控节点负载,基于Token数量和网卡队列长度智能分配任务,最大化资源利用率。 大规模验证效果 在1152张GPU集群的测试中,系统支持DeepSeek-V3.2 660B等大模型,在线服务场景下请求处理能力提升最高2.25倍,且保持严格的延迟服务等级协议。系统展现出优秀的扩展性,为智能体时代的大模型推理奠定了坚实基础。 这项研究标志着大模型基础设施的重要突破,为即将到来的智能体普及扫清了性能障碍。
00:00 / 09:09
连播
清屏
智能
倍速
点赞86
00:00 / 02:51
连播
清屏
智能
倍速
点赞233
00:00 / 00:13
连播
清屏
智能
倍速
点赞15
00:00 / 01:51
连播
清屏
智能
倍速
点赞54
00:00 / 00:10
连播
清屏
智能
倍速
点赞12
00:00 / 04:52
连播
清屏
智能
倍速
点赞251
00:00 / 02:15
连播
清屏
智能
倍速
点赞42