百度吴镇生：边缘大模型高效推理中的精准调度与缓存优化

2026-04-28

当前，大模型应用正加速向边缘侧延伸，推理场景从中心化部署向分布式、实时化、场景化演进。随着多模态交互、智能终端协同和业务实时响应需求持续提升，边缘大模型推理对显存承载能力、请求调度效率、跨设备传输能力和系统稳定性提出更高要求。传统依赖单点算力扩容的优化方式，已难以适配边缘侧高并发、低时延、强波动的复杂场景，系统级协同优化正成为边缘推理提效的重要方向。

当前边缘大模型推理规模化落地过程中，行业普遍面临显存瓶颈、传输瓶颈、调度瓶颈和协同瓶颈四类关键挑战，其具体表现为：

一是显存瓶颈制约缓存承载能力。

边缘节点显存容量有限，热点请求集中、上下文长度增长等因素叠加，使KV Cache占用快速攀升，成为影响推理吞吐和首Token时延的重要约束。在这一背景下，如何在有限显存条件下提升缓存利用效率，已成为边缘推理优化的重要前提。

二是传输瓶颈抬升跨设备协同成本。

推理过程中频繁发生缓存搬运和阶段切换，跨设备数据传输一旦效率不足，便容易引发额外等待开销，进一步放大显存压力与推理阻塞问题。如何降低数据传输成本、减少阶段切换损耗，直接影响边缘推理系统的整体响应效率。

三是调度瓶颈影响请求路由精度。

面对高并发请求与动态资源波动，若调度机制仅依据算力空闲程度进行粗粒度分发，难以充分利用缓存命中、节点健康和实时负载等信息，容易造成实例利用不均、响应时延波动等问题。

四是协同瓶颈限制系统级提效空间。

边缘推理优化不再只是单节点上的显存管理问题，还涉及设备侧、节点侧与集群侧的分层缓存协同。只有形成多层联动机制，才能在复杂场景中兼顾性能、稳定性与资源利用率。

围绕边缘大模型推理中的关键瓶颈，分享从“数据传输—缓存调度—分层存储—集群协同”四个维度梳理了系统化提效路径：前端通过PD分离降低推理负载耦合，中间通过缓存感知调度实现精细化路由，后端通过共享缓存、多级缓存与热复制机制扩展可用缓存空间，逐步形成面向边缘场景的高效推理体系。

PD分离与高效传输协同

在PD分离环节，重点讨论了基于P2P传输的KvCache传输引擎。其核心思路是在边缘推理过程中，将Prefill与Decode阶段进行更细粒度的拆分，并通过高效的缓存搬运机制减少跨设备传输带来的等待时间，从而缓解显存压力与推理阻塞问题。

图1 基于P2P传输的KvCache传输引擎

缓存感知调度机制升级

在缓存感知调度方面，系统引入Gateway、Scheduler与推理实例协同机制：前端接入层负责高可用流量分发，调度层负责全局决策，实例侧则持续上报缓存与负载信息。这样一来，调度不再只看算力空闲程度，而是能够综合缓存命中、节点健康与负载状态进行更精准的请求路由。

640 (1).png

图2 基于负载感知的早期智能路由

共享缓存与热复制策略落地

围绕边缘节点显存受限这一突出瓶颈，分享提出了扩展共享缓存与热复制的优化思路。通过KvCache卸载、节点间共享以及高速D to H、H to D传输Kernel，系统能够在不显著增加等待时间的前提下扩展可用缓存容量，并通过热复制降低热点请求的重复构建成本。

640 (2).png

图3 共享缓存与热复制策略

多级缓存体系协同演进

从更广义的体系设计看，多级缓存不只是单节点上的显存管理问题，而是要形成从设备侧、节点侧到集群侧的分层协同。分享中的多级缓存设计展示了面向A/H系列平台的适配思路，强调通过不同层级缓存的分工与联动，提升资源利用效率并改善推理时延表现。

640 (3).png

图4 A/H系列上的多级缓存设计

结语

边缘大模型推理系统优化正在从“单点算力提升”走向“缓存协同优化”。前一阶段行业更多关注算力规模、显存容量和单机性能，下一阶段则更加关注KvCache管理、调度策略、共享缓存和系统级协同效率。对产业界而言，核心目标不再只是叠加硬件资源，而是通过缓存感知与多层缓存优化，持续提升推理吞吐、降低时延波动、增强系统稳定性与资源利用率。随着边缘推理场景不断丰富，围绕PD分离、精准调度和多级缓存协同构建高效推理体系，将成为推动边缘智算基础设施演进的重要方向。

640 (5).png

图5 整体思路总结

作者：百度在线网络技术（北京）有限公司，算法工程师，吴镇生

ODCC边缘计算工作组联系人

周曼 13810136860(微信同号)邮箱: zhouman@caict.ac.cn

何绪东 17801778925(微信同号)邮箱: hexudong@caict.ac.cn

640 (6).png

640 (7).png

上一篇：算力网络“新标尺”——AI集群网络健康度指标与评测体系

NEWS INFORMATION新闻动态

百度吴镇生：边缘大模型高效推理中的精准调度与缓存优化

联系我们