聚合计算+ CXL：并行实例KV Cache共享机制探索

2026-04-21

聚合计算+ CXL

大模型推理正迈入“规模化、持续化、在线化”的新阶段：越来越多的业务场景从离线评测转向实时在线服务，部署模式也由单点实例演进为支持多租户、多实例、高并发的集群架构。在此过程中，推理成本与端到端时延成为制约落地成效的关键因素—尤其在长上下文处理、多轮对话、检索增强生成(RAG)以及智能体编排等复杂应用中，KV Cache(Key/Value Cache)对显存与系统内存的占用急剧增长，已成为限制系统吞吐能力与运营成本的核心瓶颈之一。

在此背景下，面向AI云原生基础设施的“聚合计算”架构正在重新定义算力与存力的供给范式。通过CXL(Compute Express Link)等新一代高速互连技术，异构硬件资源得以统一池化并实现细粒度的弹性调度，使计算与内存资源具备类似“水电”般的按需分配与动态流动能力。

本文以“聚合计算 + CXL扩展内存”为技术切入点，探讨其在多推理Pod环境下实现KV Cache共享的潜在价值、概念架构及关键工程实现要点，旨在为相关技术路径的探索与实践提供参考。

一、多推理 Pod 的 KV Cache痛点分析

在大模型推理中，KV Cache 用于保存历史token的注意力中间结果，避免每次生成都从头计算。KV Cache 的规模通常随上下文长度、batch、并发会话数、模型层数与隐藏维度线性或近线性增长，具有如下特征：

上下文越长，KV Cache 越大;

并发请求越多，KV Cache 叠加越快。

由于 KV Cache 通常驻留在 GPU 显存或主机内存中，系统资源极易迅速耗尽。

在Kubernetes +多推理 Pod(多副本)形态下，常见问题会被进一步放大：

集群冗余浪费：同一模型为保障高可用与弹性扩缩容而部署多个副本时，每个 Pod 独立维护各自的 KV Cache，导致缓存空间大量重叠，形成集群层面的资源冗余。

显存/内存瓶颈抑制吞吐：为给KV Cache腾出空间，实例不得不压缩批次大小、截断上下文或触发高频缓存淘汰，进而拖累整体吞吐量与响应时延。

热数据跨实例复用困难：同一用户会话、多轮对话延续、相同知识库检索路径等场景下的相似上下文，因缓存分散在不同副本而难以共用，造成计算与存储开销的重复。

因此，推理系统真正欠缺的并非单纯的存储容量增加，而是一种能够实现缓存池化、跨实例共享、按需弹性供给的内存能力。

二、聚合计算 + CXL：“内存即服务（MaaS）”模式探索

聚合计算强调“资源池化 + 软硬协同”，把原本绑定在单机上的 CPU/GPU/内存/存储/网络资源，解耦并纳入统一编排。

映射到推理场景中，可以理解为：

把内存从“某台服务器上的固定容量”变成“集群级可调度资源”;

通过高速互联(如 CXL)把扩展内存纳入可访问域，提供更接近本地的时延/带宽特性;

由软件栈(虚拟化/容器运行时/内存管理/调度器)实现低延迟访问、配额隔离、弹性伸缩与可观测计量。

从推理过程中键值缓存(KV Cache)的共享与外置视角出发，CXL(Compute Express Link)技术通过将内存资源从主板解耦，使其成为可平台化调度与交付的基础设施级资源。该能力在大模型推理场景中的价值主要体现在以下三个方面：

更接近本地内存的访问特性：相对传统网络远端内存，CXL 在时延与带宽上更有优势;

内存池化（Memory Pooling）：将多块内存资源统一成池化能力，按需切分与分配;

为共享/一致性提供硬件基础（视模式与实现）：在合适的 CXL 模式与软硬件实现下，为多计算端访问同一片扩展内存资源提供更好的基础。

三、概念架构：多推理Pod的KV Cache共享（Cache-as-a-Service+ MaaS）

下图为一种基于 CXL DDR4 内存池的参考架构，用于分析 KV Cache 由进程内私有缓存向集群级共享缓存的演进机制。

640 (1).png

#1 资源层：CXL DDR4 内存池

算力中心部署CXL内存扩展设备(DDR4)，形成可切分的内存资源池，通过聚合计算基础设施把内存池纳入统一管理、监控、计量与调度，可支持按租户/按命名空间隔离，按Pod/按服务等级弹性分配。

#2 平台层：KV Cache 共享服务

（Cache-as-a-Service）

在集群内提供一个“KV Cache 共享服务”，核心能力包括：

Cache 分片与索引：按模型/会话/请求特征或 token 序列组织;

生命周期管理：TTL、LRU、冷热分级策略、回收;

并发控制：多 Pod 同时读写时的锁/版本/幂等机制;

安全隔离与审计：租户隔离、访问控制、用量审计。

关键变化在于：KV Cache 从“Pod 私有状态”走向“平台共享状态”。

#3 工作负载层：多推理 Pod（多副本、多实例）

在该架构中，每个推理Pod仍承担模型加载与计算任务，但无需为所有会话维护完整的KV Cache，而是采用分层与外置策略：将高频访问的热KV Cache保留在本地高速存储介质(如 HBM 或本机 DDR)中，而将低频或可跨会话共享的冷KV Cache卸载至基于CXL 互联的远程内存池。当需要访问外置缓存时，可通过低开销的地址映射或直接内存访问机制高效获取，从而在保障性能的同时提升内存资源利用率。

640 (2).png