[25'ODCC成果]KV Cache关键技术研究

2025-09-09

当大模型参数规模突破万亿级，实时推理响应速度进入毫秒级竞赛，一个曾被忽略的环节正成为智算技术突破的核心瓶颈——KV Cache的存储效能。在人工智能向产业深度渗透的今天，大模型推理对 KV Cache 的容量、速度与稳定性提出了前所未有的要求。基于此，ODCC存储技术特设组编制了《KV Cache关键技术研究》白皮书。

白皮书综合存储缓存介质，网络传输，软件栈及算法，性能收益测评等新型技术，对KV Cache中和存储相关的技术挑战展开分析，结合工业实践和人工智能发展趋势提出存储产业促进智算技术发展倡议。未来，KV Cache技术将深度融合存储硬件创新、网络传输创新与分布式架构，形成“多级缓存+统一内存语义+智能调度”的技术矩阵，成为突破AI推理算力墙的核心支柱。

1.KV Cache技术研究背景

KV Cache是推理算力提升的代表性技术。传统推理框架(如TensorFlow Serving)采用静态计算图模式，存在内存占用高、实时性差等缺陷。随着Transformer架构的爆发式应用，自回归推理成为主流，PD分离(Prefill-Decode Disaggregation) 是优化‌自回归生成架构的大语言模型(LLM)推理流程‌而诞生的关键技术，旨在将推理过程拆分为预填充(Prefill)和解码(Decode)两个独立阶段，以提高资源利用率和降低推理延迟。

微信图片_2025-09-09_120156_275.png