【ODCC技术】CXL:破解AI算力内存瓶颈的关键路径
随着人工智能模型的高速发展,内存墙问题日益凸显。近年来,AI模型参数规模呈指数级增长,对硬件系统尤其是存储类硬件提出了严峻挑战。
以当前主流的混合专家(MoE)架构为例,该类模型通过专家路由实现稀疏激活,虽能以较低计算成本获得更高参数量,但其庞大的专家参数需全部加载至GPU HBM,对HBM容量构成巨大压力。图神经网络(GNN)在处理超大规模图数据时,亦需将海量数据载入GPU。在此背景下,无论是GPU HBM还是DRAM,内存墙已成为制约AI算力体系发展的新型瓶颈。
CXL(Compute Express Link)作为一种诞生于数据中心领域的高速互连协议,正被视为突破上述瓶颈的关键技术。
一、CXL技术概述
(一)技术概述
CXL是一种面向未来计算架构的高速互联技术,最初由英特尔与AMD联合发起,后续获得谷歌、微软等科技巨头的广泛支持。该技术基于PCIe物理层,具备极高的传输速率与极低的访问延迟,可实现外部内存“如本地内存般”被高效访问。

来源:《基于CXL 方案的AI应用优化与研究》
(ODCC-2025-01003)
图1 CXL协议三种模式结构示意图
(二)技术特点
CXL协议通过引入内存一致性、缓存共享等创新机制,为现代计算架构带来了显著优势。其主要技术特点包括:一是高带宽与低延迟,依托PCIe物理层实现内存级访问性能,有效扩展内存带宽与容量;二是支持内存池化与共享,允许多台服务器动态调度或共同访问同一内存资源,提升整体利用率;三是具备良好的协议兼容性,可无缝衔接现有PCIe生态,降低系统升级与部署成本;四是支持异构计算协同,能够高效连接CPU、GPU、加速器及内存扩展设备,为AI等数据密集型场景提供统一的高性能互联底座。
二、基于CMM-D的AI解决方案:ODCC-2025-01003实践解析
为系统验证CXL技术在AI场景中的实际应用价值,由三星电子牵头,联合开放数据中心委员会(ODCC)、中国信息通信研究院、华瑞数鑫科技有限公司及中国移动通信集团有限公司,共同开展了《基于CXL 方案的AI应用优化与研究》(ODCC-2025-01003)项目。
该项目核心基于三星电子的符合CXL 2.0规范的CMM-D(CXL Memory Module-DRAM)内存扩展模块,围绕典型AI场景进行了系统性的方案设计与性能评估。
(一) 场景一:MoE推理
MoE模型的核心痛点在于专家参数的内存占用过高。现有解决路径或依赖多块GPU扩展HBM,或使用DRAM存储额外专家参数,进一步加剧DRAM空间紧张。针对上述问题,该项目提出CMM-D MoE方案,具体架构如图2所示。
该方案的核心思路为:将专家参数卸载至CMM-D,在GPU计算当前层时,异步预取下一层所需专家参数,从而在降低GPU HBM占用的同时,保持较低的性能损耗。具体实现采用以下三项关键技术:
1. 三层存储:构建由CMM-D、DRAM和GPU HBM组成的三层存储系统,扩展存储容量的同时确保较高的系统性能。
2. 基于预测的预取:根据当前层隐藏参数预测下一层所需专家,实现精准预取。
3. CPU专家计算:将部分专家参数在CPU中进行计算,减少由于数据传输带来的额外时间消耗。

图2 CMM-D MoE方案架构图
测试结果表明:在相同环境下,相较于纯GPU方案,CMM-D MoE方案可节省高达82%的GPU HBM使用量;相较于参数卸载基准方案,性能提升约6.6倍,充分验证了其在存储受限场景下的实用价值。

图3 CMM-D MoE方案性能对比
Baseline: 参数卸载基准方案,即无额外性能优化的参数卸载方案
CMM-D Solution: 带有性能优化的基于CMM-D的参数卸载方案
测试环境:CPU: Intel(R) Xeon(R) Platinum 8452Y, DRAM: 128GB, CMM-D: 128GB, GPU: Nvidia Tesla A100 40GB, OS: Ubuntu 20.04. Kernel: 5.4. CUDA: 11.8.0. 模型:DeepSeek V2-lite,数据集: WikiText-103
(二)场景二:图神经网络训练
GNN训练的核心挑战在于超大规模图数据的特征存储。当图的节点特征数据无法全部载入GPU显存及主机DRAM时,通常需卸载至SSD。然而,GNN特征数据的访问模式呈现细粒度、高随机性特征,单次请求数据量小但访问频次极高。数据卸载至SSD后,其访问延迟可达DRAM的数百倍,且读写粒度较大,导致特征读取延迟显著放大,成为训练速度的关键瓶颈。
针对上述问题,该项目提出CMM-D GNN方案,具体如图4所示。该方案的核心创新在于将图结构及特征数据卸载到CMM-D上,并结合针对CMM-D的预取优化,加速GNN的训练。

图4 CMM-D GNN 方案架构
方案的核心设计包括:
1. 基于CMM-D的数据卸载:图结构和特征数据统一放置在 CMM-D 上,访问延迟接近内存。
2. 预取机制:在GPU处理上一批的数据(Batch T)的同时,下一批的数据(Batch T+1)完成检索并提前预取到GPU。因此,计算与传输实现了重叠,GPU无需等待数据传输。
3. UVA 直接访问:方案利用统一虚拟寻址(Unified Virtual Addressing,UVA)技术,将CMM-D 地址直接映射为 GPU 可见地址,从而消除了传统方案中“先凑成连续块,再传进 GPU”的两次拷贝开销。
4. 双线程并行: 主线程负责整体训练逻辑,包括从预取队列中获取数据并执行前向传播、反向传播、参数更新等;预取线程在CMM-D上执行采样与检索,将特征数据通过UVA传送至GPU内存,并通知主线程下一批次数据已就绪。
性能评估结果显示,相较于基于SSD的GNN训练方案,CMM-D GNN方案在各Epoch的平均训练时长上实现了约4倍的效率提升,成功避免了SSD高延迟对训练系统的影响。

图5 CMM-D GNN性能测试结果
SSD Solution: 基于SSD的GNN训练方案(GIDS, Accelerating Sampling and Aggregation Operations in GNN Frameworks with GPU Initiated Direct Storage Accesses. VLDB 2024)
CMM-D Solution: 带有性能优化的基于CMM-D的GNN训练方案
测试环境:CPU: Intel(R) Xeon(R) Gold 6430. DRAM: 256GB, CMM-D: 128GB, GPU: Nvidia Tesla A100 80GB, OS: Ubuntu 22.04. Kernel: 6.9.7. CUDA: 12.2. 模型: GraphSAGE, 数据集: OGBN-Papers100M
三、总结与展望:CXL的未来方向
从短期来看,随着CXL协议的推进,CXL技术将向两大方向演进:
1. CXL Memory Pooling(内存池化):跨服务器动态调度内存资源,结合AI算法实现智能分配,提高系统整体内存利用率。
2. CXL Memory Sharing(内存共享):CXL可以使不同服务器访问同一片内存区域,从而达成数据共享,搭配合理的系统设计方案,可以避免网络传输带来的开销,进而提升系统性能。
从长期来看,CXL有望推动数据中心架构的根本性变革,使其从以计算为中心逐步演进至以内存/存储为中心,帮助AI开发者以更低成本、更高效率完成大模型的训练与部署。随着CXL生态的日益成熟,该技术将成为未来数据中心不可或缺的关键基础设施。
作者
1.李宇涛 yutao.li@samsung.com
2.杨 攀 pan87.yang@samsung.com
3.豆 坤 kun.dou@samsung.com
4.段世茹 duanshiru@caict.ac.cn
审核
谢丽娜 xielina@caict.ac.cn



