NEWS INFORMATION新闻动态

关注微信公众号

首页 > 新闻动态 > 工作组动态

【ODCC技术】CXL：破解AI算力内存瓶颈的关键路径

2026-06-12

随着人工智能模型的高速发展，内存墙问题日益凸显。近年来，AI模型参数规模呈指数级增长，对硬件系统尤其是存储类硬件提出了严峻挑战。

以当前主流的混合专家(MoE)架构为例，该类模型通过专家路由实现稀疏激活，虽能以较低计算成本获得更高参数量，但其庞大的专家参数需全部加载至GPU HBM，对HBM容量构成巨大压力。图神经网络(GNN)在处理超大规模图数据时，亦需将海量数据载入GPU。在此背景下，无论是GPU HBM还是DRAM，内存墙已成为制约AI算力体系发展的新型瓶颈。

CXL（Compute Express Link）作为一种诞生于数据中心领域的高速互连协议，正被视为突破上述瓶颈的关键技术。

一、CXL技术概述

（一）技术概述

CXL是一种面向未来计算架构的高速互联技术，最初由英特尔与AMD联合发起，后续获得谷歌、微软等科技巨头的广泛支持。该技术基于PCIe物理层，具备极高的传输速率与极低的访问延迟，可实现外部内存“如本地内存般”被高效访问。

来源：《基于CXL 方案的AI应用优化与研究》

(ODCC-2025-01003)

图1 CXL协议三种模式结构示意图

（二）技术特点

CXL协议通过引入内存一致性、缓存共享等创新机制，为现代计算架构带来了显著优势。其主要技术特点包括：一是高带宽与低延迟，依托PCIe物理层实现内存级访问性能，有效扩展内存带宽与容量;二是支持内存池化与共享，允许多台服务器动态调度或共同访问同一内存资源，提升整体利用率;三是具备良好的协议兼容性，可无缝衔接现有PCIe生态，降低系统升级与部署成本;四是支持异构计算协同，能够高效连接CPU、GPU、加速器及内存扩展设备，为AI等数据密集型场景提供统一的高性能互联底座。

二、基于CMM-D的AI解决方案：ODCC-2025-01003实践解析

为系统验证CXL技术在AI场景中的实际应用价值，由三星电子牵头，联合开放数据中心委员会(ODCC)、中国信息通信研究院、华瑞数鑫科技有限公司及中国移动通信集团有限公司，共同开展了《基于CXL 方案的AI应用优化与研究》(ODCC-2025-01003)项目。

该项目核心基于三星电子的符合CXL 2.0规范的CMM-D(CXL Memory Module-DRAM)内存扩展模块，围绕典型AI场景进行了系统性的方案设计与性能评估。

（一）场景一：MoE推理

MoE模型的核心痛点在于专家参数的内存占用过高。现有解决路径或依赖多块GPU扩展HBM，或使用DRAM存储额外专家参数，进一步加剧DRAM空间紧张。针对上述问题，该项目提出CMM-D MoE方案，具体架构如图2所示。

该方案的核心思路为：将专家参数卸载至CMM-D，在GPU计算当前层时，异步预取下一层所需专家参数，从而在降低GPU HBM占用的同时，保持较低的性能损耗。具体实现采用以下三项关键技术：

1. 三层存储：构建由CMM-D、DRAM和GPU HBM组成的三层存储系统，扩展存储容量的同时确保较高的系统性能。

2. 基于预测的预取：根据当前层隐藏参数预测下一层所需专家，实现精准预取。

3. CPU专家计算：将部分专家参数在CPU中进行计算，减少由于数据传输带来的额外时间消耗。

640 (1).png

图2 CMM-D MoE方案架构图

测试结果表明：在相同环境下，相较于纯GPU方案，CMM-D MoE方案可节省高达82%的GPU HBM使用量;相较于参数卸载基准方案，性能提升约6.6倍，充分验证了其在存储受限场景下的实用价值。

640 (2).png

图3 CMM-D MoE方案性能对比

Baseline: 参数卸载基准方案，即无额外性能优化的参数卸载方案

CMM-D Solution: 带有性能优化的基于CMM-D的参数卸载方案

测试环境：CPU: Intel(R) Xeon(R) Platinum 8452Y, DRAM: 128GB, CMM-D: 128GB, GPU: Nvidia Tesla A100 40GB, OS: Ubuntu 20.04. Kernel: 5.4. CUDA: 11.8.0. 模型：DeepSeek V2-lite，数据集: WikiText-103

（二）场景二：图神经网络训练

GNN训练的核心挑战在于超大规模图数据的特征存储。当图的节点特征数据无法全部载入GPU显存及主机DRAM时，通常需卸载至SSD。然而，GNN特征数据的访问模式呈现细粒度、高随机性特征，单次请求数据量小但访问频次极高。数据卸载至SSD后，其访问延迟可达DRAM的数百倍，且读写粒度较大，导致特征读取延迟显著放大，成为训练速度的关键瓶颈。

针对上述问题，该项目提出CMM-D GNN方案，具体如图4所示。该方案的核心创新在于将图结构及特征数据卸载到CMM-D上，并结合针对CMM-D的预取优化，加速GNN的训练。

640 (3).png

图4 CMM-D GNN 方案架构

方案的核心设计包括：

1. 基于CMM-D的数据卸载：图结构和特征数据统一放置在 CMM-D 上，访问延迟接近内存。

2. 预取机制:在GPU处理上一批的数据(Batch T)的同时，下一批的数据(Batch T+1)完成检索并提前预取到GPU。因此，计算与传输实现了重叠，GPU无需等待数据传输。

3. UVA 直接访问:方案利用统一虚拟寻址(Unified Virtual Addressing，UVA)技术，将CMM-D 地址直接映射为 GPU 可见地址，从而消除了传统方案中“先凑成连续块，再传进 GPU”的两次拷贝开销。

4. 双线程并行: 主线程负责整体训练逻辑，包括从预取队列中获取数据并执行前向传播、反向传播、参数更新等;预取线程在CMM-D上执行采样与检索，将特征数据通过UVA传送至GPU内存，并通知主线程下一批次数据已就绪。

性能评估结果显示，相较于基于SSD的GNN训练方案，CMM-D GNN方案在各Epoch的平均训练时长上实现了约4倍的效率提升，成功避免了SSD高延迟对训练系统的影响。

640 (4).png

图5 CMM-D GNN性能测试结果

SSD Solution: 基于SSD的GNN训练方案(GIDS, Accelerating Sampling and Aggregation Operations in GNN Frameworks with GPU Initiated Direct Storage Accesses. VLDB 2024)

CMM-D Solution: 带有性能优化的基于CMM-D的GNN训练方案

测试环境：CPU: Intel(R) Xeon(R) Gold 6430. DRAM: 256GB, CMM-D: 128GB, GPU: Nvidia Tesla A100 80GB, OS: Ubuntu 22.04. Kernel: 6.9.7. CUDA: 12.2. 模型: GraphSAGE, 数据集: OGBN-Papers100M

三、总结与展望：CXL的未来方向

从短期来看，随着CXL协议的推进，CXL技术将向两大方向演进：

1. CXL Memory Pooling（内存池化）：跨服务器动态调度内存资源，结合AI算法实现智能分配，提高系统整体内存利用率。

2. CXL Memory Sharing（内存共享）：CXL可以使不同服务器访问同一片内存区域，从而达成数据共享，搭配合理的系统设计方案，可以避免网络传输带来的开销，进而提升系统性能。

从长期来看，CXL有望推动数据中心架构的根本性变革，使其从以计算为中心逐步演进至以内存/存储为中心，帮助AI开发者以更低成本、更高效率完成大模型的训练与部署。随着CXL生态的日益成熟，该技术将成为未来数据中心不可或缺的关键基础设施。

作者

1.李宇涛 yutao.li@samsung.com

2.杨攀 pan87.yang@samsung.com

3.豆坤 kun.dou@samsung.com

4.段世茹 duanshiru@caict.ac.cn

审核

谢丽娜 xielina@caict.ac.cn