NEWS INFORMATION新闻动态

关注微信公众号

首页  >   新闻动态  >   工作组动态

【ODCC技术】存算分离:AI时代存储架构的变革需求

2026-06-02

随着AI大模型应用的广泛落地,传统存储架构面临前所未有的挑战,而存算强耦合的设计限制了性能提升,导致资源利用率低、TCO居高不下。由于AI训练和推理场景需要高带宽、低延迟、大规模并发访问,单纯增加硬件已无法有效解决现有问题。

存算分离架构通过解耦存储资源与计算资源,实现更灵活的资源配置与独立扩展,从而充分释放新一代硬件的性能潜力,为AI基础设施构建更高效、更经济的存储底座。

一 技术本质:从资源耦合到独立扩展

(一) 传统架构的结构性瓶颈

在传统的存算一体架构中,计算节点与存储设备紧密绑定,这种“捆绑式”设计导致三大核心问题:

资源错配:计算密集型任务与存储密集型任务争夺同一节点的资源,造成“算力等数据”或“存储等计算”的闲置浪费,因此资源利用率低下;

扩展不灵活:扩容时计算与存储须按比例同步增加,无法针对实际业务负载进行精准弹性调整;

成本效益低:低效的资源利用迫使企业投入更多资源进行系统维护与优化,进一步推高总体运营成本。

(二)存算分离的核心优势

存算分离架构通过高速网络(如NVMe-oF、RDMA)将计算层与存储层彻底解耦,实现几大核心价值:

微信图片_20260602104816_1483_1.png

二 基于Ceph的存算分离方案:ODCC2505006实践解析

ODCC2505006《基于DPU的新一代存算分离存储架构:重构数据中心存储范式》系统阐述了基于数据处理器(DPU)的存算分离存储架构的技术原理、加速方案及产业前景。其中,基于Ceph的存算分离方案作为白皮书的核心实践章节,深入探讨了如何通过BlueField-3 DPU与三星PCIe Gen5 NVMe SSD PM1743的协同,推动存算分离架构在AI场景下的工程化落地。

(一) Ceph存算分离架构部署

该方案通过NVMe-oF将计算资源和存储资源分离开,利用DPU Arm核运行Ceph的OSD资源管理与数据处理线程,将存储后端工作负载卸载到DPU上,在有效释放后端存储压力的同时,充分发挥NVMe SSD的高性能优势,具体如图1所示。

640.png

图1 基于DPU的Ceph存算分离架构

(二)关键优化:消除东西向流量

在存算分离架构下,由于Ceph OSD的随机分布,数据的写入可能需要跨DPU节点同步,产生DPU之间东西向流量传输的开销。在高并发写入场景中,这种跨节点的东西向流量不仅会增加通信延迟,还会成为性能瓶颈。

640 (1).png

图2 Ceph多副本东西向流量示意图

为解决这一问题,方案提出无东西向流量的副本放置策略:通过重构Ceph的CRUSH规则,将同一PG(Placement Group)的所有副本集中分布在同一DPU的不同OSD上,使后续复制操作在DPU内部闭环完成,从而彻底消除跨节点的东西向流量传输开销。

640 (2).png

图3 Ceph多副本无东西向流量示意图

(三)性能验证:数据说话

测试在端到端200GE网络环境中进行,由8台BlueField-3 DPU提供Ceph的OSD服务,采用8块PM1743 NVMe SSD,每块SSD利用SR-IOV功能创建8个VF,通过4个200Gbps网口使用NVMe-oF RDMA协议连接到交换机,为整个系统提供高达64个OSD的配置。与传统存算一体方案(3台x86服务器)对比,该方案用1台8盘服务器,实现三副本随机读性能提升176%,随机写性能提升50%。

640 (3).png

图4 随机读性能对比

640 (4).png

图5 随机写性能对比

数据显示,该方案仅在计算节点部署BlueField-3 DPU便可支持32.46GBps随机读、4.89GBps随机写,大幅降低了硬件部署需求。

三 总结与展望:架构价值与未来方向

存算分离不仅是架构层面的解耦,更是数据中心从“资源堆砌”向“架构驱动”演进的关键一步。随着AI、大数据等现代应用工作负载的不断增长,存算分离架构将在未来扮演更加重要的角色,推动存储技术向更高效、更智能的方向发展,为AI时代的数字基础设施提供坚实支撑。

作者

1.李佩维 peiwei.li@samsung.com

2.豆   坤 kun.dou@samsung.com

3.畅   顺 shun.chang@samsung.com

4.段世茹 duanshiru@caict.ac.cn

审核

谢丽娜 xielina@caict.ac.cn

640.jpg

640 (1).jpg