新征程,ODCC即将启动 AI存储实验!
随着AI在大模型等领域的深入应用,数据量激增,传统存算紧耦合架构面临扩展性与性能瓶颈。存算分离技术通过资源解耦,依托高速互连网络构建高性能、易扩展的新型存储架构,成为AI基础设施的核心方向。在此架构下,存储SSD的性能和高速网络环境相辅相成,直接成为了影响AI训练与推理效率的关键。
DPU作为存算分离的关键使能技术,通过其强大的网络处理能力和存储卸载功能,正在重新定义数据中心架构。无论是在计算节点的数据加速,还是在JBOF(Just a Bunch of Flash)场景下,DPU也能够实现存储资源的池化管理和高效访问。
为系统评估和分析新型存储硬件及软件在Benchmark和实际不同AI工作负载网络条件下的性能表现与适配能力,服务于广大AI存储厂商提供高性能存储解决方案,为AI存储用户推荐适合实际应用场景的存储方案,开放数据中心委员会(ODCC)将建设AI存储实验室,聚焦先进的存算分离架构,打造先进的测试平台,为关键部件选型、系统优化和行业标准制定提供实证支撑,推动AI基础设施的技术创新与规模化发展。
聚焦AI场景与标准化体系建设,
构建存算新范式
01 四大AI核心场景,直击AI业务痛点
AI训练场景:模拟多GPU节点并发读数据、频繁写checkpoint,测SSD在网络饱和时的吞吐量稳定性等,保障训练数据传输不中断;
AI推理场景:模拟网络抖动、突发请求,测试SSD平均延迟与尾延迟控制等,保障在线推理“秒响应”;
分布式场景:基于Ceph、HDFS等主流系统或者不同RAID级别、多副本同步对SSD性能的损耗等,实现平衡可靠性与性能;
虚拟化场景:基于VMware/KVM平台测虚拟机迁移时的存储中断时长或者SR-IOV技术的直通与传统虚拟化的IO延迟等,适配云原生AI部署需求。
02 建设标准化测试体系,统一产业评估基准
明确软硬件配置基准:从SSD接口类型(SATA/PCIe)、到存储网络拓扑(Leaf-Spine)、再到传输协议(NVMe/TCP vs RoCE)以及存储系统等软硬件相关配置,都有统一规范;
定义负载模型标准:针对不同的训练/推理的场景特点,定制数据类型、读写比例、IO大小、队列深度等参数,让不同产品的测试结果可横向对比;
建立三维指标体系:不仅测存储性能(吞吐量、IOPS),还评估网络对存储的性能衰减系数以及长时间负载运行的稳定性等,全方位“透视”SSD的表现。
实战验证:
从实验室测试到产业落地闭环
产品级测试:通过三星、Solidigm等主流厂商的SSD与英伟达网络等核心组件构建基础测试平台, 进行全方位的性能测试与适配性评估,提供测试反馈及建议,助力“选对产品、用好硬件”;
系统级测试:全面验证“计算-网络-存储”全链路在高负载下的性能表现,并通过模拟节点故障、网络中断等异常场景,确保技术方案具备系统级可用性;
场景化验证:联合头部AI企业、云服务商等产业用户,将测试工具与方法部署至真实业务环境,确保测试结果紧贴真实需求,真正实现“测得准、用得上”。
汇聚头部力量,
共建开放协同的产业生态
主导方:依托ODCC由中国信通院联合产业上下游,负责实验室的公正性、标准制定和总体管理;
软硬件厂商:如三星、Solidigm、英伟达等提供服务器、NVMe SSD、DPU、交换机、存算分离软件、NVMe-of 软件等配套软硬件支撑;
使用方:美团等头部AI应用企业作为使用方,提供真实业务场景与典型负载模型,推动测试紧贴实际需求。
未来为AI基础设施“踩实”存储基石
当测试规范升级为行业标准,每块SSD拥有专属的AI场景适配评级,AI基础设施建设效率将大幅提升。未来,实验室将定期发布产品性能榜单,动态迭代规范,构建“测试-反馈-优化”的闭环,为大模型、智能推理等应用夯实存储底座。
目前,ODCC-AI存储实验室已进入建设筹备期。诚邀AI企业、硬件厂商与科研机构关注并参与ODCC,共推AI存储技术发展!
联系人
谢老师:18800199616
段老师:16600265822
ODCC秘书处联系人
刘老师 13488889649(微信同号) 邮箱:liupengyun@caict.ac.cn