NEWS INFORMATION新闻动态

关注微信公众号

首页  >   新闻动态  >   工作组动态

美团胡泽志:NVMe子系统故障预测-健康度指标

2025-09-19

近日,2025开放数据中心大会之新技术与测试(存储)分论坛顺利召开。美团服务器架构师胡泽志分享了NVMe子系统故障预测-健康度指标的相关内容,引领存储智能化运维新篇章。

微信图片_2025-09-19_111232_637.png

胡泽志

美团服务器架构师

美团在ODCC发起,联合小红书、移动研究院、联想、曙光、畅快算等业界领先企业,以及忆恒、忆联、大普、华为、佰维、江波龙等主流SSD厂商共同制定的ODCC-2025-05006《NVMe子系统故障预测——健康度指标》在本次大会正式发布,旨在解决数据中心NVMe SSD突发故障的行业痛点,推动存储系统向更智能、更高效的预防性运维模式转变。

随着NVMe SSD容量的不断增长,单片容量已达256TB,未来还将更大,然而,突如其来的故障成为终端用户的一大痛点。即使采用EC或多副本等数据冗余保护措施,也难以容忍这些没有征兆的故障。常见的故障包括namespace丢失、FW固件锁死、1bit以上DRAM UECC以及Poisoned TLP等,这些故障可能导致SSD“变砖”和数据无法找回。

当前,当服务器上出现NVMe SSD故障时,排查过程复杂且耗时,例如需要登录操作系统和BMC查找故障盘,并通过点灯功能定位,操作繁琐,极大地增加了人力成本和误操作风险,甚至可能因Surprise Hotplug支持不佳而引发机器重启。此外,目前行业缺乏统一的故障预测标准,各OEM/ODM厂商和SSD厂商的支持程度不一,导致信息抓取不一致,不利于全局监控和管理。在AI大模型训练等场景下,传统存储系统难以满足TB/PB级数据集的毫秒级访问延迟和百万级IOPS吞吐量需求,导致GPU闲置率高达30%-50%,资源浪费严重,进一步凸显了存储健康监控的重要性。

为应对这些挑战,《NVMe子系统故障预测——健康度指标》提出了一套创新的NVMe子系统健康度打分体系。该体系的核心创新在于将评估范围从单纯的NVMe SSD扩展到整个子系统,涵盖了NVMe SSD、硬盘背板、线缆、主板、CPU、BMC、BIOS等所有相关软硬件组件。

该方案的目标是:

1. 通过一个1-5分的分数指标,直观展示NVMe SSD及其子系统的健康度状况。

2. 故障后自动点灯,方便运维人员快速定位和更换。

健康度评分依据综合了Telemetry log、SMART log、PCIe Training相关日志、持久事件日志以及IO延时分布和数据块大小分布(24小时窗口)等多维度数据。最终,终端用户只需获取一个分值即可进行全局运维管理。该健康度值可脱离OS,通过NVMe SSD本身进行量化打分,并根据不同分值对指示灯进行相应的控制,为智能化运维提供基础。健康度分值将存放于NVMe SSD日志页(Log Page)的一个字节中,支持带内(如nvmecli工具)和带外(如NVMe-MI/IPMI/Redfish)接口获取,确保运维的便捷性。

《NVMe子系统故障预测——健康度指标》的发布,标志着数据中心存储运维迈向了更智能、更预防性的新阶段。未来,本标准将持续完善和演进。

ODCC呼吁NVMe SSD制造商、系统集成商、数据中心运营者以及软件开发商积极遵循并采纳本标准,共同构建更加安全、可靠、高效的存储生态系统。

微信图片_2025-09-19_111517_283.png

微信图片_2025-09-19_111539_593.png

微信图片_2025-09-19_111554_699.png

微信图片_2025-09-19_111607_595.png

微信图片_2025-09-19_111624_187.png

微信图片_2025-09-19_111637_885.png

微信图片_2025-09-19_111652_218.png

微信图片_2025-09-19_111706_961.png

微信图片_2025-09-19_111722_334.png

微信图片_2025-09-19_111740_195.png

微信图片_2025-09-19_111755_394.png

微信图片_2025-09-19_111813_259.png

微信图片_2025-09-19_111828_829.png

微信图片_2025-09-19_111844_225.png

微信图片_2025-09-19_111902_700.png

微信图片_2025-09-19_111920_691.png

微信图片_2025-09-19_111936_058.png

微信图片_2025-09-19_111950_950.png

ODCC新技术与测试工作组联系人

李老师:19528282160(微信同号) 邮箱:lijiayuan@caict.ac.cn

微信图片_2025-09-19_112035_324.jpg

ODCC秘书处联系人

刘老师 13488889649(微信同号) 邮箱:liupengyun@caict.ac.cn