NEWS INFORMATION新闻动态

关注微信公众号

首页 > 新闻动态 > 工作组动态

AI 时代的液冷 SSD：从散热极限到系统级价值的演进

2026-05-20

随着人工智能 (AI) 和高性能计算 (HPC) 系统的功率密度不断提升，液冷技术正从“高端选项”逐渐成为默认架构。GPU 和 CPU 已率先实现了这一转变，而存储设备(固态硬盘，SSD)正成为下一个不可或缺的关键组件。本文并非探讨“SSD 速度提升三秒”的问题，而是着眼于一个更深层次的系统性问题：当计算全面迈入液冷时代，如果我们继续使用风冷 SSD，性能成本、能耗和投资回报率将会如何变化?

一、问题实质：

SSD 热行为正成为系统瓶颈

1. 企业级固态硬盘（eSSD）的演进正直接推高存储系统的散热与功耗压力

从架构角度看，存储侧正面临严重的失衡：随着 PCIe 协议从 4.0 迈向 7.0.单盘 SSD 的功耗也从 25W 飙升至 60W。在计算节点已全面实现液冷的 AI 架构中，存储散热却仍停留在“吹风”的旧时代。这种功率密度的飞跃与落后的散热手段之间，已形成明显的系统代差，直接制约了整机的可靠性边界。

2. 企业级固态硬盘（eSSD）的温度并非“缓慢影响性能”，而是会直接引发系统故障

微信图片_20260520100249_1450_1.png

这意味着：

一旦进入高阶热限速

数据通道几乎被切断

在 AI 系统中，这种行为不是局部问题，而是会迅速放大。

3. eSSD 热失控会沿系统路径放大影响

结果并不是“SSD 慢一点”，而是：整个 AI 服务器里最昂贵的 GPU 开始空转。

二、为什么传统风冷 SSD 已经不适用于 AI 系统

1. 风冷在高功耗 SSD 上的物理与经济极限

640 (1).png

当 SSD 功耗迈向 40–60W：

需要 <35°C 的严苛进风条件

更高风量与更多风扇

显著增加能耗与噪音

这不仅提高了冷却成本，也限制了系统密度。

2. GPU/CPU 液冷之后，风冷 SSD 的实际环境更加恶化

当 GPU 和 CPU 转向液冷：

服务器内部风道被重新设计

SSD 往往处在不利的散热位置

结果是：在最昂贵的 AI 服务器中，SSD 反而成了最脆弱的组件之一。

三、液冷 SSD 方案痛点及解决路径

640 (2).png

液冷SSD的核心痛点并非简单的对“SSD 加装冷盘”的表面功夫，而是在于如何解决SSD双面发热的物理特性、液冷环境下热插拔以及标准化路径，需要从系统级视角去重构液冷存储。

冷板：“单冷板、双面散热”

传统的 E1.S SSD，其主控(Controller)、动态随机存取内存(DRAM)以及 NAND 闪存颗粒分布在电路板的两面。如果仅使用传统的冷板贴合其中一面，剩下的另一面就会沦为散热盲区。需要重新设计 SSD 的外壳与散热路径，使凭借一块冷板能同时吸收两面的热量。这种物理层面的结构创新，能够真正解决液冷 SSD 长期稳定运行的“后顾之忧”。

运维：弹簧加载机构

在实际运维中，液冷一直存在一个非常棘手的现实矛盾：如果为了导热而将冷板压得太紧，就会完全丧失热插拔能力。通过引入一套精密的弹簧加载机构(Spring Loaded Mechanism)，既能确保 SSD 与冷板保持紧密的物理接触（以保障散热效果），又能在需要维护时瞬间脱开。无需关机，也不用拆卸管路，就能像在风冷环境中一样快速进行插拔和维护。只有保持高水平的运维效率，液冷 SSD 才能真正具备数据中心级的“可操作性”，而不是沦为实验室里的摆设。

标准化：规模化部署的必要

液冷SSD标准化是数据中心迈向高密度、低能耗的全液冷架构的关键一步。当前头部厂商正在积极推动规范的制定与落地，Solidigm 已与 SNIA 联合发布 SFF TA 1006（Rev 1.6.1）行业规范，完成了 E1.S 液冷技术的标准化定义，推动其从封闭的定制化方案走向开放、可复用的行业标准。该标准严格定义了冷板的接触面积、表面平面度以及粗糙度公差，确保了热传导的确定性;同时，通过倒角边缘设计(chamfered edge design)，解决了高压贴合下的机械插拔难题。这一举措的核心价值在于，它将液冷 SSD 从“一事一议”的定制化工程，转变为可大规模部署的标准部件，为数据中心提供了真正工业化的技术基石。

640 (3).png

四、从液冷 SSD 到系统与 ROI 的自然结果

通过液冷解决方案，SSD 能够长期运行在非降频/非限速区间，确保持续、稳定的数据供应。这种稳定性直接消除了因存储侧散热瓶颈导致的 GPU 闲置(等待状态)，从而让算力资源始终处于满载状态。从系统级视角来看，投资回报率(ROI)的提升并非刻意追求的附加目标，而是存储架构与计算需求在物理层面完美契合后的必然结果。

640 (4).png

在服务器甚至整个数据中心层面，液冷 SSD 带来的并非局部节点的优化，而是系统效率的全局提升。与传统方式相比，在相同的散热指标下，液冷所需的能耗远低于风冷;再结合更高密度的无风扇设计，它大幅减少了机架空间的物理占用，并降低了后期运维的复杂度。这种架构上的精简，直接转化为数据中心级能效比的质变，实现了从底层部件到上层基础设施的全局增益。

结语：液冷存储——AI 系统的底层闭环

在当前的 AI 架构中，GPU 负责输出算力，存储负责维系数据供给，而散热方案则决定了这两者能否在实战中被持续、稳定地兑现。当我们实现了这种系统级的深度耦合，ROI 的提升便不再是刻意追求的商业指标，而是这种技术平衡在财务逻辑下的必然结果。

作者

Hardeep Singh 邮箱：Hardeep.Singh@solidigm.com

Bo Li 邮箱：Bo.Li@solidigm.com

Wayne Gao 邮箱：Wayne.Gao1@solidigm.com

640 (5).png

上一篇：关于ODCC技术专家组专家的征集通知

NEWS INFORMATION新闻动态

AI 时代的液冷 SSD：从散热极限到系统级价值的演进

联系我们