NEWS INFORMATION新闻动态

关注微信公众号

首页  >   新闻动态  >   工作组动态

【ODCC成员分享】美团李建:服务器机柜散热架构优化实践

2022-12-26

作者:李建 美团基础设施部

一、背景

当前数据中心架构一般分为三个层级:服务器→机柜→数据中心,在各个层级,业界都在积极探索新技术以解决所面临的问题,如图1所示。但是受限于各层级的技术背景要求,业务人员归属,业务投入重点不同等各种条件,各个层级目前大多是解耦独立规划,就导致放在一起使用的时候容易出现部分不匹配或者短板的问题。

图1 数据中心各层级技术投入比重示意图1.png

针对解耦设计带来的问题,目前业界出现跨层级耦合设计的趋势,在对数据中心和服务器进行解构类比以后,数据中心可以抽象成一个大型的服务器,如图2所示,这样就可以通过一体化设计解决匹配和短板问题。在数据中心即服务器的一体化思想指导下,对当前数据中心各层级散热架构进行梳理,发现服务器机柜是限制整个系统散热能力的短板,在此背景下,美团基础设施技术团队启动美团机柜创新散热架构技术预研项目,以补齐短板,提升服务器和数据中心整体能力水平。本文就对美团在服务器机柜散热架构优化方面做的部分实践活动进行介绍。

图2 数据中心与服务器类比示意图

2.png

二、服务器机柜散热架构的现状和痛点

随服务器散热需求越来越高,业界根据各自的需求积极推动机柜散热架构技术探索,比如国内ODCC组织下的天蝎和方升架构,以及国外OCP社区下的Open Rack项目,可以非常明显的看到,机柜散热架构能力已经成为各个厂家机柜设计的核心关键点。

当前业界现阶段大部分机柜散热架构的缺点主要有3点:1)现有机柜散热架构限制了服务器的系统散热能力;2)现有冷端封闭散热架构存在成本高,复杂度高,功耗高、噪声高、PUE高、碳排放高的问题;3)机柜U高定义不统一,服务器机框上下之间的间隙封堵耗时耗力。下面进行详细描述。

1、现有机柜冷端封闭散热架构限制了系统风量和空气温升,进而限制了服务器和机柜的系统散热能力

现有服务器机柜均为冷端封闭,热端不做限制,冷空气只能通过服务器前端进风,系统风量受限,服务器系统散热能力受限。当服务器面临CPU或者后端接口卡上的光模块等单点散热瓶颈问题,在同等条件下,为了改善散热,可以对机框的上盖或者侧面合适位置开孔,通过提高服务器系统进风量来改善散热瓶颈点,受限于机柜冷端封闭散热架构,上盖或者侧面开孔只能吸入来自热通道的热空气,对应上盖或者侧面开孔的进风温度为热通道的空气温度,所以在实际使用中,采用热回风辅助散热系统,需要对热风通道的温度和上盖或者侧面的开孔面积做约束,防止回流的热空气对系统散热产生消极影响。

对于服务器产品的系统散热能力计算评估可以通过如下公式:P= K* Q*△T(P:流体带走的热量,K:与温度相关的常数,与流体的密度和比热容有关,Q:流体体积流量,△T:流体经过设备前后的温差)

系统功耗与流体的流量和温差成正比,对于服务器风冷系统,一个系统的空气流量越大,空气进出风的温差越大,系统的散热能力越大。机柜冷端封闭散热架构下,热风通道的温度一般会控制在50℃以下,在35℃的环境规格下,反向会限制空气温升最大为15℃,系统风量和空气温升的限制,最终体现在服务器系统散热能力受到限制,导致现有机柜冷端封闭散热架构下,2U服务器散热能力一般在2KW以内,单机柜散热功耗极限在40KW左右。

2、现有冷端封闭散热架构存在成本高,复杂度高,功耗高、噪声高、PUE高、碳排放高的问题

现有服务器机柜散热架构如图3所示,因为热风加热的影响会限制服务器散热能力,会导致对散热器和系统风扇的要求变高,甚至有些CPU单点散热瓶颈需要采用液冷方案,导致散热方案成本和复杂度均变高。同等条件下,系统风扇的转速要求更高,功耗更大,即使是常温典型功耗下运行,风扇转速也需要维持一个比较高的转速,带来功耗高和噪声高的问题,对HDD的性能和寿命产生影响,同时会间接导致机房PUE居高不下和高碳排放问题。

图3 服务器机柜冷端封闭散热架构示意图

3.png

3、U高定义不统一,服务器机框上下之间的间隙封堵耗时耗力

机柜现有的冷端封闭散热架构,冷端要求封闭,对于热端不限制,允许封闭,也可以不封闭。冷端封闭一个不可避免的问题就是机柜上服务器上下之间的间隙如何进行处理,此间隙的大小和机柜的U直接相关。业内常见的天蝎架构,方升架构,OCP-Open Rack等机柜的U高定义如图4所示。机柜设计中U高的定义各不相同,服务器之间的间隙也大小不一,一般情况下如果小于5mm以下基本不进行额外的封堵,不封堵的缝隙会导致冷量泄露,从而造成机房运行能耗上升,影响机房能效。间隙5mm以上一般采用专门设计的封堵结构件在冷风通道侧封堵,该封堵结构件需要人工安装和拆卸,无法实现高效率封堵,增加机房布置成本的同时会降低布置效率。

图4 不同机柜架构U高对比示意图

4.png

三、美团机柜伯努利散热架构介绍

美团机柜伯努利创新散热架构,创新的设计了一种机柜前端(冷端)开放同时后端(热端)封闭的服务器机柜散热架构,配合服务器后端间隙封堵结构,相比业界现有服务器机柜前端封闭散热架构,将服务器机箱主体浸没在冷空气中,机箱上盖和侧面开孔辅助散热的高温热空气变为冷空气,有效提高了服务器系统风量和进出风口空气温升,从而大幅度提高服务器单点和系统散热能力,散热架构对比示意图如图5所示,更详细的方案介绍可以参考对应专利(专利号:202210588269.0)

图5美团伯努利散热架构与现有机柜散热架构对比

5.png

四、美团机柜伯努利散热架构实测结果

为了验证上述专利技术的先进性,通过推进一个技术预研项目,定制热端封闭机柜,同时搭建IDC冷热通道镜像环境,以低成本的测试对方案进行验证,测试设备和测试环境如图6和图7所述。

图6 伯努利散热架构实测环境示意图

6.png

图7 测试服务器上盖开孔示意图

7.png

经过实测显示,伯努利散热架构技术收益符合预期,2个核心目标均顺利达成,证明美团机柜伯努利散热架构在提升服务器散热能力和节能水平方面有明显的技术先进性。核心目标达成情况如下所述(以下数据仅适用于本测试环境):

核心目标1(散热能力提升方面):同等服务器配置下,相比现有机柜下,机柜采用伯努利散热架构,高温满载下,高温35℃,50%风扇转速下(对应无光模块或者25G光模块),上盖开孔率40%,热通道温度50℃,热端封闭相比冷端封闭散热架构CPU收益约10.8℃。

核心目标2(节能水平方面):常温满载下,常温25℃(对应100G光模块),上盖开孔率40%,热通道温度50℃,热端封闭相比冷端封闭散热架构风扇转速下降40%,功耗降低107W。

图8 美团机柜伯努利散热架构收益对比示意图

8.png

同时实验中针对影响服务器散热的机柜U高、上盖开孔以及热通道温度分别进行了测试分析,并获得部分测试结果,为后续散热架构设计优化提供参考,具体的测试结果详述如下。

1、机柜U高定义的影响分析

结论:伯努利散热架构兼容现有所有U高标准,为了兼顾收益和密度,U高推荐采用SU。

1)伯努利散热架构(热端封闭架构),U高的增加对于CPU呈现正收益增加的趋势,RU和OU之间的差值最大可以达到6.6℃,SU和OU相差在2℃以内。

2)冷端封闭架构,U高的增加对于CPU呈现恶化加剧的趋势, RU和OU之间的差值最大可以达到7.1℃, SU和OU相差在3℃以内。

图9 U高对机柜散热架构影响对比示意图

9.png

2、上盖开孔的影响分析

结论:推荐上盖开孔辅助散热设计,开孔率根据各自的系统设计,需要兼顾节能和流阻匹配要求。

1)上盖开孔,在伯努利散热架构(热端封闭架构)下均为正收益,在冷端封闭架构下会存在热风回流的问题。

2)热端封闭架构下,开孔面积一定条件下,上盖开孔率40%到100%之间的差值在2℃以内,U高的影响会更大。

图10 U高对机柜散热架构影响对比示意图

10.png

3、热通道温度的影响分析

结论:热端封闭架构可以有效解决热风回流问题,最大化发挥上盖开孔的收益的同时,允许冷热通道温差由现有的15℃提升至25℃,可以有效提升冷空气利用率,大幅度降低IDC制冷能耗。

1)伯努利散热架构(热端封闭架构)下,基本不会受到热风通道温度的影响。

2)冷端封闭架构下,冷风通道常温25℃条件下,热风通道的温度达到40℃以上,就会产生明显的恶化影响,随热通道温度的升高,恶化影响会达到10℃以上,常温下风扇转速的差异可以达到40%,对应风扇功耗差异可以达到107W。

3)上盖不开孔情况下,冷端封闭架构仍然可能会产生恶化影响,原因是风扇进风口前侧存在机框开孔,仍然会受到热风回流的影响。

图11 热通道温度对机柜散热架构影响对比示意图

11.png

为了直观的查看机柜散热架构的差异,通过红外热成像对比两个散热架构,如图12所示,可以非常明显的看到热通道封闭架构对服务器整体温度带来的收益,在伯努利散热架构的机柜下,服务器完全浸没在冷空气中,基本杜绝热风回流的影响,同时还可以有效解决现在服务器挂耳温度因为热风回流、机框温度加热等因素导致的挂耳温度无法准确监测环境温度的问题,从而进一步避免因为挂耳温度监测误差带来的风扇转速非预期上升带来的能耗损失问题。

图12 不同机柜散热架构红外热成像对比示意图

12.png

五、结语

美团机柜伯努利散热架构,可以有效提升服务器和机柜的散热能力上限,有非常显著的低碳节能收益,具备出色的通用性和兼容性,值得在业界进行大规模推广。美团作为ODCC决策组成员,也愿意持续推进相关技术落地和开源,共同推动数据中心低碳节能技术的发展。

作者:李建 美团基础设施部

*注:本文来自企业投稿,ODCC不负责内容精确性