腾讯计算机系统有限公司数据中心架构师梁旭飞发表致辞

  • ODCC /
  • 9 August 2018

各位专家,各位领导,大家下午好!我是腾讯数据中心的梁旭飞,今天跟大家分享的内容是液冷的需求与规划。主要有以下三个方面,首先是简单介绍一下液冷的主流技术,还有一个就是从用户的角度来分析液冷的方案可行性,最后一个是腾讯包括互联网公司对于液冷的一个需求和规划。
首先液冷的主流技术有几个方面,一个是浸没式冷却,就是直接将电子设备浸没在液体里面,直接接触,通过这样的一个散热模式。这边就是我们的柜体,很多东西都放在里面,我们有其他的模式把这个热量带走,核心的部分就是柜体的密闭新和密封性,液体还有一些挥发性,还有就是导热介质的选择,通常有矿物油,还有今天很多厂家讲的那些氟化液。

腾讯计算机系统有限公司数据中心架构师梁旭飞

还有一个就是冷板式的冷却,这个是非直接接触,液体通过一个冷板把这个热量带走的一种散热模式,这是一个冷却塔或者是一些冷冻水来做一个热交换,这是一个CDU,里面是衔接一次侧跟二次侧的一个通道系统,到末端会有每一个服务器,核心的部分是液冷CDU的设计,还有冷板的密封性,还有快接头的设计,就是很快对设备进行一个插接。
还有一个背板式冷却,移动在哪一个机房用的还是蛮多的,通过热管背板,在那个机器的背部,在初步的位置,把热板安装在那个位置,前面的系统大同小异,这个核心的部分就是水氟换热器和背板的密封性。
下面从用户的角度上分析一下方案,讲这个之前请主办方帮我安排一个保镖,我怕会有人把我按在地上摩擦。首先浸没式冷却方案的优势是很明显的,没有配备风扇,机房就没有噪音了,还有没法满足的,就是现有的CPU它的风冷模式是没法解决的。讲一下它的历史,首先就是更换零部件各方面,现在这个设备更换的可能还不支持零件级的更换,可能就是整机拿出来维护,冷却有一定的挥发性,还有就是对光传输有一定的影响性,它的占地面积平均每台设备的占地面积会比较大,因为这个箱体是倒置的,在高度空间其实是很有限的,基本上就是这个服务器的深度,我们现在数据中心服务器的深度可能在1米2左右,还有一些器件是不支持液体的,比如说机械硬盘就没有办法支持,还有液体的成本还是在一定的高度。
再讲一下冷板式的方案,优势就是可以将核心部件向CPU、DIMM带走,还有解决风冷散热无法解决的一些散热设备,还有跟我们现有的数据中心进行兼容,可以很快的实现一个切换。但劣势就是比我们现有的机房多一套散热系统,因为现在有一些设备还是必须需要风冷的空调来进行散热的,多一套散热系统,比如说CDU,还有快接头,现在的成本可能还是比较高的,据我了解,一对可能还要两三百块钱,我们一个服务器的话一次要出去两对,这一块就多了四五百块钱。劣势就是里面有一些设备,包括电源那些东西可能是没办法带走的。
讲一下背板式的方案,这个就是移动机房规模部署的方案,首先可以支持高功耗的服务器,可以到8个千瓦左右,无水进入机房,对运维也是有一定的优势,对现有的数据中心散热系统可以兼容。它的劣势就是有可能有氟利昂的泄露,还有末端的维护特别不方便,基本上要把整个背板全部打开,因为这个备份冗余不是特别方便,因为我们也做过分析,某一台机柜的背板坏了,可能它旁边的散热有一定的影响。
再讲一下我们后面的需求与规划,其实厂家现在应该是走在最前面的,你们应该是吃肉的,其实我们是需求的,给大家讲一下,先讲一下机房的现状,首先我们现在传统的机房,三个模式其实主要有两种。前面风冷末端加室外机,现在新建的地方基本上不会按这种模式去建了,一些老的就像运营商的机房可能有这种模式,现在基本上新建的机房都是冷水机加末端的空调,腾讯是用的微模块,基本上就是行列空调。它的PUE在华南可以做到1.4以下。
服务器的功耗上升是一个趋势,一台服务器可以达到400瓦,应该有接近七八百瓦,这种情况下就是说风冷比较困难,但其实数据中心还有一个特点,今天可能大家都在讲液冷技术,但就一个问题,我们现在数据中心最缺的是没有电,而且电的审批要经过发改委的批文,所以不是很容易,但如果说我的设备、功耗上来了以后,因为我的机房规划可能是做三到五年或者是10年的规划,我不可能说这个地方用一两年就换掉,现在腾讯做规划的时候有几个规格,6、7、12千瓦的,可能是为了应对后面高功耗服务器的大规模上市。
如果说六七千瓦的话,像我们现在的上架率一个机柜6千瓦平均功耗在两三百左右,后面上来了,或者说液冷上来的话,但我的电还是不够用的,因为我的设计功耗就6个千瓦,你现在可以上到20台,后面CPU的功耗上来了以后,包括它的系统都是按照6个千瓦设计的,所以这个上架率会减少一半,也是一个很矛盾的地方,我们今天讲的是液冷,液冷是最大解决了我们散热的需求,我现有的三肉技术没有办法解决的情况下,用液冷可以做好,但电是一个瓶颈,目前的情况下,上架率可能会比较少。
但是有一个好的地方,就是有一个板机冷却,现在我们在华南地区已经在商用了,之前我们跟合作商场在去年已经做完了demo,今年已经开始商用了。所有的电梯都是在电充足的情况下,如果说后面像CPU或者是核心设备功耗越来越高的话,可能现有的这些不是说没法解决,就是说它的效率没有那么高,所以可能最终还会向浸没式冷却的方向发展。
包括现在腾讯数据中心,我们已经开始买了几百台板冷的设备,马上开始上业务了,浸没式液冷我们也在有技术储备,其实这个还是有希望的,因为后面发展的趋势肯定是这样的,当然这个也要取决于后面设备的功耗会上到什么样的高度。我就讲完了,谨代表个人观点,谢谢。