广东合一新材料研究院有限公司向军发表致辞

  • ODCC /
  • 9 August 2018

大家好,我们做的喷淋式液冷,具体是什么来历呢?我们想在为用户降低成本的大前提条件下,怎么来维护用户的传统的操作习惯(包括服务器的堆叠,服务器的安装,服务器的维护),沿着这样的思路,我们就做出了喷淋式液冷IDC方案。
为了同大家分享并了解我们,下面分为三部分的内容来进行交流:因为我们是一家年轻的公司,所以先对公司做一个简单的介绍,然后重点介绍我们的喷淋式液冷技术,最后介绍喷淋式液冷IDC技术及其应用分享。

广东合一新材料研究院有限公司向军

我们公司成立的大背景是:富国强军,军民融合,科技驱动,节能环保。利用高端人才梯队,完成在 “基础理论、技术体系、系统架构和关键技术”的突破,以便我们能够在“通用行业热管理技术”比如液冷服务器、液冷数据中心和通讯领域的热管理技术,和“特殊行业的热控制技术”,包括:核乏料安全存贮运输系统、系列雷达热控系统 、重频强磁热控系统。我们现在对于这两块知识库的支持,就是院士工作站,它不是一个口号,实际上每一位院士每年要在我们公司工作满三个月,给我们一些背景的支持,因为想要挖掘一些新的东西,所以就成立了两个应用部门。
下面就介绍一下我们的喷淋式液冷技术。首先看一下,对于传统系统布局的各个器件来说, PCB板上的功能器件:比如CPU、GPU等芯片,传统散热办法是在芯片表面放置一层导热垫,然后再装一个散热器作为扩展表面,当风流过的时候,借助空气对流带走芯片的废热,而对于喷淋式液冷,也是采用类似的散热方法,只是将空气变成了冷却液,冷却液从服务器机箱顶部的喷淋模块滴下来,通过冷却液与散热器之间的接触进行对流换热,从而为器件降温,这点类似传统的散热模式。
运用喷淋式液冷时,我们会采用一个类似于传统机架,在机架内部按照传统机架放置适合喷淋式液冷的服务器,当冷却液通过外力比如泵输送到机架时,冷却液会在压差下被分配到各层服务器内部的喷淋模块内,在压差的推动下经过喷淋孔喷淋到器件或器件的扩展表面上,液体在扩展表面上从上到下形成一层液膜,这层液膜在重力和后一刻质量团的双重作用下不断地运动到扩展表面的基板上,并最终离开扩展表面,完成器件热管理,整个过程冷却液充分地与扩展表面进行换热,由于冷却液较强的取热和载热能力,使得其在较小的温差下实现较大的废热传递。
从这张曲线可以看出(纵坐标为温升或温度;横坐标为时间),根据我们实际的测试数据,对于这个器件,其满载时的温差在15℃左右,同时,从器件发热升温到器件温度平衡的时间非常短,维持在十秒左右。我们大量的测试结果显示:对于Intel传统150W以内的芯片,CPU的满负荷时的温升维持在15℃左右(传统风冷为35~40℃),对于250W的GPU在30℃左右温升(传统风冷为50~55℃),可以看出整个器件温升较小,相对于我们系统器件的出现温度脉冲或波峰的机会消除;同时,我们的热成像显示,相对于风冷来说,采用喷淋可以消除整个PCB板上的器件的温度不均匀性,对于传统风冷,因为一排的风扇吹过一个PCB板,会在板的长度方向上形成不均匀的流场,出现速度边界层,我们知道在边界层底层,流体流动较慢,就导致处于该层的发热器件如果没有扩展表面,即时发热量较小,也会出现比较大的温升而可能出现长时间的高温导致其过早老化。
因为传统换热介质为空气,而我们选择的是特殊液体,两种介质的密度与比热的乘积相差超过1200倍,所以在小流量,慢流速下可以实现更强的换热能力,这点前面的专家也提到了。同时,我们现在做了扩展表面,有些人会问扩展表面有没有必要,或者是否可以取消这个扩展表面,这个话题就是用户选择问题,如果不用散热器直接喷到器件上,只要实现很高的流速,那就是喷射散热模式了,其代价是泵功要求比较大,如果按照我们这种喷淋模式,泵功要求就很小的情况下也可以实现大功率小温差。
举个例子,我们现在有一个应用,原始的服务器是4U的,其4U高度主要来源于有4路CPU,而这4路CPU的散热器等高到服务器机箱盖板,并且这个散热器是4支热管散热器。用我们的散热办法把它原来的散热器高度降低到现在不到四分之一高度,而且散热器就用普通的铝散热器,对于风冷来说,因为散热对流换热系数低,传热载热能力比较低,为了散热那么多,你就只能通过增加散热面积,并且在这个面积下尽量做到小温差,这样才能更大的散热面积配合小的对流换热系数在规定的温差下实现散热。而喷淋式液冷模式下,你可以将普通的更小的散热器面积下,实现小温差(对于CPU来说,由原来的30℃温差降低到15℃),达到同样的温控要求,这样就是我们实现节能的理论依据和现实结论。
前面讲的是从器件的角度来说,现在就从服务器和系统的角度来说,对于单台的服务器是怎么实现的?这幅图本身是为了做一个展示用,所以留了空间给大家观察服务器内部的喷淋画面,这些是发热器件,不管是DDR也好,CPU也好,FPGA也好,PSU也好,这些SSD也好,你只要有热,我们的液体就会精准地输送到热点去,我们这个办法跟浸没的区别在哪里?就是你的热在哪一个地方,我的冷却液就去热的器件去,这样就出现大家看到的只有薄薄的一层冷却液附着在器件上面,而不会让整个服务器淹没在液体都进去,所以你可以看到,我们有这种连续性的东西。当然我们这个需要对传统服务器进行必要的改动,改动过程不会对服务器原来的架构进行任何变更,只是把你的风扇拆除,以及服务器监控环境温度管制解除,以及机械硬盘需要更改为SSD或者氦气硬盘,或者是将机械硬盘做密封。
当我们正式喷淋工作的时候,上面就是薄薄的一层液体,它有什么样的功能?比如说这里装了风扇,风扇的工作时你的空气在这样流动,那我们大家都清楚,如果你是用风扇去吹一个大平板表面,假设你没有这些器件的干扰,你就知道它的入口效应之后就会有这么一个速度边界层,这个速度边界层内的流动非常缓慢,速度边界层内的发热器件散热能力会很差,这就会使得这个区域的器件温度较高,而导致器件老化较快。而喷淋液冷的这层薄薄液体,依靠其强大的载热能力,可以使得PCB板上的所有器件的温度相对比较均匀;再者,喷淋的冷却液也会在器件表面附着一层,正是这层冷却液,阻止了导致器件过快老化的氮化物、硫化物和碳化物等有害气体,同时还阻止了湿空气的水分和盐雾;最后因为系统拆除了风扇,所以风扇长期转动对器件的影响也得以消除。这样服务器的寿命在消除热点,长期满负荷低温工作,消除震动,隔绝有害气体等多角度保障了你服务器的寿命,降低服务器的故障率。
另外因为我把风扇拆除了,这个服务器基本上是没有什么噪音的,这个液体盖到这个板上,就是那种液体,他增加了可靠性。这张图就是我的一个系统循环简图,冷却液在室外利用大自然进行冷却后进入机房内部的机柜,并进行布液,从而实现器件冷却,被加热的冷却液被传输到户外进行散热后继续循环回来进行器件冷却,就这样循环使用,在过程中不断维护,可以保证冷却液的使用寿命超过15年;这张图是我们早期的实现模式,这是第一代产品,后面第二代产品已经做的好看很多了。
这是我们专门定制的适合我们这种液冷的喷淋机柜,它强调的是精准喷淋,图上的这个服务器就是2U的,这是4U的,这是作为展示用的,这里展示的是服务器实际原来多少高度现在就可以多少高度保持不变,同时,根据前面的分析,原来风冷的服务器,利用我们这种散热方式,可以将服务器做得更加紧凑,比如4U可以做成2U的,2U的可以做成1U的等等。
它的一些主要特点,我们目前用这个表里面的数字都是通过模拟热点来验证过的,像在25到45kW,这是我们的实际工程案例跟客户做案子的时候碰到的,就是做过了的,我们还做过60多kW的,这个是85,156kW是类似于超算那边的验证应用。这些方面的原理,在前面已经交流和沟通到了,因为讲到今天,喷淋也好,浸没也好其实是接触式的,室外的散热部分基本上是差不多的,区别就在机柜的内部。所以这个节能性我觉得现在也不用细讲了。
前面有专家提到这一点,为什么要对冷却液提高温度?因为这样可以实现更大的温度范围和更大的传热温差,当喷淋的冷却液跑到五十多度时,借助高效冷却能力的小温差,同样可以实现将器件控制在器件厂商的Spec.要求。可是50多度的冷却液,哪怕到广东地区也可以实现无压缩机的情况下进行有效的散热,因为根据环境温度的对比,可以轻轻松松创造10~20℃的传热温差。
它的特点前面也大概说到了,这个是怎么来的?我们用了这个方法,实测表明,对比风冷服务器可以降低原来的10%到30%的电功率消耗水平:一方面是来自于拆除风扇,另一方面是让服务器相关器件工作在非常舒适的环境,让它本身的耗电量下降了。通过对比传统风冷服务器的测试,风扇的功率可以监控出来,那么剩余的差额就是某些器件因为温度比较低而节省出来的。对于这个PUE值,我们有第三方的测试数据,大量的数据是在四个季度都进行测试,春/冬天的数据是1.03、1.04和1.05,夏天的数据前两天出来是1.11、1.13的样子,那个是用我们之前的机房来做的,新的机房节能效果还要更加突出一点,这种前面已经说了。
这个强调的如果你用了这种,你会得到的收益,你这个硬件成本可能差不多,但是你的使用成本、节能成本,还有我们前面分析的寿命延长,维护量降低这些点,其实映射到你的大型数据中心就是在哪里,其实就是TCO降低,维护量减少,出现问题的服务器数量是减少的,服务器寿命更长。
下面就是应用这一块,我们目前有这种单机架式的,标配是35kW一个柜子,我配置在这里,究竟有几个用户的服务器能够满足我的散热需求呢,大家看到我们有这个东西后可以大胆去开发更高功率的服务器,和更大功率的器件。
这里是4机架的,配置大概是这种模式,这个数量是可以扩展的,我这个机柜大概是这种的,600mm宽的那种。
这个是跟国家大数据训练场开发的,他强调的是在AI训练和推理这一块的,2U服务器3kW一台,因为偏计算,所以计算部分采用喷淋式液冷,430kW的 IT设备放置在40英寸的集装箱内,布局紧凑占地少,也可以方便运输移动。
这个是我们软件操作界面,它会对我所有关键的设备,敏感的参数进行监控,你在上面可以进行设置,数据会备份,实时看它的状态。这些内容前面已经说到了,比如说你的收获、稳定性和寿命我们在前面已经展开了,至于冷却液的安全性,体现在与环境和人方面,这个的工作是请SGS帮我们测试的,证明是长期使用的安全性。至于冷却液与IT设备长期的相容性关系,我们委托了另外专业的机构来做这一块的工作,我们目前还在做,采用加速老化的办法跑了快2个月了目前没有出现问题,我们是准备让其跑更长的时间验证其寿命,由于工作人员一再提醒时间到了,所以就交流到这,欢迎大家到广东合一新材料研究院有限公司进行考察和技术交流,谢谢大家。