施耐德首席技术办公室研究工程师林密发表致辞
大家下午好!我是来自施耐德电气数据中心科研中心的林密,今天很高兴能跟大家在这里做分享,我今天会从IT的角度跟大家分享,我们数据中心是如何从风冷IT向液冷IT进行演进的。
风冷IT在数据中心占据非常重要的地位,时至今日,数据中心依然以风冷IT为主,这正是我们传统制冷系统实现不断创新的领域。这页PPT所示的是我们对传统制冷系统的一些改进,包括风侧自然冷却,高温冷水机、通道封闭。对于风侧自然冷却我们到底是采用直接新风还是间接新风取决于很多的因素,比如说数据中心的地理位置,空气的污染情况等等。对于高温冷水机我们可以采用18度供水,24度回水;或者20度供水,26度回水。通过提高冷冻水的温度来增加自然冷却的时长,从而来提高制冷系统的效率。
施耐德首席技术办公室研究工程师林密
我们新的通道封闭系统实现了通道封闭与机柜相分离,同时在通道封闭框架上集成了供配电以及制冷系统,这样我们大大提高了通道封闭部署的灵活性。调查发现数据中心当前的功率密度在7个千瓦每机柜左右,如果机柜功率密度在20到25千瓦以内,我们认为传统的制冷系统是非常具有性价比的,而且是可行的。刚刚何博说的是18个千瓦是个分界线,这个具体的数值我们需要商榷一下。
我们对数据中心进行了进一步的研究,我们不禁要问开关柜的容量都去哪了,这个是假设我们上游开关柜的容量为3000A,如果采用不同的制冷系统我们可以支持多少IT负载。传统的制冷系统需要消耗大概30%左右的开关柜容量。与传统冷冻水系统相比,采用高温冷水机,可以将支持的IT负载提高了3%,当采用间接风侧制冷系统,可以将支持的IT负载提高了16%,达到1,520千瓦。这个时候制冷系统的pPUE可以实现1.09,我们通过对传统的制冷系统优化可以获得非常高效的制冷效率。
我们接下来思考一个问题,当数据中心的功率密度超过25千瓦每机柜的时候,又是怎么样的情况呢?是现在7个千瓦每机柜的三倍,这个时候需要更多的空调来提供足够的风量,我们需要3倍的风量,空调的功耗跟风量是成立方,这样至少需要9倍以上的功耗,整个数据中心就像一个风洞一样,我们可以想像一下如果在这种环境下我们将如何进行工作。
所有人认为液冷是解决高功率唯一途径,但今天为什么液冷技术在数据中心所被采用的程度非常有限?这个原因是什么?开始的时候李博也讲了,液冷并不是一个非常新的技术,其实,它在上个世纪六七十年代,IBM在大型机里面已经采用了液冷的技术。在最近的20多年里,我们可以看到很多人在预测说,数据中心将有更多的液冷应用,但我们主要是在两个领域发现有非常广泛的应用,一个是游戏领域,另外一个是高性能计算领域,比如说我们的超算。
所以我们就进一步分析,到底原因出现在哪里,这是今年3月份谷歌在美国OCP峰会上分享的一张图片,分析了过去40年芯片的发展历程,红色是我们所说的芯片的功耗,因为因特尔为了控制芯片的功耗,它把每个芯片功耗控制在150瓦以内,基本上是130到150瓦,那就必须要控制芯片的频率,就是我们所说的基频,这个频率不能一直提高,一旦但提高芯片的功耗会增加。那怎么样可以提高芯片的计算能力?
一个途径是增加核心的数量,比如说一个芯片有1千个Core;另外一个途径是增加晶体管的数量;还有就是通过提高单线程的计算能力来提高芯片计算的能力,但是每个芯片的物理空间是有限的,我们无法一味地增加Core和晶体管的数量。同时,液冷没有被广泛采用的另外一个原因就是说我们数据中心行业是一个非常保守的行业,有人担心我的水进服务器会不会有风险,害怕去采用新的架构,还有对于不确定的可靠性、可维护性的担忧,造成了我们对液冷技术的采用是非常有限的,但最近两年随着人工智能的爆发,人工智能将GPU和高功耗的CPU引入了数据中心,这是阿里巴巴在OCP峰会上分享的一个图,从这个图中我们可以看到,其实就是因特尔也不再控制150瓦的上线了,因为阿里巴巴很多是定制化的CPU,在2016年已经突破了150瓦每个芯片,达到是165瓦,GPU芯片的功耗远超过CPU,在250到300瓦的范围。
所以我们在思考CPU的功耗还可以往上提吗?在新的因特尔CPU中,可以提高到200瓦以上,从而可以提高CPU的频率来提高芯片计算的能力,AMD的GPU功耗也超过230瓦;这是Nvidia给特斯拉定制的芯片,每个芯片高达300瓦的功耗,我们在面临这么高功耗芯片的时候,有两种主要的液冷解决方案,一个是芯片级液冷一个是浸没式的液冷,在国内被称为冷板式或者浸没式的液冷,这两种液冷各有优缺点。冷板式可以对绝大多数的传统服务器进行翻新,缺点是其他的部件仍然需要传统的房间空调进行冷却。浸没式的优点是消除了对于传统服务器风扇的需求,但需要对服务器主要是我们的主板进行重新的设计。所以为了量化这两种液冷与传统冷冻水系统之间的对比,到底优势在哪里,我们从数据中心、楼宇的角度进行了投资成本的分析,同时也进行了运行成本的分析。
我们的分析发现,浸没式液冷相对于冷板式液冷在TCO方面是占优的,如果单独从制冷系统的节能角度来看,冷板式液冷可以节省15%以上,浸没式可以节省57%以上。如果从整个数据中心能耗的角度来看,冷板式可以节省5%年度能耗,浸没式可以节省15%,这是我们对于液冷1.0的分析,我们现在正在进行液冷2.0的分析,我们在考虑如果可以对服务器的主板进行优化,我们可以在一个主板上放置更多的GPU和CPU,我可以把传统42U的框架浓缩成十几U,这样液冷技术可以获得更大的经济效益。我们正在帮助我们的客户做整个液冷2.0的分析。
我们再看一下今天在全球对于液冷的解决方案供应商有哪些,现在大概有20家,我们列举了在这个行业里面做的比较好的,对于芯片级液冷,做的比较好有ASETEK和COOLIT,其实在芯片级液冷这方面我们可以创新的余地不是特别大。我说的这两家都采用的是去离子水作为冷却液,对于浸没式的液冷我们认为做的比较好的主要有两家,一个是ICEOTOPE,还有GREEN REVOLUTION。 ICEOTOPE是施耐德电气投资的一家浸没式液冷解决方案供应商。在这里我并不是要去强调到底是芯片式液冷更好,还是浸没式液冷更好,因为两种解决方案各有优劣和不同的适用的应用环境。我们要做的是在考虑对于芯片级液冷是否可以在服务器里面增加更多的换热器,从而来冷却CPU、GPU之外的其他设备,这样我们可以消除对传统的房间级机房空调的需求。
对于浸没式的液冷来说,很多人抱怨3M的液体很贵,冷却液的价格将决定整个方案的走向,我们是否可以采用半浸没式的方案,比如,我们在每一U的服务器里面进行一个强制性的内循环,这样可以节省冷却液的使用,同时也可以降低后期维护和运行的成本。中国有一句话说我们不管白猫黑猫,抓到老鼠的都是好猫,客户不关心你到底是用哪一种,如果能够以更高的性价比解决客户的问题,这个对于客户来说就是个最佳的方案。
所以关于冷却液的讨论我们主要集中在这5点,冷却液的价格、与IT设备的兼容性,还有传热特性,经过很长时间的运行,在表面会有膜状的沉积物,它会影响我们的换热,我们能否通过整个液冷系统的过滤器进行过滤,这个也有待于商榷,还有对于环境的影响,就是对于臭氧层的破坏,还有温室效应的影响,我们都要进行探讨,第五个就是要从整个生命周期的角度去看待问题,我们液冷系统在超过5年或者是10年运行的时候,我们需不需要进行液体的更换?所以在5年的时候我们就打了一个问号,是否需要5年以后进行更换,这个也要进一步的研究。
我今天主要来跟大家强调人工智能的爆发,促使了我们芯片功耗的增加,比如说高功耗的GPU,谷歌现在用的是TPU,还有超过280瓦以上的CPU,液冷可以解决风冷在面对高功耗时的问题,比如说噪音、风量这些问题,最后如果想要在数据中心进行大规模液冷的部署,必须要克服的几个问题,需要对服务器主板进行重新的设计,另外一个就是需要对数据中心从系统的角度进行重新的设计,尤其是数据中心的供配电系统,当功率密度高达100个千瓦每机柜的时候怎么来进行供配电的设计,这是一个非常具有挑战性的思考,我们如果想要在全球进行大规模液冷的推广,我们需要一个全球的供应链来进行支持。
这是我今天的分享,谢谢大家!