百度在线网络技术有限公司高级系统工程师井汤博发表致辞

  • ODCC /
  • 9 August 2018

大家好!因为我这边是在ODCC从去年9月份参与进来,也将近1年的时间了,我也结识了很多的专家,我们也一起起草了一些相应的规范。进入百度之后,我接触到了百度很注重技术,一直在研究比较高新的技术,然而在做的过程当中,到目前为止进度还是比较慢的,不管是我们公司还是整个社会的产业,其实你会发现并不是说你越新的技术,或者是越好的一个东西,大家就一定会用或者是一定卖的开,这个时候我就要想,到底是怎么样的一个思考方式,让我们的技术更好的为百度公司去服务,更加符合我们的业务。
所以我今天主要讲的也是代表我自己的个人观点,在百度做了液冷一年的时间,的过程当中一些思考。大概是分三部分,一部分是从哪一个角度去考虑这个问题的,液冷到底怎么去用。第二就是细分一下,就是用5W1H德方法,最后给大家总结一下。

百度在线网络技术有限公司高级系统工程师井汤博

液冷我是觉得本身这个技术到底用不用它,其实考虑的东西非常广泛,之前各位考虑的都是说PUE或者是什么的,主要是从自己的角度去出发的,因为我也在设备厂商工作过,更多是从卖产品的角度去考虑,如果用户不一样,可能是超算或者是中科院相关的客户他有自己的一套需求,对于互联网公司而言,我们有我们的需求主要是分为几块。
第一块就是WHY,百度为什么要做这样的东西,为什么要用液冷。第二个是what,现在如果要用,有哪些技术可以让我去选择。第三块是why,就是说我选了以后给谁用,因为我是在百度系统部,这是最底层的一个业务,我是给所有的部门打工的,我不是要卖我自己的产品,而是让我们公司其他业务稳定运行,所以我要想为我们公司的哪些产品去服务。还有就是即使用的话在什么时机用(when),同时在哪里用(Where)我在什么地方去用,或者说涉及到我们选址的问题,最后是如果用的话如何去设计(How)。
第一块大家都讲过了,我们这个东西大概液冷分哪些类,从我们之前调研的角度来看,大概是冷板式或者和浸没式,包括单相、两相的,现在百度对于冷板也已经有了一部分的部署,在我们自己的数据中心也有了一个小规模落地,并且即将在今年年底有一个中等规模的部署,同时我们也在考虑用相变或者是一些环路热管的技术。
对于浸没式我们也在了解,其实也是跟行业的一些专家和公司进行了比较深入的交流,今年也应当有一个浸没的实验机,明年或者后年有一个小规模的实验。大概分这几类我就不细说了,它们有各自的优缺点。
对于百度而言驱动力是什么,大家说密度越来越高或者包括芯片什么的,这个是事实,我还把这个公司给列出来了(Google),百度,很多东西其实都在跟着它相似,最开始是搜索,包括后来的人工智能,百度现在主要是两块,一个是主航道,一个是护城河,主航道就是我们未来的方向人工智能;护城河是传统的业务比如搜索,是我们的现金流,人工智能是我们的未来。
我们做这个东西(液冷)就需要去考虑,为什么这么好的技术做不起来呢?或者说如果做起来需要靠什么呢?我是觉得除了芯片技术以外,最根本的还是需要有一些带头大哥,需要有一些公司他有足够的魄力,比如国内像阿里巴巴就是一个非常好的典范(浸没式液冷规模部署),像国外我觉得谷歌、FaceBook他们都是引领了一代,OCP这种开放硬件,其实这个东西就是属于自己定制服务,这是一个共享电源,共享的冷却,其实也引领了包括全球各个公司的响应。这种冷却方案,谷歌的TPU从16、17、到18年,快速从风冷散热到冷板液冷,它的每种变化会牵动全球的数据中心发展趋势,除了大家提到的这些以外,作为ODCC里面的企业,我们是非常有责任去引领这样的一个潮流的。
另外我觉得那里是适合用,我大概分析了一下,最下边的落脚点就是三个字TCO,因为百度分析来分析去,最后其实就是看TCO,很多人说液冷上的PUE比1都低,百度年均PUE在1.11以下,这个是含了配电值,我们的cooling部分的CLF大概是0.05以下,当然这是我们本身采用的天蝎服务器,一年至少90%多的时间是可以不用完全开冷机的,所以单纯去看液冷的PUE多低本身没有特别高的竞争力。
所以时候我们就要看到底适合什么地方,就像阿里刚刚也说了,我想的也是一样的,最终的结论还是要找一个适合的地方,第一块就是地价,土地就像北京二三环里面的地方特别贵,这种你去建大型的冷站是不合算的这个时候液冷可以发挥高密度的特点。
第二个PUE再怎么降也比不过电价降一半,所以这个时候我觉得有两块,一个是气候,如果你在比较湿热的气候这个时候液冷本身有优势,或者是水电费如果当地很难谈下来,液冷有它的优势,这个时候可以把它的价值最大化。同时还有我们的人力,这个也是关于我们讲的边缘计算,为什么在比较偏远或者是无人值守的地方,它的优势会体现出来,就是不需要那么多的运维,这个有两个部分,最终又并成一块就是省钱,所以我们百度特别践行的一种就是精细化的TCO的核算,最终都要核算到钱上。
因为我之前是做风冷空调设备的,我对这种传统的风冷方案非常了解,你会发现其实这个非常神奇,历史都是惊人的相似,往往是风水轮流转,最早人们还是很自然的水冲一下,倾向于用液冷了,后来发现密度并没有那么高,这个时候人们觉得我也开发一种精密控制的一些设备,我可以用风冷的一些空调,后来发现我用风冷的精密空调,房间级空调;再后来新时代了,对于云计算或者是超算,人们想能不能用近端制冷,其实就是越来越贴近热源,再往后就是现在,现在是各种架构比较混合的时代,既有中密度的服务器,又有高密度的计算,当你的密度达到了必须要用液冷的时候,人们发现之前抛弃了液冷现在又捡回来。
那我在想到底什么时候这个东西才能用上?我是觉得什么时候能用不好说,因为需要一个历史的机遇,对于百度而言我们现在相关的冷却技术都有涉及,但关键是我们要把这些技术掌握了,在合适的时机有一个合适的切入。
还有哪些场景,这个是互联网公司跟其他的差别比较大的,特别是我们做底层硬件支持的部门,最终这个方案能不能用,用什么方案,最根本取决于业务场景。传统业务,比如搜索、网盘这种传统的业务,它有一个特点就是不需要高密度的服务器,但对可靠性对低成本要求特别高,而且业务也比较稳定,不需要快速部署什么的,只要差不多就行了,这种业务,比如用浸没式液冷我觉得完全不可能,对于冷板式液冷还有一点思考的空间;我们的云计算它的密度稍微高一些,但也是属于合理的范围之内,这个时候不仅要考虑成本了还要考虑弹性的快速部署,液冷这个时候可能会有一些机会。
对于百度未来AI的训练,可能有一些GPU的服务器,这个时候功率的密度比较高,但是实话说密度也就是20KW多的水平,当然未来还有很多的空间,就比较适合冷板式液冷的方案,今年还是去年有一些地方已经发布了,明后年有批量的部署。对于浸没跟冷板相比它的TCO到底优势是在哪里,如果再往上对于区块链、比特币或者是量子计算,这一块的业务百度也在做,只是属于孵化的体系,就是未来技术的一套体系。
甚至是关于低温的冷却,我们都在做一些技术的储备,总而言之我们现在做的一切方案,最根本都是要为最顶层的业务去服务的。
最后就是我们怎么去用液冷,我觉得这可能也是我们非常重要的一个部分,如果光说我买来一个设备,但没有想如何去规划和设计它,其并没有发挥最大的价值,包括风冷精密空调,行级空调,还有OCU(顶置对流单元),包括背板方案和热管方案,这些分案都是百度正在用的方案,而且都有它们各自的特点。
我们如何把这个设计更好发挥液冷的优势,比如说去冷站,把内部的风道或者是相关的东西给进行简化,设定一个专门为液冷而用的数据中心,可能这个是未来非常重要的目标,这是从设计上。
另外是从运行优化上,这个是我摘美国ASHRAE TC 9.的白皮书9,就是说液冷的温度分几类,一个是用冷机,一个是用自然冷,还有就是用热回收。我们应该想如何节流,也就是节能;另一个是如果用热能去产生价值。我们这个里面其实有很多的事情可以做,第一点就是怎么样让系统设计让它的换热进行一些优化,让我们的液冷发挥最大的价值;第二就是如何让液冷温度变的更高,让它品味更高,更适合热回收再利用。
最后我列了几条,这也是我跟项目组相关的同事一个大致的想法。第一个,我觉得不管是我们,还是生态链的每个厂家,都仅仅关注自己的那一块,如何为我们的下游或者是整个产业去服务,我们要从多方面去考虑。
第二块我觉得现在的关键是寻找一个合适的场景,这个场景可能对每个公司和每个行业是不一样的,同时我们设计的也不能说像传统那种风冷的思维去设计,不管是服务器还是数据中心的建设。
最后一块我觉得还是需要从用户到设备、设计院到下游的一些器件都需要相互的协同,才可以把这个产业去做大。最后我就非常欢迎大家一起与百度和其他互联网公司,一起去共建液冷的生态,谢谢大家!