曙光节能技术股份有限公司副总经理张鹏发表致辞
大家下午好!刚刚张总的话锋一转,谈到廉价计算力,也是一个很意思的事情。我这边还是说回超算,因为曙光是超算起家的,当然现在也做通用服务器。首先非常荣幸能够站在这个舞台上跟大家分享一下我们曙光的液冷产品。
曙光节能技术股份有限公司副总经理张鹏
PPT分三块,第一块是公司介绍,其实曙光节能是属于中科曙光集团的,是17年1月1号才独立出来的,之前是集团的数据中心产品事业部。节能目前主要做两块,一个是数据中心基础设施,还有就是液冷这一块的东西。前一段时间也上市了,新三板,如果大家看好我们,欢迎投资。
说一下公司产品线,一个是风冷,一个是液冷,风冷这块其实就是微模块,微模块我们做了将近10年了。按照不同的应用需求分为C500、C1000、C2000,还有C7000。C7000是有点特色的,前段时间的“中国天眼” FAST,就是我们的C7000,是集装箱式的,其中有一小部分是外机,另外一大部分就是计算机。特别适合不具备机房建设条件,又考虑可移动性的情况。这一块是一个外机,里面就是计算机。
然后就是液冷,曙光有两个液冷产品线,一个是冷板,一个是浸没。浸没其实是分为两个技术流派的。一个是相变的,一个是非相变的,曙光这两年主要是在相变这一块发力。今年下半年刚推出了一款商业化的产品,从生产、售后整个一条龙服务的真正可以买得到产品,是36U的机柜,做到了单柜65KW,为什么是36U先卖一个关子。
我想先聊聊PUE,刚刚很多同行都在算PUE,我之前看过一个标准,好像叫做什么数据中心能耗测试规范,里面提了一个概念挺好的,是叫做CLF,就是制冷负载系数,实际上就是把配电那一块的损耗抠出去,单看制冷耗电与IT设备耗电的比值,就是说PUE等于制冷的PUE加上配电的PUE,如果严格来看应该是加在一块算的,所以当大家将PUE的时候,应该问一下你的PUE是怎么算出来的。另外正儿八经的PUE应该是按年均算出来的,而不是满载瞬时PUE,因为轻载的时候PUE是吃亏的,”大马拉小车”嘛。而很多IDC全年平均负载才百分之五六十,HPC的负载可能波动更加大,所以说年均PUE是很有意义的。另外说一下,实际上曙光在低载时的一些节能策略也是做了很多工作的,比如底载的时候,把泵变频或者说关掉一些泵,这是很简单的节能逻辑。
冷板刚刚很多同行也讲过了,曙光做液冷是2012年开始的,15年推出了4U8的刀片式冷板服务器TC4600LP,做冷板的同行很多啊~ 这里说一下曙光冷板有几个特点,一个是我们热插拔的,最大程度方便用户使用;一个是我们采用的不是软管的,都是金属硬管的;还有就是我们不仅解CPU的热,还解内存的热。还有一个,我估计可能很多同行都意识到了,我们加大了温差,现在提的是10度温差,实际上我们已经在做15度的了,温差越大意味着CPU的温度越差,或者说越不均衡,但是温差大的话,好处在于我们的管路可以很细,泵功也可以减少,这是一个很好的点子。
说一下曙光冷板的案例,这个案例,刚刚大气所的老师也谈到了,当时只解CPU,没有解内存,其实到现在已经更新迭代到第三代了,在最新的第三代上,充分考虑了内存插拔的维护问题,考虑用户使用的需要,非常方便得插拔内存。
下面说一下浸没,我们是相变的。今年推出了C8000R,就是机柜级的,130个千瓦,我们叫一拖二,中间是液冷柜,它去解左右两边的两个计算柜,这个是36U的,其实36U主要是为了兼容我们曙光搞的立体数据中心,我们现在其实也在研发42U的机柜,现在还没有正式推出产品,单刀片达到了3.5个千瓦,单机柜密度达到150kW!密度非常高,这个我要说明下,主要是应用的需求不一样,超算对密度非常敏感,恨不得单柜能做到200kW,但有的应用不需要,比如有些互联网应用单柜8kW挺好的,为什么要给我搞200kW。这个产品里面一共是是48个刀片,单刀片2.5kW,加上后舱,一共是130kW。
这个产品的进水是按照35℃设计的,可以轻松全年自然冷却。有些用户可能现场没有冷塔,没关系我们12度也OK;供电是我们采用的是高压直流是380V的,现在很多数据中心是240V或336V的,但是超算功率密度太高了,那么大家都明白,电压越高肯定有很多的好处。三组36U机柜一共是2.8吨,之前大家觉得这个浸没肯定很重,实际上真的细抠起来,做好填充等一些处理,包括我们的材质选择,实际上是还好,1吨每平米的承重就够的。
这是一个全密封的相变浸没式刀片,基本原理就是液进气出,还有热插拔的,这个图是比较早了,放了4颗GPU,这个我们做到了解350W,其实我是希望GPU能到500W,因为发热量越大,对于相变散热就越有优势。这是液冷柜,中间这个是一个冷凝器,实际上是各个刀片发热后的热蒸汽通过集气管路,全部导到这个冷凝器里面,然后冷凝后就变回液体,再通过这个泵打回去,就是完成一个循环。
最后作为曙光的,肯定要聊聊超算,曙光的看家本领是超算,93年成立就是搞超算起家的,曙光12年筹备上市到现在很长一段时间就没有做大型机,因为其实做大型机是赔钱的,10年搞了一个星云,当时是世界第二,没有拿到第一,这张PPT是说现在超算有点军备竞赛的意味,中国搞一台快的,美国就再搞一台更快的。其实国家十三五就计划要搞E级机,就是每秒完成10^18次的运算,这个可不是大兴土木啊,不仅是国家战略,而且其实很多地方是需要这种非常高的计算力的。
我们是两年前接了这个的任务,今年7月份是顺利验收,算是成功研制了E级的原型机,其实通过这个原型机论证我怎么能做1千P。现在国家的规划是要到2020年搞E级机,这video是我们去年做的,是曙光E级原型机的宣传片,这个就是液进汽出,后面会讲到曙光的立体数据中心,因为超算对于网络的诉求是非常高的,但AI不一定啊,应用不同,超算每个节点都要连接高速的光纤,我们现在用的是200G的光纤,一根光纤就1千多美金,其实这个立体数据中心就是为了降低光纤从节点到交换机的距离,这样就省钱了嘛,所以我们要做成立体的一个立方,其实是一个朴素的方法,就是一个6米乘6米乘6的一个九宫格的概念,下面是水路和存储设备。
刚才郭老师也讲了,我们现在的网络结构已经从3D-Torus进化到了6D-Torus,也就是从6个方向去互联,这就是6D-Torus,另外其实高速交换机也需要液冷,因为交换机前后全部插满了光纤以后风阻是不可想象的,所以我们的Torus交换机是用的冷板式的。这是一个照片,可以看到这是三层立体的,中间肯定是网络交换机,这些计算节点是围绕着交换机立体部署的。
好!我的分享到这些,谢谢大家!