中科院大气物理研究所的郭振海主任发表致辞
尊敬的各位领导,各位朋友,大家好!
我今天下午跟大家分享一下,就是我们关于地球模拟装置用液冷方面的一些经验。
这个是按照模板来的,大概有三个内容。先跟大家介绍一下背景,20世纪有两个重大的科学进展,其中一个就叫做数值模拟,就是用计算机来实现对于真实世界的模拟,这是一个最伟大的科技进步。
中科院大气物理研究所的郭振海主任发表致辞
气象在这个里面是进步最快的,在20世纪以前我们大家看到的天气预报都是很粗旷的预报,上世纪末到现在已经开始过渡到一个新的阶段,就是我们现在用的数据天气预报,气象也是用计算机模拟最早、最多的一个行业。气象模拟的时候就是要把我们人类活动,以及所有空气里边的物体活动都考虑进去,去计算,海洋、大气以及其他的东西,这个就不跟大家介绍了,我们就是要把这些东西变成数字在计算机上进行计算仿真,这个计算量非常的大,这就需要一个很大的计算机来支持。
这个支持就是为了完成这个东西,我们实验室的计算机在上世纪80年代后期在国内一直是领先的,从美国最早的马科斯机器开始,后来因为经济的发展,实验室包括所里的计算机可能相对于其他的行业又落后了。
地球模拟装置是十二五里面16个中国大科学装置之一,这就是要造一个地球模拟器装置,来模拟地球气候演变,看一下我们的地球未来是一个怎么样的,怎么变化的。这个是在曙光大气所计算所数据中心启动的项目,这是一个预研项目,项目投资1个亿建的原型机,现在已经完成了项目验收。另外,真正的地球模拟器装置已经获批了,现在正在建设中,项目总投资是15亿。
以上基本是该项目的背景,地球模拟装置是所里跟中科曙光一块来做的开发,采用的方案是微模块的风冷模式加上冷板式液冷服务器,项目总共有128箱TC4600E-LP,大约1000+的液冷刀片计算节点,因为超算对网络的要求很高,所以我们的超算里面采用的是3D-Torus架构交换机,这个在2015年是非常先进的。后面模拟器装置还有两个,一个是今年9月份建成的,一个是明年建成的两台,都是这种架构的。
这个原型机的计算量也很大,包括机器和外部的建设用了3个月,这边是建在了北京曙光的基地里边的,这个是做了一个硅立方的立体机房,在有限的时间内把所有的IT相关设备都放进去,在短时间内做成了一个非常漂亮的外观结构,目前在国内有三个地方建设这个东西,有的城市是作为一个科学的景观存在的。
这个是挖了一个地基,浇筑水泥结构,然后焊接刚结构,再是外观喷涂就建成了一个立方体的形状,外面用玻璃罩给罩起来,它的液冷制冷设备闭式冷塔都在外面,很多设备都在外面,这样的话占地面积少,该预研项目总的造价是一个亿,它的计算能力应该是不到1P,因为那个是三年前的设备的,这个是地球模拟器的原型机,从外观上是个魔方,它的整体架构是6mx6mx6m的立方体,在里面运用机架堆积起来的一个魔方结构,它的计算刀片都在里边,冷却的设备都是通过从下边输送液体,然后进行分液对服务器进行冷却。
这个服务器采用风冷和板式冷却组合散热方式,一个是低温空气的气态冷却,一个是板式的冷却,气态的PUE高一点,很难把它降下来,基本上是1.5,板式的液冷平均可以达到1.1以下,还是相当不错的,这是计算节点的一些设备。
这个做完了以后,一个是用液冷以后这个PUE降到了1.2,CPU的温度也降的很低,跟风冷不一样,风冷CPU的温度在80℃以上,用液冷以后CPU的温度可以降到40-50℃。另外它的噪音也降的很低,大约在55分贝,就是在那个机房里面工程师在里面待不是很难受,原来风冷机房的噪音很大,在机房里面呆着很难受,现在这个CPU的性能也提升了,最关键的是它的系统变的稳定了,因为像这么大的系统我们也是第一次用,但总的来说,用了液冷技术以后,系统还是相当的稳定。
系统的设计基本上就是这样的,是一个模块化的组合东西,用刀片组成刀箱然后做成机架,机架架起来就变成了后边这样一个立方体的形状,相对来说就是一个非常高密度超级计算的装置。
这个里面最关键的一点就是强调网络的连接情况,因为这个里边我们在计算的时候,有多大都给你用上,就是一个作业在这个里面几千个节点全部用上了,这样的话每个节点之间就频繁交换数据,因为现在这个用的跟人工智能的差异很大,这样对于交换的网络要求很高,现在用的是3D-Torus的网络,我们现在最新的是用了6D-Torus的,网络性能会更好,是这样的一个情况。
这个是硅立方里边计算的网络存储制冷等等,都把它放到一起来了,我强调的就是在网络里面,因为它的连接距离短了以后,网络的性能提高了很多,在这么高密度的计算单元下,它的制冷发挥了一个很关键的作用,把这么多的东西放在一起,你的制冷不行的话,那个系统也会变的不稳定,所以制冷在里面发挥了比较关键的作用。
另外一个就是说这个东西地方小了,不像原来有一些超算整个大楼,很多的人,现在就是一个小东西放在里边,但是它的密度很大,你看着很赏心悦目。
我们的地球模型器原型机,这个是基本原理,这个地球模拟机设计的也是按照这种科学的原理来设定的,因为地球系统里边包括很多部分,包括气候、海冰、海洋、冰雪等等,人类活动很多东西,这个系统是全球里边有各方面的科学家参与的,有气象、地质、地理、生物的,做出来的软件,这个是全球公开的,大家共同努力,所以做出来的东西,这么多人为一个软件工作必然会有一些东西,我们把这些东西做成了一个系统,这个通过软件技术,比如说耦合器,把不同的组件放在一起来运算,在硅立方里面,通过网络设计也是按照科学上的布局来做的。从设计上来说,这个制冷也好,硬件设备也好,跟最终应用的是连在一起的。
这个是跟大家分享一下测试。这个是风冷反馈的数据,在这个节点上一个CPU是72℃,一颗CPU是80℃;这是液冷反馈的数据,两个CPU的温度,一个到了42℃,另外一个也是41℃,就是说用了液冷以后,这个温度降低的相当显著,这个里边从测试来说,液冷的单节点效率比风冷的节点提高了5%,这是两个硬件设备完全相同的,只是采用不同冷却方式的比较。
还有一个特点,就是CPU的温度会有差异,因为这两个CPU风冷有差异,但是液冷的温度几乎一致。这个是测的PUE的值,这个是在不同负荷荷运行的时候,液冷在1.2多一点点,1.22或者1.20,总的平均是1.21,还是达到了原来设计的要求。
这个是说平均的PUE可以到1.21,满负荷的时候,总的平均一下在1.2以下,这个还是比较好的。这个是数据中心的平均PUE,这个是先算算钱,这一台机器每天省电能够省接近8000度的电,3个月要省69万度电,在北京按1元的电费计算的话可能要节省70万块钱,这个制冷还是相当显著的。
另外就是煤和CO2排放就不管了,总而言之就是说,液冷技术最关键的一点就是系统稳定了,这是第一个。第二个最主要的就是省钱,电费这个还是比较显著的,这是我们比较看重的,因为这个运行费是要我们自己来掏的,省了300万还是相对来说比较可观的。
给大家分享一下在这一台机器上完成的一些科学上的成果,或者是比较显著的结果,这是我们在科学研究上做的东西,我们为什么要用超算来做计算机呢?这是我们参加了一个国际上的比较计划,就是全球30个公司来参与,就是比较谁牛,我们是比较过去二万一年末次盛冰期的变化,还有1850年到2100年全球气温的变化,这个做了一个6千年的模拟,这个是产品的数据量约22TB,这是在2年前完成的。我们现在也在做一个计划,这个数据接近2P,全球如果共享的话可能要到1千到2千个P左右的数据,这是科学研究里边的一些东西。
这个可能大家都清楚,大家都知道厄尔尼诺,就是对全球气候变化影响比较大的,我们也是可以对它进行模拟,并且现在我们对于它的预测技巧也在提高,他就是在赤道太平洋上有一块海洋的温度上升和下降,就会引起全球的变化,对于我们国家的影响就是旱涝增加,这是我们研究的一套模拟软件,也是在这个系统上去完成和实现的。
另外一张关于云的模拟不给大家展示了,总而言之就是这一台机器总体的用户体验从制冷到各方面来说都是比较满意的,我们现在有三套系统正在做,我们有一个6千万的,还有明年建成15个亿的系统都是来做这个事的,制冷的方式也是液冷的方式,我就跟大家分享到这儿,谢谢大家!