NEWS INFORMATION新闻动态

关注微信公众号

首页  >   新闻动态  >   行业动态

2016 ODCC技术分享和成果宣贯会纪实

2018-01-16

4月14日,2016年ODCC技术分享和成果宣贯会在深圳市罗湖区召开。

ODCC(Open DataCenter Committee,开放数据中心委员会)成立于2014年8月,是以用户为代表牵头、牵引成立的开放性组织,宗旨是开放、协作、创新、共赢,推动数据中心行业的发展和标准化。发起企业为百度、腾讯、阿里巴巴、中国电信、中国移动、中国信息通信研究院和英特尔,现在已发展到40多位的成员。ODCC现有服务器、数据中心、测试认证和网络共4个工作组,基本上每个月都有一些会议,每年也有年度的峰会。

2015年11月在北京召开的ODCC峰会上,公布了非常多的成果,本次技术分享和成果宣贯会是半年来规模最大的一次会议,逾五百位来自全国各地的行业人士和用户参会,由两位ODCC副主席——腾讯服务器平台总监兼网络架构中心副总监邹贤能与中国移动研究院大数据与IT技术研究所副所长侯志强——主持,来自百度、阿里、腾讯、中国移动和中国信息通信研究院的工作组成员分享了数据中心、服务器和测试认证工作组的最新进展,希捷、迈络思(Mellanox)、科华恒盛等会员单位代表也对各自领域的技术发展进行了介绍。

数据中心:合纵连横

数据中心工作组与ODCC“同岁”,运作至今,已经超过一年半的时间。数据中心工作组组长、腾讯IDC技术发展中心总监朱华表示,数据中心工作组以输出标准、白皮书规范为工作的主要方向和输出物,原则是尽可能做最佳实践的总结,核心能力是创新。

数据中心工作组的工作安排主要是组织架构搭建、完善工作、会议组织。四大工作组都是以项目的机制来运作,立项与否均经过充分的考量、讨论。数据中心工作组之前有微模块、预模块、电力模块和监控模块四个项目组,微模块和电力模块在去年的ODCC大会上都有成果输出,监控模块已经基本定稿,预计在今年5月份输出。

ODCC数据中心工作组项目经理、腾讯数据中心架构师张海涛解读了微模块技术规范及微模块数据中心发展报告。微模块项目符合在比较好的颗粒度基础上构建整个大型的数据中心的业内大趋势,项目组一开始就从需求侧发掘,从IT侧着手建立比较小的模型,然后迭代出大型数据中心,这也是腾讯在自己的数据中心建设中挖掘出的经验。微模块被定义为一体化微型模块化数据中心,里面包括UPS系统、冷却系统、机柜、 PDU、管控系统、安防及照明、结构系统、综合布线,一体化交付,给水、电、网络就可以投入运营。模块化数据中心工作组未来还有很多工作,如配电侧、冷源侧、建筑等都是工作的方向。

据保守估计, 2015年国内微模块保有量是1100多套(在运行),可支持的服务器数量是40万台,比2014年多了1倍多。预计在2016年增量可能达到将近100% ,即总量1900多套,支撑的服务器数量达到70万台。很多供应商、厂商做了很多的微模块项目,可能没有在统计之中,而大家做了这么多微模块,属性、定义、方式都不太一样,也正是微模块项目要通过标准化来解决的问题。

微模块项目组提取了行业内的微模块供货商和BAT三家的需求,以最大的需求方向为主,拟合出五种典型模块的需求,能够覆盖行业内所见到的绝大多数客户的需求。有这个方向指引,很多设计可以参考,供货速度会更快,供货质量会更高,同时经济性也会更好。

张海涛以腾讯资深的应用为例进一步说明了标准化微模块架构的好处,而随着这个架构带来的就是自己定义了腾讯的监控系统标准,包括南向、北向的监控接口,还有监控需求。

数据中心工作组2016年新增的项目中,其中一个就是百度资深系统工程师颜小云负责的运维成熟度项目组。颜小云认为,行业里不是没有成熟度,也有国际运营的管理标准,然而“他们只讲标准和要求,但是不讲如何实现这些要求”。

在本次大会中,他还分享了DCIM(数据中心基础设施管理)在大型互联网数据中心的落地和应用,表示DCIM要做的是让各种跨系统(如IT监控系统和动环监控系统)、跨空间(如不同的数据中心)的数据产生收益,给数据中心带来价值。但是,让数据产生收益并不是那么容易的事情,颜小云认为当前在DCIM落地时有两个比较大的困难,并提出了针对性的解决方案:

一是数据获取困难,不同的设备,来自不同的供应商,不同的监控系统……格式和协议等缺乏统一的标准。

对策:统一命名和定位规则、通信协议(并支持控制)。

二是真正有价值的应用少。简单的整合并不能带来价值,缺乏基于数据之后产生的价值应用。归根到底,原因是现在的厂家不能很好的理解大型数据中心里面用户的运维场景,从而难以做出贴近用户需求的模块。

对策:有真实需求的大体量客户(如BAT)与有开发资源的厂家合作开发,前者输出最佳运维实践体系供厂家和小体量客户参考,后者总结固化直接提供给小体量客户,形成一个良性循环。

朱华将数据中心标准体系建设分为两个维度,设计和运维属于生命周期的维度,另一个维度是精细化。数据中心选址既是数据中心整个生命周期的第一步,又涉及一套完整的方法论。今年刚刚立项的数据中心选址白皮书由朱华亲自牵头,他在演讲中出示了大致的纲要,并呼吁大家一起贡献智慧来做,因为中国实在是地域辽阔,需要因地制宜。

不过,既使规模大如BAT,也还做不到全部使用自建的数据中心。特别是在海外,租用数据中心是现阶段必经之路。譬如,电信运营商有很多传统数据中心,以前老的交换机房、存放传统电信设备的机房非常多,在使用效率方面、技术方面都存在问题。ODCC数据中心工作组项目经理,阿里巴巴IDC技术专家陈炎昌在传统数据中心的创新分享中,融合了关于阿里对于数据中心创新的很多理念,以电气类和暖通类的创新为例,证明传统数据中心在经过很多技术优化之后可以做的很好。

服务器:再上层楼

深圳这座城市,对服务器工作组有着特别的意义——2011年11月1日,其前身“天蝎项目”就在这里诞生。

作为天蝎项目的发起人之一,现任ODCC服务器工作组组长的百度高级技术经理张家军回顾了天蝎整机柜服务器的发展。在不到5年时间里,天蝎从1.0到2.0,再到2.5和3.0,中间经过5个版本的迭代,发展节奏很快。交付的整机柜的数量也非常多,到目前为止,已经大规模交付了超过6000个机柜 ,也就是大约有15万台服务器是基于整机柜模式交付的。由于大型互联网客户的IT基础设施规模巨大,天蝎整机柜对采购和运营成本的降低非常可观:一年数以十万台的服务器采购,每台服务器节约100元,一年下来采购成本的节约就可以达到上千万;在每台设备上有3到5瓦的功耗节约,一年下来的运营成本也是千万量级。通过努力把每个点做到极致,追求TCO的降低,服务器工作组在发展过程中走了很多的弯路,最终形成了自己的模式。

天蝎整机柜的部署与应用需要数据中心的支持与配合,张家军分享了月初在西部某省考察的感受:当地三大运营商分别交流各自数据中心整体设计规划时,讲的第一条就是现在整个数据中心的设计是无缝衔接天蝎整机柜。参观一个整个框架结构和基建已经做好的数据中心,看到整个大院子的设计可以支持集装箱的进入,还有大的卸货平台,包括升降平台、电梯、地板的承重,每个环节都按天蝎整机柜规范提出的要求做。之前邀请中国电信、中国移动以及中国联通加入我们ODCC里面,其中一个目的就是希望推动运营商更好的支持设计的发展。今天我们发现西部某省也都关注这个事情,甚至朝着这个方向努力,说明整个数据中心的生态在日趋完善。

服务器工作在2016年的量化目标是承诺在2015年3000个机柜的基础上,今年保守做到4000个机柜,甚至更多,使整个规模有保障。同时,天蝎2.5和3.0,以及多节点服务器也将齐头并进。

ODCC服务器工作组项目经理,阿里巴巴服务器研发高级产品经理刘礼寅在天蝎关键技术新进展的分享中,介绍了天蝎2.5和进一步模块化、标准化的工作。天蝎2.5在2015峰会上已有介绍,有两个比较大的变更:

一是机柜级BBS(电池备份系统),相当于机架内的UPS,要做到双路和单路的市电直供,电池通过RMC统一管理。

二是节点的混插互换,这是BAT三家,乃至运营商都非常看重的,因为业务需求今天从A站点搬到B站点,B站点的服务器提供商不是A站点的厂商,而一些节点可能需要插到B厂商的机柜里,就一定要支持节点混插,给用户和运营提供灵活性。

更进一步,工作组正在着手设计代号Purley的服务器公板,不仅是给百度,也可以给阿里、腾讯,以及电信、移动同时使用。有公板之后,可以一定程度上解决厂商供应链问题。面对互联网公司需求难以预测的问题,厂商可以放心大胆的备料,即使百度不要这批服务器,也许阿里或腾讯要,可能帮助大家解决生态系统供应链的问题。

在标准化方面,今年会开放天蝎存储服务器规范给业界。天蝎存储服务器在1SU高度内可容纳18个3.5英寸硬盘驱动器,密度相当高,把每GB的成本尽量压低,又可以基于用户的应用场景做比较好的适配。

ODCC天蝎3.0项目经理,腾讯服务器架构师王伟则同步了天蝎3.0整机设计方向并征求业界意见。天蝎3.0的设计核心是资源池化,避免浪费,及灵活应对一些特殊的配置需求。资源池化的关键是互连和管理,从去年到现在的重点是互连的Fabric研究,去年在互联的协议和形态上,锁定为PCIe、SAS和以太网,也提出数据和管理的平面要做分离,然后在数据的交换平面上也是分两级,跨柜和柜内的交换也采用不同的协议。

本季度工作组在三个Fabric的研究上产生了不同程度的进展,原来预期是在今年开始启动天蝎3.0原形机的设计和分析。严格意义上,BAT三家联合服务器行业合作伙伴已经开展了基于SAS、以太网、PCIe的研究。今年第一季度基于SAS的原型已有样机产生,通过SAS的Fabric可以把用量最大的硬盘和SSD,与计算部分相分离,形成机头和存储池两种资源池。

PCIe Fabric和以太网Fabric也在研究评估的过程中,目前相对容易实现的还是存储的资源池化,重点是NVMe over Fabric。天蝎3.0最大的挑战是用什么样的Fabric,而在增加Fabric之后,还需要再增加Fabric的连线,就会使得整机柜连线比较复杂。前出线的设计局限性太强,后出线在传统电信行业有很久的历史,但目前的尝试需要对风扇框的尺寸做调整和优化。王伟提出了四个方面的问题,征求大家意见:

1.以太网池化的方案和应用场景;

2.后出线整机结构的优化和设计;

3.风扇框结构压缩的优化和问题;

4.三种Fabric,连接器供应商如何选择?

ODCC服务器工作组项目经理,中国移动研究院大数据与IT技术研究所资深研究员唐华斌介绍了多节点服务器现状及发展规划。多节点服务器主要面向企业客户或中小型互联网公司,借鉴了整机柜服务器的高密度、节能和模块化的优势,包括用模块化节点加上共享、风扇、电源的设计思路,只是把原来 42U 的机柜缩小成 4U的模块。节点分为计算型和存储型,在此基础上衍生出计算、存储、应用加速等多种应用场景。2015年11月ODCC峰会上正式发布了多节点服务器的技术规范,联通等用户也表示了浓厚的兴趣。现在已有三家供应商完成了产品的研发,其中两家完成了供货,总计出货量超过1万个节点。

除了服务器本身的设计和架构优化,运营商的网络虚拟化和NFV应用也是多节点服务器应该关注的方向。传统的机架式服务器,很多风扇内置不能热插拔,不同设备管理的标准全都不一样;将来有很多的接入或者核心的机房,对空间和功率的要求也不一样,会带来很多麻烦。多节点服务器可以设计成相对一致、通用的解决方案,来满足大量的应用。中国移动后期计划推动NFV的试点,对运营商是很广阔的市场。包括硬件设计的可靠度会不会比传统的通用服务器有一些的提升,还有网络性能的加速等方案,在这方面的需求和后续的方案研究一定会有很大的进展。

测试认证

继往开来,砥砺奋进

测试认证工作组与ODCC同时成立,近两年来经历了从无到有、从小到大的过程。ODCC测试认证工作组组长、中国信息通信研究院高级主管郭亮分析了国际上很多标准组织通常进行的两类测试:认证测试和基准测试,目前ODCC的测试认证工作也正在从这两个方面展开。

认证测试首先需要有技术规范,目前数据中心和服务器工作组分别发布了一些技术规范。我们依据这些规范,经过与用户及设备商的深入沟通之后,制定相应的测试规范。认证测试对设备商、用户和其他行业用户都具有重要意义。通过提取用户的共性需求,设备商可以减少很多重复性的测试。测试认证也保护了相关的知识产权,这对设备商增加研发投入会带来一定积极的效果;采购方也不需要投入很多力量到基础的测试中,他们能将更多的精力放到与企业应用场景相关的特性测试上面,会更具有针对性更具效率;对于其他行业来讲,毕竟不是所有行业都像IT行业具有这么多熟悉IT产品的人才,那么他们可以采取直接或者间接参考的方式来引用我们ODCC发布的测试结果。

天蝎整机柜服务器测试认证

2015年ODCC峰会测试认证工作组发布了天蝎整机柜服务器测试认证系列规范。该系列规范根据天蝎整机柜服务器模块化的特点,对各个子系统,包括节点、管理、供电、网络、散热、机柜等分别编写了测试规范,最后把这六个子系统组合形成整机柜服务器,进行承重、能耗、稳定性、冗余性等整体性的测试设计。从模块到整体,希望能对天蝎整机柜服务器做一个比较全面的认证测试。

微模块数据中心测试

目前正在进行的认证测试还有微模块数据中心测试项目,项目经理是腾讯的张海涛。这个项目从微模块数据中心的供配电、冷却、结构、综合固线、管控等各部分进行了测试项目的编写,最后对MDC进行了不间断电源测试、空调故障模拟测试等整体性测试。另外一个认证测试是多节点服务器测试项目,项目经理是中国移动的高从文。该项目根据技术规范,从设计、管理、功能性、性能等方面对多节点服务器做了比较全面完整的测试项目规划。

基准测试

测试认证工作组正在开展的第二个重要工作是基准测试,目前正在进行的是ODCC企业级硬盘基准测试项目,包括HDD和SSD两部分,项目经理分别是腾讯的曾梓恩和阿里巴巴的刘星海。该项目于今年2月份启动,目前已经形成了初稿,计划从性能、稳定性、兼容性和能耗等方面对企业级硬盘进行全面的基准测试。在企业级硬盘基准测试标准的制定过程中,也得到了业内顶尖企业的支持,感谢大家的参与。

未来一年测试认证工作组的重点包括几个部分。首先是天蝎整机柜服务器测试项目,目前天蝎技术规范正在从2.0到2.5演进,测试认证工作组会继续跟踪。其次,微模块数据中心和多节点服务器的认证测试项目会在2016峰会上发布最终的测试方案。第三,企业级硬盘基准测试项目也在积极推进中,2016峰会也会发布相关的成果。此外,还将开始AOC线缆测试项目、数据中心光模块测试项目以及25G TOR交换机测试项目。非常欢迎会员企业深入参与到测试规范的编制中来,也希望与大家一道,把ODCC的测试认证工作做好!