中国电信北京研究院副总工程师、云计算与大数据事业部总监杨明川:智慧云存储研发实践
非常高兴今天有机会来到这里给大家分享一下我们在存储方面的研发的一些思考和实践。
软件定义存储最近几年发展非常迅速,从整个发展的过程来看,软件定义存储主要还是基于标准化通用硬件平台,采用分布式存储架构。从整个发展前景来看,我们觉得有几个方面,首先是自动化,然后是提供标准化的接口,然后是虚拟数据路径,以及扩展性和透明性。整个软件存储从技术上来讲,可能大家都比较了解,我这里主要想讲讲未来的一些思考。
我们在考虑整个云计算思考的时候,其实我们有一个总体的想法,作为云计算底层的基础设施的存储部分,怎么样能够在现在各种新的技术、新的应用不断发展、不断变化的过程当中,怎么样能够更加和上层的应用,尤其是大数据的应用,尤其是人工智能的应用,包括一些区块链的应用,怎么样能够更好的结合。在这个过程当中,我们也不断去探讨,我们觉得智慧云存储可能是一个重要的发展趋势。
中国电信北京研究院副总工程师、云计算与大数据事业部总监杨明川
智慧云存储,首先我们可以从三个方面去考虑智慧云存储。第一方面,它能够对冷热的数据进行智能感知,之前分布式存储主要是用来做冷数据的存储,现在需要我们把冷数据和热数据通过自动化的感知能够更好的进行优化。第二方面,能够对虚拟化的应用进行感知,能够感知虚机的业务,能够通过策略在虚机业务的流量变化的时候,能够自适应的去做调整。第三方面,结合大数据,现在的分布式存储、软件定义存储,大数据是它的一个主要的应用场景。大数据大家也知道,里面有各种各样的结构化的数据、非结构化的数据,各种类型、各位维度的数据。这些数据可能在使用的方式、使用的过程都不一样。我们怎么样能够智能的去针对不同的大数据的需求,能够去把大数据的业务和存储更好的结合起来,这也是一个软件存储的需求。从应用上来讲,我们也在看,这几年从云存储来讲,视频的存储应该是一个主要的驱动力,包括我们国家也建成了世界上最大规模的视频监控的网络,包括“天网工程”、“雪亮工程”等等,在各行各业都在广泛应用视频存储。视频存储的海量增长,使得传统的存储方式不断向云存储的方式演进。在这样的演进过程当中,给软件定义存储带来了很多的发展的空间,当然也提出了更高的要求和更高的挑战。比如对并发性能、性价比单价,比如对接口丰富的形式,等等各种各样的性能都提出了更高的需求。同时我们在整个视频云存储的基础之上,我们还会发现更多的一些需求,这些需求,包括中国电信也有“全球眼”这样的系统,我们在参与到整个视频监控业务的解决方案的过程当中,其实我们也发现,我们不仅仅要存储视频数据,我们能不能进一步确保这些视频存储的数据不被篡改、不被丢失,甚至说安全、隐私保护等等这样一系列的需求,这样系列的需求其实是符合我们国家现在发展的要求,也对这个社会上具有很高的价值。这里面有一些案例,比如去年闹得沸沸扬扬的幼儿园事件,我们发现很多这样的场景,如果在这样一些事件当中具有关键价值的一些视频数据,不管是什么原因导致它的遗失,对社会上来讲都是一个缺憾,包括我们在各种各样的其他行业的领域,我们怎么样能够保护数据的完整性,以前这个工作其实是不需要底层、在存储层户去解决的,但是随着底层的云存储的技术和上层的业务结合得越来越紧密,我们是不是考虑有一个更加通用的一些能力或者说一些更加通用的解决方案,能够把底层的云存储的应用能力进一步去延展。
基于这样一些考虑,我们也提出了智慧云存储的整体架构,这个整体架构的核心是一个高可靠统一云存储。我们在里面提供各方面的特性,包括高可信云存储服务、智能业务微服务接口,包括AI模型训练与集成能力中台,包括磁盘故障智能预测、定制化智能终端,以及和智能网关的一些衔接等。我们现在整体来考虑智慧云存储的整体架构,我们需要把它和上层的能力,包括针对大数据的能力,包括针对AI的能力,包括针对上层PaaS层的能力,进行一个有效的结合,甚至能够通过这样的结合去支撑更多智能化的业务应用。
具体来讲,我们认为智慧云存储实际上就是分布式对象存储加上区块链机制的存储,再加上定制化基础设施以及存储智能网关,我们把我们理解的智慧云存储分成几部分。分布式对象存储主要是基于Ceph开源的技术,并且针对视频监控业务特征,进行个性化的优化。区块链主要是来解决可信的问题,尤其是结合业务场景,通过区块链解决分布式可信存储和防篡改的机制。定制化基础设施主要是和数据中心,硬件的基础设施怎么样能够更好的去结合和优化。最后是存储智能网关,具体去衔接各个应用场景,使得应用和底层的基础设施能够更好的去集成。
分布式对象存储,我们也经过了很长时间的研究,在几个方面做了一些探索比如我们针对分布式对象存储的管理需求,我们也开发了统一管控平台,使得它支持属地化/层次化部署。系统怎么样提升高可用性,包括支持多种类型数据存储副本策略,以及访问网关的高可用性,以及高效的数据存储。这个工作本质上来讲都是对软件存储基本框架在它的管理性和可用性上做的一些针对性的提升和优化。
接下来重点说一说区块链部分。大家知道区块链是一个新兴的能够支持分布式的可信的这样一种基础设施。最近也非常火,但是我们除了区块链在其他领域的应用以外,我们重点去考虑在云存储上我们怎么样和区块链进行更加有效的结合。刚才我们也提到,在我们的智慧云存储支撑上层业务需求的时候,我们发现其实有很多需求需要对数据的完整性和防篡改性有一定的要求。这种数据的完整性、分布式和防篡改的机制,这个其实和区块链的特性有一定程度的吻合。我们现在希望能够提出一个区块链的机制,能够去解决现有的云存储当中存在的一些问题。具体来讲,通过区块链的技术,来通过集体维护一个分布式的核心数据,来实现它的去中心化、数据库的识别以及对等。这里有一个特点,一个是怎么样能够实现去中心化,第二是不可篡改,第三是开放性,第四是匿名性。我们通过区块链这样一种技术,我们为原有的云存储的或者我们软件定义存储的解决方案,我们增加了一些新的功能。具体来讲,两个方面,一个是怎么样能够通过这种分布式的架构实现数据操作的防篡改,这里会涉及到一个问题,区块链本身不是为数据的存储和数据的访问设计的,主要是为数据的可信、防篡改设计的,所以在性能方面和我们在云存储方面的性能是不匹配的,二者之间在性能上有很大的落差。我们怎么样能够通过标识的一些技术,能够进行数据的转化,把整个数据关键的特征能够存储在区块链的网络里,来提供整个数据的可靠性和安全性。同时我们也引入了一些智能合约的思路,通过智能合约的思路,主要想解决什么问题,我们整个的数据管理和维护,传统上我们软件定义存储的一个资源池可能是由一个单一机构来建设维护的,私有云也好,公有云也好,是由一个机构来管理和维护的。但是针对一些公共数据,针对一些跨行业、跨领域、跨企业的数据,其实我们需要更加去完善一个多方管理的机制。这一点和区块链的技术有一定的吻合性。我们希望通过区块链的智能合约,能够实现一个多方的数据的可信的管理。这里我们也提出了一些想法,怎么样通过一些智能合约,能够实现数据的协同管理。
区块链技术在存储本身其实也有一些可以去结合的地方,比如区块链自身也是一种存储机制,由于区块链自身的设计不是为存储设计的,所以它在性能方面其实是有局限性的。这里面我们也需要通过其他的手段,比如怎么样能够实现区块链和分布式对象存储进行更加有效的结合。比如我们通过流程,能够实现云存储的代理和区块链的适配器,我们能够分别对数据和数据的标识进行分别的存储,来弥补二者在性能上的差异。
前面讲了可信的层面,还有一个层面基础设施,基础设施层面除了我们定义的一些基本的配置外,更多的是要考虑到软件和硬件整体化的考虑,特别是结合一些业务的需求,在整个存储体系里,我们会考虑数据加密卡怎么去集成,安全软件怎么去集成,其他的一些硬件设施怎么和存储结合在一起,使得云存储的基础设施具有更高的可靠性和更高的安全性。
这是我们现在正在做的案例,比如针对智能楼宇、智能大厦,怎么样把我们的分布式存储通过智能化的云存储,和我们前端的,比如我们“全球眼”视频监控系统能够进行有效的衔接,使得我们原有的简单的视频监控的系统,和智慧云存储结合,能够提升系统智能化水平。
在现网的实际应用当中也得到了一些使用,这上面有一些数据,具体的技术数据时间关系不在这讲,如果大家有兴趣可以咨询我们相关的技术专家。
云存储的技术现在正在高速发展期,云存储怎么和新型的业务和智能更加有效的结合,把云存储的技术向智能化进一步提升和演进,是我们下一步研究和研发的方向。在这里我也非常希望能和在座的各位合作伙伴在这样一些领域进一步加强合作,共同促进整个产业的发展,谢谢大家!