英特尔亚太研发有限公司高级应用工程师叶金鹤:英特尔固态盘技术演进

  • ODCC /
  • 25 April 2018

非常荣幸,这应该是我第一次到ODCC的平台上来分享我们英特尔在固态盘方面的一些进展。我今天的汇报分两部分,第一部分是介质上的创新和技术上的演进,另外一部分是对于SSD本身形态上我们看到的一些发展,以及现在我们正在做的一些事情。
第一部分,从这张图大家可以看到,这是基于一个经典的冯诺依曼的计算机的结构,可以看到就存储而言,越靠近CPU,速度越快,但成本越高,越远离CPU,容量越大,成本越低,但是性能也就越差。SSD的诞生就是为了能够弥补永久化存储和CPU处理速度之间存在的鸿沟。从英特尔角度来讲,我们在技术上做了两部分努力,这两部分一个是推出了3D NAND,另外一部分是Optane技术, 用全新的介质带来更好的体验。从产品的角度, 从处理器到存储, 早期由CPU到memory再到HDD硬盘,SSD的诞生,填补了对于快速存储的需求,从最早的SATA的SSD,到使用专门基于Flash/闪存存储介质设计的标准协议NVMe,再到过去两年我们发布的全新Optane技术,进一步对快速存储进行了细分,来提供更好的产品。另外对于Optane,不仅会有使用该技术的SSD产品,也会有基于该技术的内存产品.

英特尔亚太研发有限公司高级应用工程师叶金鹤

NAND闪存的技术演进速度非常快, 去年我们已经完成从2D NAND到3D NAND的全系列切换. 接下来大家可以看到的,通过3D NAND的层数增加,以及TLC和QLC技术,来获取更大的容量以及成本的优化. 从开始的32层MLC, 到目前的64层TLC, 以及未来的更高的堆叠层数, 快速的迭代将提供更大容量的产品, 目前已经量产的4T, 8T产品, 以及未来可提供的更大容量产品.
另外我们着重讲一下Optane技术, 它使用的介质名称叫3D XPoint, 如名字所描述的, 它采用的是交叉互联结构, 通过该结构,可以获取很好的扩展性。结构本身也是一个3D的结构,因此也可以通过层数的堆叠提升容量同时降低成本。这是一个突破性介质, 可以带来非常高的性能。基于这个介质做的SSD,我们最主要是达成以下四个目标,第一是突破现有性能瓶颈,现有的NAND的SSD,可以看到更多的性能瓶颈来自NAND介质本身,比如长尾的问题,这是由介质本身的一些特性和限制造成的。第二是服务质量,俗称QoS,在一段时间之内能够承诺的时延性能,第三是高压力下的快速响应。第四是大家一直诟病的,NAND SSD不像HDD, 有写入寿命的限制. 在NAND SSD上, 我们使用TBW, 可写入的数据总量(TB) 或者 DWPD, 每天可以全盘写多少遍来描述SSD产品的写入寿命特性.一般NAND SSD产品的写入寿命有限, 而对于新介质来讲, 理论上它可以做到无限的写入寿命,但是受限于目前技术, 它还是有写入寿命的限制, 但是相对于NAND介质, 它的写入寿命会非常高.
对于Optane SSD产品和NAND SSD产品,我们举一些简单例子, 做一下数据对比,我们使用高性能的NAND SSD DC P3700和最新Optane SSD DC P4800X这两款产品进行对比,P3700 4K随机读的性能在450k IOPS左右,而P4800X是550k,相差不多.但是对于随机4K写,P3700在150k左右,P4800X则能达到500k IOPS性能,快3倍以上。尤其在随机混合压力情况下,如图示7:3的混合的随机压力,横轴是IOPS性能, 纵轴是时延性能, DC P3700的表现会比DC P4800X 差很多.因为对于NAND SSD,众所周知,其介质本身读是非常快的, 但是它的写相对较慢, 另外一个导致性能差的原因它还有一个更慢的擦除操作, 擦除是非常慢的, 这也是为什么NAND SSD的读性能很好而稳态写的性能比读差很多的原因.而对于使用新介质的DC P4800X, 读写性能相当,即使在混合读写的场景下, 它都能提供一个非常低的时延和一个非常高IOPS的性能,比如在队列深度为12的情况下, 我们看到混合读写两者会有5倍的性能差距.
我们再另外一个维度看性能,对于NAND SSD,大家可使用的比较多,会有这样一个体会,我要实现最大的性能必须给足够大的压力,比如你要使用很深的队列深度,这样才能够得到非常高的性能,而在多数的实际场景中, 应用使用的队列深度还是比较低的,这样你就无法发挥出NVMe SSD全部性能. 这是一个介质的限制,但在使用新介质后, 你就能够在低队列深度情况下获得一个非常高的性能. 对于使用新介质的SSD,在压力小的情况下也能提供很高的性能, 可以看到在7:3读写比例的情况, 队列深度12左右DC P4800X就能发挥出最大性能. 另外使用新介质的SSD, 即使是小容量也可以发挥出很高的性能,这也有别于NAND SSD.
另外对于服务质量这块的讨论,大概解释一下这张图,在混合压力下,蓝色的点代表NAND SSD的时延表现,最大时延是3个毫秒,性能也蛮好, 我们把这张图放大, 从一个对于服务质量要求更加高的场景中来考虑, 性能的离散度还是非常大的, 而使用新介质后, 我们可以把离散度控制在一个非常小的区间内, 这样性能提升, 总体的服务质量也会极大提高.我们也说该新介质不是用来替代现有的NAND,因为从整体方案考虑, 刚才很多专家也分享了,要把一个介质或者一个产品用好, 我们要理解这个产品, 理解这样一个技术, 在正确的场合、正确的场景当中提供一个正确的方案. 对于Optane SSD我们目前看到的情况也是这样的,这也是为什么在很多的应用场景,有很多人来问我说,你这个Optane的SSD使用场景怎么样的, 我们看到针对缓存,日志领域Optane SSD有很好的表现,对于更多的应用场景需要综合考量目前的成本, 容量以及性能需求.
有了这种新介质,我们实现了在压力上的快速响应,这个测试是在实验室实测的,采取的策略是,我去考量读的性能,但是在读的同时,我给一些写的压力到盘,通过不同的写的压力,我来看一下对读的时延有怎么样的影响。随着给的写带宽压力越来越大,相应在NAND SSD上,读的时延就会往上提升。这个从理论上也可以很容易理解, 我刚刚讲过了,基于NAND的SSD,读的速度是最快的,但是当你在读的时候,需要再去做写工作甚至需要做一些擦除的工作时,你就会发现我这个读的性能会受极大的影响,这也是为什么大家去看一些SSD的手册当中,它的混合的压力并不是简简单单的读的性能加上写的性能除以2,综合的混合的性能值要远远低于这个平均值。但是对于Optane这个新介质来讲,它受到的影响就比较小,第一它使用了Write in place技术,这个技术简单来讲,类似于HDD,能够在原始位置进行写入,你可以把它理解成非常高速的类似于HDD读写的介质。而对于NAND介质SSD来说,需要有FTL表,也就是逻辑地址与物理地址的映射关系表,原因是在我写这个区域的时候,也就是我需要在原始的数据上做更新的时候,我是没有办法在原物理地址进行写入,我必须写到新的地址空间,再把原始的空间释放掉,更新FTL表, 再通过所谓垃圾回收这样的操作,把空间回收过来,这种它对于性能的影响是比较大的。而基于新介质,则没有此类影响。
对于新介质,它的写入寿命可以做得非常高,举个例子,比如像DC P3700,之前我们讲的10次全盘擦写,也就是说一个2T的盘,你每天可以写20T的数据,写5年, 而对于Optane SSD则提高到了30次全盘擦写,假设同样一块2T的盘,每天可以写入的数据量就达到60T,基本上在传统的存储领域,我们没有看到有这么高需求,需要每天复写这么多的数据量,所以从写入寿命角度来说,它完全能够满足通用存储的需求。另外,为什么它能达到这么高的写入寿命,先来看NAND,它通过存储电子实现数据存储,无论是通过浮栅结构还是电子捕获结构,电子出入会导致介质的磨损,而对于全新Optane SSD的介质,它通过一些物理原理来改变自身的状态达到数据存储的目的,过程并不是破坏性的写入过程,所以它可以把这个写入寿命做得十分好。目前我们已推出的产品可以做到每天30次全盘的写入,未来可以做得更加高。这是我第一部分汇报的内容。
第二部分是固态盘形态演进。这里先简单描述一下我们通常看到的,也是我们目前产品已有的形态,刚刚有很多专家也介绍过了,业界还有一些其他的形态,比如像M.3,这里我们主要介绍的是M.2、U.2、AIC和Ruler这四种形态。像M.2形态最早设计是用于一些消费级的产品当中,比如像超级本,我需要低功耗,需要非常小尺寸来做存储,因此M.2就诞生出来了。在使用过程当中,我们也发现M.2在数据中心,企业级服务器中也可以有用武之地,主要是用在比如像启动盘或者在一些高密度的计算节点当中,比如我节点本身空间不是非常够,使用这样一个形态是比较适合的,因此催生了企业级的M.2。第二个是U.2,刚才专家也分享了,在最近一年看到有爆发性的需求,U.2已成主流。U.2其实从Purley平台开始,已经是一个主流、标配。它的好处在于,它兼容现在已有的2.5寸形态的设计,对于服务器的设计不需要做很大的改动,只需要加一个SFF8639的接口,并且把这个接口连到主板CPU的PCI Lane上就可以了,并且相对于下面的AIC插卡式的SSD,有一些不可替代的优势,应此未来仍会是个主流。另外AIC插卡式SSD产品为什么目前还存在,原因很简单,AIC形态的通用适配性比较好,只要你的服务器上有标准PCIe插槽,你就可以使用这种SSD,从兼容性上、方案定制的灵活性上,至少在过去两年是非常适用的,这也是市场需要这种形态SSD的原因。最后一个是Ruler,这个形态和它名字的含义一样,就是尺的意思,做这把尺的原因是什么? 从介质角度来看,SSD形态需要,第一,追求更高性能,第二,追求更大容量、更低成本,去承载这么大容量和达到高性能我需要一个新的固态盘的形态,所以创建了Ruler。对于Ruler这个形态来说,它的好处,主要是它的密度会变得非常大,举个简单例子,现在通用的2U服务器,可以支持24盘或者25盘,2.5寸的插槽,服务器上最大支持的容量,比如用现在U.2的4TB,一个24盘位2U的服务器,最多前排支持热插拔的存储容量可以做到96TB,而使用了Ruler的结构,因为它本身的长度比较长,其实Ruler里也可以做长做短,现在最长的是31厘米左右,它的初始容量我们做的是8TB,同时在1U的Server里可以放32块,做一个简单算数,它在1U的节点里就可以达到256TB的存储密度。这是从存储密度角度来对比。
另外尤其对于系统设计厂商来讲,需要考虑SSD散热,原先U.2的NVMe的盘大家有什么顾虑? 它的功耗很高,对于NVMe/PCIe SSD,达到这么高的性能,它的功耗是25W,因此对于系统散热设计要求是非常严格的,很多用户给我们的反馈是在散热设计时碰到非常大的挑战。但是在相同的环境下,满足ruler散热所需要的风流,最大可以减少55%,原因第一,它本身的结构设计,盘和盘之间的空隙更大有利于散热,第二,ruler的外壳就好比一个散热面积更加大的散热片,所以它散热的条件要比U.2好很多。
最后,从管理和可服务性上来讲,ruler的结构设计不再需要额外托架,本身就可以作为一个托架使用。另外,把硬盘的卡扣开关,都可以集成在前面板上了,并且还提供LED指示灯。对于U.2 SSD,大家之前碰到一个问题,就是这个盘本身不提供LED功能,只提供一个drive active pin脚输出工作状态,并没有直接提供可用于故障报警指示灯的方法,但在ruler这种形态上,把原先在U.2上所缺失的这部分功能就可以实现。这样无论是从可维护性还是可管理性角度来讲,就会有一个非常大的提升。另外它还可以支持单独供电控制,通过一些软件进行槽位级别的电源管理, 这样就可以实现以前U.2没办法实现的功能。EDSFF是ruler今后通用的标准,这个标准现在已经发布了,大家可以去EDSFF网站上看到更详细的信息,它定义了不同的尺寸,有不同的长度,以及它的接口,并且这个EDSFF标准为以后的,比如追求更加高的性能的PCIe gen4下一代的平台做好了准备,另外它也可以支持PCIe×8的接口形式。
这就是我给大家分享的内容!谢谢!