阿里云自研平台安全模块,重新定义数据中心服务器硬件安全
在云计算与AI技术飞速发展的今天,服务器硬件安全已成为数字基建的基石。面对固件篡改、漏洞利用、供应链攻击、内部运维风险等多重威胁,传统安全方案已难以应对复杂场景下的纵深防御需求。2025开放数据中心大会上,阿里云首次公开其自研的AliPRoT平台可信根解决方案,通过构建硬件级安全底座,为数据中心提供“不可穿透”的防护体系。本文将深入解析阿里云如何以技术创新重塑服务器安全范式。
蔡恒
阿里云
1 数据中心服务器硬件安全的挑战
随着云计算和人工智能的快速发展,服务器硬件系统的安全性面临着前所未有的安全挑战。例如,固件、操作系统、软件等被篡改或恶意植入;芯片、固件、Hypervisor等漏洞被恶意利用;以及在供应链场景中,如生产、制造、组装、运输等环节也面临着很大的攻击面。最后,在运维场景中,内部运维人员的一些不当操作甚至是恶意行为,也会给底层的硬件基础设施带来非常大的安全隐患。面对这些安全挑战,需要在硬件层面建立更强大、更主动的安全防护机制。
2 从TPM信任根到芯片信任根,再到平台信任根,分层安全与纵深防御
目前,传统服务器广泛使用TCM/TPM作为硬件可信根,它为系统提供了一定程度的可信能力,但也存在明显的短板。例如,TCM/TPM不支持主动度量,需要适配CRTM实现可信度量;缺乏主动保护机制,针对攻击只能事后发现并响应,无法事前防御。这使得传统的TCM/TPM难以应对数据中心复杂的硬件安全风险。
近年来,主流芯片厂商开始支持内置的可信根(通常称为Silicon Root of Trust或Internal Root of Trust),它们通常支持启动校验、启动度量、密钥保护等功能。业界的开源项目如Caliptra、OpenTitan等也在推动相关技术的发展。然而,不同芯片厂商最终落地方案难以统一,有的采用自研方案,有的采用开源方案,还有的基于开源方案做一些定制化设计,导致方案的一致性差异和最终安全能力的不同。此外,Internal Root of Trust主要面向芯片内部的安全,缺乏对外部平台部件的可信度量和保护能力。
为了弥补上述短板,阿里云提出了服务器PRoT(Platform Root of Trust)安全架构。通过在传统服务器架构下增加一层平台级的硬件安全防护,实现分层安全和纵深防御。PRoT安全架构具备清晰的安全边界,兼容不同的CPU平台,整体安全能力不依赖于BMC或CPU等芯片自身的安全设计,属于额外的一层防护。
PRoT应该具备以下核心能力:
● 自身应具备安全可信的能力,要有最小化的TCB设计;
● 支持平台固件的主动度量和校验,支持恢复能力;
● 支持平台固件的主动防御能力;
● 支持平台可信信息的动态度量与上报;
● 支持TCM/TPM的功能,提供可信服务。
3 阿里云自研AliPRoT模块,强化数据中心服务器硬件安全和纵深防御
阿里云自主研发了AliPRoT安全模块,作为服务器的平台可信根,结合CIPU构建了全新的CIPU安全架构,有效应对云数据中心的各种硬件安全风险。AliPRoT不仅支持平台固件的主动度量、保护、恢复和上报,还能提供平台级别的可信服务。
从源头开始的安全设计:AliPRoT安全固件由阿里云安全团队自主研发,并通过阿里云固件签名中心签名发布,确保其可信性。同时,PRoT芯片支持安全启动特性,从而实现从芯片到固件的逐级安全校验。支持TCG DICE特性,用于提供自身固件的可信能力,确保PRoT自身的固件也能被可信度量和支持可信上报,即AliPRoT具备自证可信的能力。
生产阶段使能PRoT硬件可信身份:生产时为每一个PRoT设备颁发一个设备硬件身份证书,确保其硬件身份可识别且不可伪造,从而为后续的可信服务提供可信的硬件身份。
在服务器上电前主动度量与校验:PRoT会先于其他组件启动,而BMC和CPU保持复位状态。PRoT会对BMC Flash和BIOS Flash的内容按照PFM格式定义的规则进行度量和校验,只有被校验的内容符合预期后,才允许系统继续启动;校验失败的则根据策略恢复。PRoT还提供私有的可信存储区,用于存放用于恢复的Golden Image,避免主板Flash的冗余设计。通过上电前的主动度量与校验,确保平台固件处于符合预期的Golden状态。
服务器运行时主动防御:PRoT会在解复位BMC和CPU之前,按照PFM定义的规则对BMC Flash和BIOS Flash进行写保护,实时防止非授权的写操作。同时还会开启CPLD的升级管控以及VR、PSU等的实时保护。通过运行时的主动防御和实时保护,保护底层硬固件不会因漏洞利用等攻击造成相应的安全风险。
服务器运行时动态度量,PRoT作为平台的升级可信根,负责平台固件升级过程中的重新度量和校验。同时,它还会定时对服务器上的各个组件的iRoT做Attestation,收集度量信息,确保平台的动态可信。通过及时的度量值刷新和动态收集,为系统提供具有时效性的可信报告。
服务器运行时平台可信管理和可信服务,AliPRoT对接阿里云的可信管理平台,实现对平台固件升级的可信管控,仅接受合法的升级请求。这样能够从技术上杜绝非预期的平台运维行为,即使被升级的对象是带有签名的,也需要通过额外的合法升级请求进行验证。同时,AliPRoT集成了传统的TCM/TPM硬件可信根,为平台提供相应的可信服务,支持云零信任安全架构。此外,CIPU通过专用接口和安全协议对接AliPRoT,实时获取平台的可信度量信息,并统一上报给阿里云的可信管理平台,形成闭环的安全管理流程。
4 AliPRoT的落地成果与展望
总的来说,AliPRoT解决方案构建了硬件级别的纵深防御体系,有效应对以下关键问题:
● 固件完整性校验,只允许经过验证的固件运行,杜绝篡改或后门植入;
● 固件实时防护,即使CPU或操作系统被攻破,也能保证底层固件安全;
● 可信度量与上报,以可信技术应对供应链攻击风险,实现全平台可信;
● 平台安全运维,从技术上防止内部运维的风险,保障平台固件的运维安全。
目前,AliPRoT已经在Intel、AMD多个主流芯片上实现产品化,也支持ARM和RISCV架构。在云场景下,AliPRoT与CIPU实现深度联动,通过保护底层硬件系统,为云计算、AI大模型推理&训练等场景提供硬件级的安全底座,为客户数据安全和稳定运行提供坚实的保障。
AliPRoT的推出,不仅重新定义了数据中心服务器安全标准,更标志着服务器硬件安全从被动防御走向主动防护的范式转变。
ODCC秘书处联系人
刘老师 13488889649(微信同号) 邮箱:liupengyun@caict.ac.cn