首页  >   工作组  >   智能运营工作组

ODCC202506001 服务器硬件故障诊断技术报告

2025-09-25 已完成

阿里云服务器提供业界领先的诊断手段,为百万级服务器平滑运行保驾护航。整体框架划分四个层面:

1.硬件产品层:包含磐久系列服务器ARM、x86硬件,是阿里云的基础底座。

2.标准规范层:支持行业标准规范,UEFI、ACPI、SMBIOS、PXE、SPDM等。

3.技术通道层:通过带内Agent、Tool,带外IPMI、Redfish等技术通道采集硬件信息和状态。

通过RAS、FA等技术手段提供诊断支撑。

4.诊断模型层:通过自研的诊断方案能够准确的识别故障,并且形成规范;

同时通过大模型训练和历史经验,形成不同故障的标准修复方案。


image.png


 

上一篇:

下一篇: