NEWS INFORMATION新闻动态

关注微信公众号

首页  >   新闻动态  >   工作组动态

[2025开放数据中心大会]CET中电技术邀您共同探索面向GPU集群的系统级分析解决方案

2025-09-12

在 AI 大模型训练与推理的驱动下,GPU 集群正逐渐成为数据中心的算力核心。与传统 CPU 相对平稳的负载曲线不同,GPU 在运行过程中展现出毫秒级的快速功率波动和高幅度的负载跃迁,这一特性正在给电网和供配电系统带来前所未有的压力。在当前的一些研究与行业实践中我们也发现,电力系统面临的挑战远比想象中复杂。

在此背景下,对于 GPU 集群运行的环境,仅仅依靠常规智能仪表的监测布点方式已经无法满足运维需要。现有监测体系大多面向稳态参数与公共耦合点(PCC)处的合规性考核,而非面向高速、强波动的算力负载。GPU的瞬态特性往往在传统监测分辨率下“消失”,使得运维侧无法量化其对配电链路的真实冲击,更无法在波动叠加前提前预判风险。因此,运维需求正在从单点部署走向全链路覆盖,从传统稳态参数监测走向动态跃迁特征捕捉,从秒级采样走向毫秒级甚至更高分辨率的实时响应。

微信图片_2025-09-12_102233_696.png

图1 CET供配电异常信息捕捉及故障诊断分析系统展示

CET供配电异常信息捕捉及故障诊断分析系统,旨在提供面向GPU集群的系统级分析解决方案。我们通过合理化布置各级监测节点,实现对机架外部关键供电回路以及相关核心器件参数指标的全面监测,协助客户获取GPU运行对供电链路的直接影响。同时,基于iMeter 系列监测终端μs级的瞬态捕捉能力和ms级的有效值记录能力,可为客户还原真实的GPU负载特性画像,为评估负荷波动对供配电系统的瞬态压力和风险提供信息;

微信图片_2025-09-12_102324_303.png

图2 采样率相关数据

此外,方案搭载了CET创新性的iTrigger分布式录波机制和CET第三代扰动源定位算法,可针对单次扰动实现超过90%准确度的快速定位和跨电压等级的系统级分析。

微信图片_2025-09-12_102425_258.png

图3 CET创新性的iTrigger分布式录波机制和CET第三代扰动源定位算法

除了GPU服务器瞬态冲击的监测,方案也能提供完整全面的电能质量评估管理手段。基于IEC 61000-4-30 ed3 标准算法,系统可对供配电系统整体的运行情进行长期评估,并周期性输出电能质量综合报告,提示供电链路中的薄弱环节,为后续治理与优化提供决策依据。

微信图片_2025-09-12_102517_606.png

图4 相关输出报告

AI 数据中心的崛起让算力成为新的竞争力,但GPU带来的电力波动也正在成为供配电系统的隐性挑战。高性能系统级监测的意义已不再局限于合规,而将成为保障稳定运行与降低系统性风险的关键手段,CET中电技术会持续为此提供先进的解决方案。

微信图片_2025-09-12_102600_287.jpg

ODCC秘书处联系人

刘老师 13488889649(微信同号) 邮箱:liupengyun@caict.ac.cn