NEWS INFORMATION新闻动态

关注微信公众号

首页  >   新闻动态  >   工作组动态

ODCC | 弹性、开放、解耦:下一代超节点系统的技术突围之路

2026-05-29

随着大语言模型从千亿参数迈向万亿乃至十万亿级别,混合专家模型(MoE)已成为主流技术路径。MoE依赖专家并行等通信范式,对节点间互联带宽与延迟表现出极强的敏感性。这一刚性需求驱动超节点技术快速演进——其核心目标是将成百上千颗GPU整合为逻辑统一的“超级GPU”,实现近似单机级别的协同计算效能。

当前,超节点技术已成为行业焦点,主流芯片厂商、服务器供应商及云服务商纷纷推出专属解决方案。但产业界普遍面临硬件架构异构化、互联协议私有化、软件生态碎片化等痛点,导致用户技术选型时面临显著的采购决策风险与长期厂商锁定风险。这种碎片化态势不仅推高总体拥有成本(TCO),还制约跨平台兼容性与产业链协同效率,阻碍超节点技术市场的健康可持续发展。对此,行业亟须在硬件架构、互联协议及软件框架等层面建立开放统一的技术标准,构建具备互操作性与可持续演进能力的超节点技术体系,为全球人工智能基础设施的健康可持续发展筑牢根基。

一、技术爆发背后的隐忧:

超节点发展面临的五大挑战

(一) 硬件架构异构化与系统封闭性

当前超节点硬件架构呈现高度多元化与差异化特征。在物理实现层面,不同技术路线在系统拓扑、机柜形态与热管理方案上存在明显分歧:部分设计采用高密度电缆互连的托盘式结构,另一些则转向基于中背板的集成化互联。部署形式涵盖标准风冷、双宽高密度机柜以及浸没式液冷等多种模式。此类异构化趋势虽有助于在特定场景下优化性能与能效,却与数据中心现有基础设施在机柜尺寸、供电接口、冷却能力等维度的标准化规范兼容性不足,抬高了系统部署、工程集成与后期运维的综合成本。与此同时,当前主流超节点普遍依赖专有高速互连协议,尽管这些协议在单系统内实现了极致性能,但其技术封闭性导致跨厂商设备难以互通,多厂商异构算力组网场景下标准不统一,显著增加了运维侧的适配、排障与版本迭代难度,进而对统一资源调度与管理平台的构建形成结构性障碍。

(二)厂商锁定风险与采购决策复杂性

超节点的全栈定制化设计模式,使得用户一旦完成技术选型,便会在硬件采购、软件适配、运维服务乃至技术演进等全生命周期内深度绑定单一供应商。这种厂商锁定效应不仅削弱用户的议价主动权,还可能因供应商商业策略调整或技术路线封闭,导致总体拥有成本非预期攀升。

(三)数据中心适配与系统成本挑战

整机柜超节点的单柜功率已普遍突破100kW,传统风冷难以满足需求,液冷成为必然选择。然而,超节点系统的计算节点、交换节点、电缆托盘及机柜结构普遍采用高度定制化设计,导致研发、物料与后期维护成本居高不下。液冷系统的定期检测、管路密封、冷板清理等运维工作专业性强,需专用工具与团队,进一步推高运维成本。

(四) 模型扩展与业务适配灵活性不足

当前整机柜超节点通常采用64或72个GPU的固定互连规模,在中小模型或推理场景中可能出现资源过剩,而在支持更高专家并行的超大规模模型训练时,又受限于空间、功率与冷却能力,难以满足更高带宽域扩展需求。业界需要一种可按业务与模型需求灵活组建不同规模GPU集群的架构,实现按需配置的HBD拓扑。

(五)交付与运维便利性不足

采用电缆托盘架构的整机柜超节点因设备体积庞大、重量超标,对运输与现场交付提出极高要求,甚至需临时改造机房结构。运维方面,集成化电缆组件在单根电缆故障时需整体更换,故障修复时间大幅延长;浸没液冷方案在部件故障时需排空冷媒、取出整机维修,流程复杂、耗时久。此外,定制化硬件导致备品备件通用性差,采购周期长、成本高,运维团队需掌握多领域技术,人才短缺进一步推高成本。

640.png

二、ODS系统架构:

五大原则的全面落地

为应对上述挑战,由中国移动云能力中心牵头,联合英特尔、博通、锐捷、浪潮等ODCC成员单位,在2026ODCC春季全会上成功立项,推动 《开放解构超节点(ODS)系统架构技术规范》 制定。

ODS技术规范在架构设计上全面贯彻上述五大核心原则,将设计理念转化为具体的技术实现。

网络协议完全开放方面,ODS摒弃私有互联方案,全系采用标准以太网协议,实现Scale-up与Scale-out网络技术栈的统一。这不仅消除了异构组网的协议壁垒,更可充分利用以太网产业生态的成熟交 换机、线缆及管理工具,显著降低网络运维复杂度。

硬件架构全面解构方面,ODS将传统一体化超节点解构为独立的标准计算节点与标准交换节点。计算节点采用轻量化4U服务器形态,交换节点基于高基数以太网交换机,二者通过通用铜缆或光纤接口实现高效互联。这种解构设计从底层打破了专用硬件的厂商绑定,用户可独立选型计算与交换设备,大幅提升系统兼容性与采购灵活性。

系统规模弹性扩展方面,ODS提供基础与级联两种部署形态,支持从几十卡到上万卡的平滑扩展。

散热方案灵活配置方面,ODS架构原生兼容风冷与液冷两种散热方案,计算节点、交换节点均提供风冷和液冷两种参考设计。采用冷板式液冷,主要芯片(GPU、CPU、交换芯片、光模块)液冷,其余部件风冷,实现散热效率与部署灵活性的最优平衡。

互联效率全面优化方面,ODS遵循“铜缆优先”原则,计算节点与交换节点间优先采用AEC有源铜缆(7米传输距离,功耗与成本较AOC降低约50%,可靠性提高百倍);跨机柜长距互联采用光方案。同时引入OCS光路交换机,最大限度减少光电转换环节,端到端通信时延<1微秒。

三、超节点领域最新发展趋势:

弹性、开放、解耦

ODS所倡导的开放以太网、硬件解构、光铜混合等设计理念,并非孤立的技术探索,而是与全球超节点产业的最新发展趋势高度吻合。

在开放以太网Scale-up网络方面,微软Maia200超节点、Meta MTIA系列(200/300/400)、AMD Helios(UALoE)以及英伟达MGX ETL(Spectrum-X)均选择以太网作为Scale-up互联底座,摒弃私有协议。

在计算与交换节点解构方面,华为CM384、腾讯下一代ETH-X Ultra、阿里下一代UPN512以及AMD下一代UAL256(计划2027年商用),均将传统一体化超节点拆分为独立的计算单元与交换单元。

在光铜混合互联方面,谷歌TPUv7 Ironwood(9216卡)、英伟达NVL576/NVL1152以及微软Maia200超节点(6144卡),均采用铜缆与光缆混合部署策略—短距优先铜缆、长距采用光互联。

四、结语

弹性、开放、解耦的理念正逐渐成为超节点技术领域的共识。ODS规范在ODCC的立项,不仅顺应了这一技术浪潮,更依托ODCC平台,通过标准化工作为产业链提供了统一的参考架构,加速开放超节点生态的成熟与落地。

作者:

1.徐小虎 xuxiaohu@cmss.chinamobile.com

2.邵剑峰 shaojianfeng@caict.ac.cn

审核:

谢丽娜 xielina@caict.ac.cn

640.jpg

640 (1).png