NEWS INFORMATION新闻动态

关注微信公众号

首页  >   新闻动态  >   工作组动态

推理拐点已至,推理集群如何突破互连瓶颈?

2026-05-15

随着大模型向万亿参数与多模态感知深度演进,智能体(AI Agent)及边缘推理任务呈现爆发式增长。实时语音、视觉识别、自动驾驶等边缘场景对推理时延与数据吞吐提出了亚微秒级的要求,驱动底层智算基础设施从单机八卡架构加速向超节点集群跨越。然而,集群规模化扩展过程中,硬件互连遭遇了难以逾越的“性能墙”与“距离墙”。如何通过系统级光电融合与互连架构创新,突破内存墙与I/O墙,释放超大规模集群的极致算效,已成为支撑边缘推理爆发的核心关键。

一、边缘推理驱动算力需求升级

边缘推理任务具有高并发、低时延、数据海量等特点。大模型在边缘侧的部署往往需要同时处理数百路并发请求,且要求端到端时延控制在10毫秒以内。传统的单机八卡架构因GPU间通信带宽有限、跨节点扩展成本高昂,难以满足大规模边缘推理的弹性需求。为此,推理集群正向着超节点(每节点包含数十甚至上百颗加速芯片)架构演进,以实现更高的算效密度与更优的能效比。然而,这一演进路径对底层互连提出了前所未有的挑战。

二、传统电互连遭遇“四重墙”物理极限

在超大规模推理集群规模化落地的进程中,基于铜缆与PCB走线的传统电互连体系正面临四重瓶颈:

带宽墙:通信速率向224Gbps及以上演进时,铜缆线径增大,单位面积可容纳的线束数量减少,导致互连带宽密度受限。

延迟墙:细粒度读写请求要求在亚微秒级极低时延下完成数据交互,而现有多源异构硬件在高速互连层难以实现无缝协同,生态孤岛进一步限制了全链条算效发挥。

功耗墙:超节点架构中单机柜功率常突破40kW,互连功耗占比超过40%。电信号跨越PCB、连接器等组件时产生巨大衰减,需以惊人功耗进行补偿。

距离墙:受制于趋肤效应与介质损耗,无源铜缆在单通道800G速率下的有效传输距离已被急剧压缩,严重制约算力资源跨机柜部署的灵活性。

上述“四重墙”直接导致边缘推理任务在推理集群中难以获得稳定、低时延的通信保障,成为制约推理吞吐与响应速度的核心瓶颈。

640.png

图1 算力扩展面临的“四重墙”物理极限

三、光电融合与可重构光互连架构应对瓶颈

针对电互连的物理极限,产业界正推动“以光代电”的范式革命,通过光电融合实现互连架构的底层重构。核心策略包括:

极致高密封装:缩短电信号走线距离,将高速信号衰减降至最低,以支撑大规模并行光通道。

工程高可用性:采用模块化、可插拔的光引擎设计,隔离高故障率光器件与高价值主芯片,降低运维风险,提升系统弹性。

开放协议生态:建立统一的Scale-up互连协议与光接口标准,打破封闭垄断,使多源异构硬件实现无缝协同,按需灵活配置不同规格的光互连技术。

这些策略共同构成了可重构光互连体系,为边缘推理场景下超节点集群的高效吞吐与弹性部署提供了系统级解决方案。

四、技术实践参考:DORA可重构光互连架构

中国移动在ODCC联合产业界提出的DORA(Detachable Optical Reconfigurable Architecture)架构,是上述策略的典型实践,其关键技术要点如下:

1.高密封装:压缩电走线距离

DORA采用先进基板级封装技术,在仅105mm×100mm的微小空间内扇出512条光通道,将电走线的物理距离从传统NPO模式下的15厘米极限压缩至5厘米以内,极大降低高速信号损耗。这一设计可有效应对边缘推理中Prefill-Decode分离机制及Attention-FFN解耦所引发的海量数据高频交互需求。

640 (1).png

图2 HCB-连接器-MCB引脚定义

2.可插拔光引擎:提升运维弹性

相比传统共封装架构中光器件损坏易导致主芯片整体报废的痛点,DORA创新实现光引擎(OE)与高功耗ASIC主芯片的物理大解耦。光引擎采用模块化、现场可插拔设计,支持多次插拔与局部快速更换,既隔离了“一损俱损”的硬件报废风险,又解决了共封装体系中的热设计难题,大幅提升集群在边缘推理场景下的规模化运维能力。

640 (2).png

图3 可插拔光学收发器及布局

3.开放协议与可重构拓扑:破除生态壁垒

DORA引入可重构的多光纤连接器(MPO)设计,可灵活调整ASIC端口到外部光纤接口的路由拓扑,以适应多层组网与多形态超节点架构的网络演进需求。同时,依托OISA开放Scale-up互连协议,在底层拉通交换芯片、异构GPU与多源光器件,支持3.2T VCSEL、3.2T硅光及6.4T硅光等多种技术规格按需配置,为全链条产业的规模化商用与高密度超节点服务器落地扫清障碍。

640 (3).png

图4 基于DORA的光互联超节点全栈技术

从传统电互连向全光互连的演进,本质上是智算中心从单一算力堆叠向系统级高效协同的范式跃迁。通过深化OISA开放协议与DORA可重构光互连架构的软硬协同设计,产业界有望稳步跨越传统介质的物理枷锁。这一兼顾极致性能与运维弹性的光互连体系,将持续助力新型超节点智算基础设施向更高带宽、更低时延方向迈进,全面赋能边缘推理爆发时代的算力跃升。

作者

李锴 邮箱: likaiyjy@chinamobile.com

周曼 邮箱: zhouman@caict.ac.cn

审核

吴美希 邮箱:wumeixi@caict.ac.cn

640 (4).png

640 (5).png