DCN:光与IP融合 GMPLS构筑AI算力网络新控制平面
随着AI 推理需求的爆发式增长,“万卡”“十万卡”级智算集群加快建设,业务应用对网络基础架构和性能要求持续提高,传统算力网络正面临“带宽墙”、“延迟墙”及“功耗墙”等严峻挑战,全光交换技术(Optical Circuit Switch,以下简称 OCS)凭借其超高带宽、超低延迟、极低能耗等核心优势,逐步成为突破电交换功耗墙、成本墙的核心技术。早在2005年,OCS就因其区别于传统网络架构的独特优势引起相关学者关注,并逐步被验证和成功实践,但从行业规模应用来看,其仍面临架构重构风险高、控制面定制化门槛高、生态封闭等多重痛点。在此背景下,通用多协议标签交换(Generalized Multiprotocol Label Switching,以下简称GMPLS)作为 IETF 标准化协议,可兼容现有 CLOS+BGP 架构,实现光层与IP层无缝协同,成为目前 AI 数据中心网络(DCN)光交换规模化部署的新型控制平面方案,为OCS的规模化应用提供了进一步的支撑。
一、OCS 发展历程
OCS 自2005年初现以来,历经 20 余年演进,逐步从运营商场景走向AI超级计算机核心。
(一)基础探索期(2000-2005)
光交换研究主要聚焦光分组交换(OPS)、光突发交换(OBS)和光路交换(OCS)三条技术路线,主要应用场景集中在运营商网络。
(二)架构萌芽期(2005-2010)
数据中心光互连需求明确,OCS可行性得到验证。
2005年,Barker等人在SC会议上发表《On the feasibility of optical circuit switching for high performance computing systems》,首次系统论证了OCS在HPC系统中的可行性。
这一时期,学术界开始意识到:传统电交换在Spine层面临功耗墙和成本墙,光交换的引入势在必行。
(三)学术原型期(2010-2014)混合架构的黄金时代
Helios、OSA、MORDIA等混合架构逐步问世,确立“电处理突发+光处理大流” 核心思路初步构建。
(四)产业落地期(2014-2020)
Google 启动Apollo OCS项目,自研光交换机并率先在商用数据中心网络中规模化部署,证明了光交换在商用 DCN 中互联的可行性,数据中心网络逐步从传统Clos架构演进为融合 OCS 的动态可重构拓扑(如 Google 的 Lightwave Fabric)。
(五)AI驱动爆发期(2020-2026)
Google在SIGCOMM 2023发表《Lightwave Fabrics》,将OCS应用从传统数据中心网络扩展到AI超级计算机,系统可用性提升3倍,模型训练性能提升最高达3.3倍,标志着OCS技术从学术原型(如Helios、OSA)和早期部署(Apollo项目)进入了大规模生产级AI超级计算机的应用阶段。
随着 AI 训练集群规模持续突破,传统电交换 Spine-Leaf架构无法满足大带宽、低时延、高稳定的流量需求, OCS已成为数据中心网络升级的必然选择。
二、OCS规模化落地核心痛点
从OCS的发展历程及其应用来看,Google Apollo项目自2015年起启动,经过多年研发,最终在2022-2023年实现OCS的规模化生产部署,成为数据中心网络领域的标志性项目。但从技术架构角度分析,Google 的OCS部署成功依赖拓扑重构、深度定制 SDN、软硬件垂直整合三大封闭条件,对行业通用场景并不完全适配,OCS行业通用了落地仍面临一定障碍:
架构迁移风险高:现有数据中心均基于标准 Spine-Leaf/Clos 架构,全面重构成本与风险不可控
控制面改造难度大:传统网络依赖BGP硬件转发,替换为 SDN 需重写全栈控制逻辑
生态开放度不足:普通用户无自研芯片与设备能力,无法实现 Google式垂直整合
三、GMPLS:光与IP 融合构筑AI算力网络新控制平面 高效支撑OCS落地应用
(一)GMPLS 起源
20世纪90年代,光网络技术快速发展,出现了分插复用器(ADM)、密集波分复用(DWDM)、光子交叉连接(PXC)等多种设备,为统一管理这些设备,互联网工程任务组(IETF)在多协议标签交换(MPLS)基础上发展了GMPLS,使其能够同时支持分组、TDM、波长和空间域的控制。
(二) GMPLS架构
GMPLS架构是MPLS架构的扩展,包含了与不支持分组交换的接口相关联的标签编码机制。GMPLS架构支持以下五种类型的接口:
(1)分组交换能力(PSC):使用数据包头部中包含的信息来转发单个数据包的接口。
(2)第2层交换能力(L2SC):能够读取第2层帧头部并使用它们来划分单个帧并转发它们的接口。
(3)时分复用能力(TDM):根据数据在TDM帧中所占时隙的位置来切换数据的接口。
(4)Lambda交换能力(LSC):将入射波长上的流量切换到不同出射波长的接口。
(5)光纤交换能力(FSC):根据物理资源来切换信息流或信息流组的接口。
(三)关键信令协议:RSVP-TE

OCS通过RSVP-TE标签分发协议自动创建光路径,核心机制是标签预分配和上游标签。如图,OCS通过标签分发的方式创建光交叉连接,由于MEMS的交换矩阵需要数十毫秒来响应重新配置命令,为了确保光电协作的时序一致性,标签预分配机制允许上游节点提前告知下游邻居所期望的接收接口。当OCS控制代理收到带预分配标签的 Path 消息时,即可预先下发光交换矩阵配置。当下游返回 Resv消息且标签匹配时,立即锁定物理通道。为了进一步加速双向光路径的同步创建,Path消息中还可携带上游标签对象,直接指明反向流量的物理接口。这一机制在准静态的AI-DCN拓扑构建中,极大地提高了光电层拓扑握手的可靠性,避免了因配置时序错位引发的网络丢包。
• GMPLS RFC相关资料来源:
RFC 3945: Generalized Multi-Protocol Label Switching (GMPLS) Architecture
https://www.rfc-editor.org/rfc/rfc3945
https://datatracker.ietf.org/doc/search?name=GMPLS&sort=&rfcs=on&activedrafts=on&by=group&group=)
四、GMPLS在 AI-DCN 场景的核心价值
(一) 适配 AI 训练流量特性
大模型训练流量具备长时稳定、大颗粒、可预测等特征,GMPLS 分布式路径计算无需集中调度的单点瓶颈,更适合大规模GPU集群的并行光路建立。
(二) 混合交换架构的统一控制
电层+光层混合架构——ToR/Leaf层保留电交换处理突发小流量,Spine层采用OCS处理大颗粒聚合流,GMPLS提供两种部署模式:
Overlay模式:光层与电层独立控制平面,最大隔离性,适合多租户环境
Peer模式:统一控制平面跨越电/光节点,边缘路由器参与光层路由决策,消除层间壁垒,实现端到端TE
(三)动态重配置与光层自动化
尽管 MEMS 机械式光开关的重配置时间在毫秒级,不适合电层包级别的实时调度,但 AI 训练流量具有长时稳定的“巨象流”特征,拓扑调整属于长周期行为。GMPLS 通过以下机制保障了智算网络的稳定性:
自动化发现与拓扑构建:通过 LMP 协议自动发现光纤邻接关系,在新集群扩容或 OCS 节点上线时实现即插即用
快速重构与恢复:在网络发生物理断纤等故障时,通过预计算保护路径与 RSVP-TE 信令,在百毫秒级内完成光路重构,避免 AI 训练任务因网络长时间中断而崩溃
(四)标准化与可靠性
作为IETF标准,提供经过验证的光层信令、路由和链路管理,降低多厂商部署风险,且无单点故障,适合需要高可用性的AI训练基础设施。
GMPLS可直接兼容现有DCN主流CLOS+BGP架构,实现OCS “drop-in 即插即用”平滑升级,无需推倒重建,为OCS规模化落地面临的核心痛点提供针对性解决方案。展望未来,业界同仁可在GMPLS基础上共同推进光电协同生态建设。
作者
曲宏亮 hongliangqu@triple-stone.com
何学娟 hexuejuan@caict.ac.cn
孙 聪 suncong@caict.ac.cn
审核
王少鹏:wangshaopeng@caict.ac.cn



