ODCC算网底座 | 001数据中心网络架构
Token时代,算力已成为新质生产力的核心引擎。在“六张网”的战略部署背景下,万卡级智算集群实现规模化落地,如何聚合异构算力、破解带宽瓶颈、时延抖动、运维复杂等核心痛点,成为算力网建设的关键命题。高密度机机交互、大模型训练推理、AI Agent通信对数据中心网络提出极致要求,网络已从传统数据传输管道升级为“智算之脊”,直接决定算力释放效率。为此,ODCC推出“算网底座:从网络架构到算网协同的系统化演进”系列文章,聚焦万卡集群、算网融合、自主可控等行业热点,以系统化技术实践,解读智算底座建设路径,见证网络成为算力倍增器,为行业发展提供可落地的参考方案。这不仅是一场技术的连载,更是一场关于如何拥抱智算变革、定义行业标准的系统化实践。让我们一起深入架构腹地,见证网络如何进化为算力的倍增器。
随着大模型参数规模突破万亿、训练集群从万卡向十万卡级别演进,AI计算对网络的需求已从“高带宽”升级为极致低时延、无阻塞高性能、高稳定性与高性价比等核心指标。传统三层Clos组网在大规模MoE(混合专家)训练推理、All-to-All通信场景下,暴露出网络跳数多、时延偏高、负载均衡复杂、建设成本高昂等突出瓶颈。2025年,DeepSeek在论文中正式提出多平面胖树组网(MPFT, Multi-Plane Fat-Tree),以两层架构实现三层规模,迅速成为业界主流技术路线。与此同时,业界头部OTT厂商已逐步推动大规模智算集群向多平面组网演进,并充分论证了该架构在性能、成本与扩展性上的全面优势。
一、多平面组网出现的背景:
AI通信变化引发组网架构革命
大模型训练和推理场景,尤其是MoE架构,具有极强的全网全互联(All-to-All)特征:每个专家(Expert)需与所有其他专家进行高频数据交换。传统数据中心网络多采用三层Clos(Core-Spine-Leaf)架构,虽能扩展至数万节点,但在AI场景下凸显三大核心矛盾:
1. 时延瓶颈:三层架构跨Pod通信需经过“Leaf→Spine→Core→Spine→Leaf”共5跳转发,时延较高;而MoE架构存在大量All-to-All小消息交互,不同卡间高频通信对网络时延提出极致要求,传统架构难以满足。
2. 负载均衡复杂度高:三层架构需同时解决Leaf-Spine、Spine-Core两级负载均衡问题,ECMP哈希冲突现象突出,易引发链路拥塞、带宽利用率不均;负载均衡不合理进一步降低网络有效吞吐,导致通信时间无法被计算时间掩盖,最终造成端到端推理或训练性能劣化。
3. 建设成本高:三层架构需部署大量高端Core交换机,约半数Spine端口需接入Core交换机以实现规模扩展,导致端口利用率偏低;同时,Spine-Core之间需部署大量光互连模块,若跨楼栋部署,还需采用支持2Km传输距离的FR光模块,网络建设成本居高不下,难以支撑十万卡级别集群的经济性需求。
在此背景下,业界亟需一种既能降低时延、简化负载均衡,又能大幅控制成本的新型组网架构。多平面组网应运而生,并快速成为AI智算网络的主流技术方向。
二、传统三层Clos与多平面方案对比
以128K 400G接入的XPU集群为例,三层组网与4平面组网均能支持128K集群规模,但两者在时延、成本、负载均衡优化复杂度等方面差异显著,多平面组网综合优势明显优于三层Clos组网。
三层组网架构如下:

三层组网采用Leaf-Spine-Core三级胖树结构,网络设备之间实现全连接。该组网架构存在上述三大短板:转发时延高、建设成本高、负载均衡复杂度高。
为适配AI产业发展需求,网络架构逐步从三层Clos向两层多平面演进,以2层4平面组网为例:

如上图所示,交换机设备为128*400G,接入网卡以400G为例(如CX8网卡在以太模式下为2*400G,每个400G端口可拆分为100G);网卡拆分为100G后,通过光shuffle设备实现光链路交叉,4个400G入接口经交叉后连接至4个平面,每个平面的400G接口包含4个网卡的流量。同时,交换机互联也通过光shuffle交叉互联,充分发挥交换机大扇出能力(如华为51.2T交换机支持512扇出),4平面整网规模可达512*256 = 128K。
多平面组网主要优势:
(1)时延低:采用扁平组网架构,仅需3跳转发,大幅降低通信时延;
(2)成本低:设备与光模块部署数量显著减少,总TCO(总拥有成本)下降30%;
(3)复杂度低:仅需依托现有均衡技术解决Leaf-Spine之间的哈希冲突问题,大幅简化负载均衡部署难度。
以128K 400G接入集群为例,128*400G交换机在三层组网与两层4平面组网中的设备数量和端口数量对比如下表所示:

由上述数据可见,与三层组网相比,二层多平面组网平均每千卡可节省40%的交换机数量和接口数量,具备显著的成本优势。
三、多平面组网架构在业界的实践
1. 阿里论文公布的HPN网络采用2平面组网,整体架构如下:

阿里论文中,双平面HPN网络架构如上图所示,每个POD内包含Plane1和Plane2两个平面,主机服务器通过2*200G网卡接入两个平面的参数面网络,每个POD可支持15K GPU接入。
论文中对比了传统单平面双归组网与多平面组网的负载均衡性能差异,其中单平面双归接入组网如下:

如上图所示,阿里HPN论文指出,若网卡bond至两台Leaf交换机,可提升组网可靠性,但当远端多个TOR交换机的流量集中涌向本端单个TOR交换机的服务器接口时,会因Spine下行流量负载不均衡,导致同一网卡两个端口接收流量不均,进而造成通信性能下降。而多平面架构巧妙解决了这一问题。
多平面双归接入组网如下:

如上图所示,双平面组网中,一条流量在建立时,其传输路径即已确定。例如,Server1的Port1(归属GPU 0)与Server2的Port1通信时,仅会经过“Server1 Port1→ToR1→Agg1→ToR3→Server Port1”路径。通过双平面设计,可避免多数Agg交换机偏向单个ToR交换机,从而解决服务器端NIC两个端口流量不均衡的问题,其效果如上图右侧所示。
同时,论文还对单归接入与bond双归接入的可靠性进行了论述:

如上图所示,当出现端口故障或端口多次闪断时,若采用传统单归接入方式,任务会因RDMA链路中断而终止;若采用双归接入方式,当一个端口出现故障时,业务性能仅在故障存续期间出现波动,不会导致业务中断,有效提升了组网可靠性。
2. DeepSeek论文关键结论
DeepSeek在2025年发布的论文中,通过实测验证:八平面两层胖树(Multi Plane Fat Tree,MPFT)在16384 GPU集群中,All-to-All通信性能与单平面多轨网络相当,但建设成本降低40%,通信时延降低30%,且具备更优的故障隔离能力。该架构已成为DeepSeek训练V3模型的核心网络底座。
DeepSeek论文中的4平面组网如下:

如上图所示,DeepSeek-V3论文中描述的硬件架构采用四平面独立互联组网,依托四层高速网络平面将业务流量拆分至4个平面,在同等组网规模下,实现从三层到两层的扁平化演进。通过多平面分流机制,可缓解大规模集群下的网络拥塞问题,大幅降低跨节点通信延迟与资源抢占冲突,在实现万卡级算力集群高效组网的同时,平衡硬件部署成本与分布式大模型训练的通信算力需求。
论文中对比了多平面组网与三层组网、SF、DF等组网架构的成本,结果显示二层多平面组网成本最优:

多平面组网与二层单平面Clos组网的性能表现一致:

四、多平面组网架构面临挑战
多平面方案虽具备诸多优势,但也带来了一些技术挑战,如下图所示:

挑战1:如上图所示,当平面1发生故障时,在平面间互相通信的XPU之间,需端侧感知到故障并主动切换至其他平面继续转发;若平面之间有逃生交换机,但要减少网络支持的集群规模,网络架构也变成了有大收敛比的3层。
挑战2:网卡发流时,需确保多个平面之间的流量负载均衡,否则会因某个网卡接口流量带宽偏低形成性能短板,导致整体通信性能下降。
这些挑战并非不可破解,反而成为多平面组网技术从实验室走向产业规模化落地的重要迭代方向——通过端侧故障感知算法优化、负载均衡策略升级,以及软硬协同的架构适配,上述痛点已逐步得到解决。正是在不断应对挑战、突破技术瓶颈的过程中,多平面组网的核心优势得以进一步凸显,技术成熟度持续提升,为后续大规模商用落地奠定了坚实基础,也为其成为AI智算网络的主流选择提供了充分支撑。
五、总结
多平面组网(Multi Plane Fat Tree,MPFT)是AI时代网络架构的革命性创新。它以两层架构实现三层规模,具备时延降低30%、成本降低40%、负载均衡简化、故障隔离增强五大核心优势,彻底解决了传统三层Clos在MoE训练、All-to-All通信场景下的瓶颈问题。DeepSeek论文的发表与阿里、腾讯等企业的大规模商用落地,标志着多平面组网已从技术验证阶段走向产业成熟阶段,成为智算中心网络的主流选择。
系列下一篇:
002突破哈希局限,解锁网络性能天花板
“算网底座:
从网络架构到算网协同的系统化演进”系列
联系人:李老师:19528282160 邮箱:lijiayuan@caict.ac.cn
ODCC秘书处联系人
刘老师:13488889649 邮箱:liupengyun@caict.ac.cn



