ODCC算网底座 | 数据中心负载均衡

2026-06-17

随着大模型训练任务由千亿参数向万亿参数规模迭代，全域All-to-All通信逐步成为制约网络性能的核心瓶颈。在动态、高并发、细粒度的全局交换场景下，传统流负载均衡策略暴露出链路负载不均、哈希极化、流量碰撞、带宽损耗等突出问题。2024年以来，包级负载均衡依托数据包级动态路径选择能力，成为超大规模智算网络的核心调度机制。该技术将流量拆解至单包粒度，在多条等价路径间均匀分发流量，实现接近理想状态的链路利用率与无阻塞通信，已被业界验证为支撑万卡以上AI集群规模化扩展的关键网络技术。目前，头部云厂商与AI芯片厂商已在下一代智算网络中规模化部署包级负载均衡技术，全面支撑万亿级参数模型高效、稳定训练。

一、包级负载均衡出现背景：AI流量范式迭代升级

智算集群已进入万卡至十万卡规模化部署阶段，稀疏模型的全域All-to-All通信成为智算网络常态化流量形态。该类通信具备全域覆盖、细粒度交互、高突发传输的特征，对网络负载均衡的均衡精度提出了极高要求。以ECMP为代表的传统流级负载均衡技术，在适配AI训练流量场景时凸显三大核心局限：

第一，哈希极化造成带宽资源严重浪费。传统ECMP技术依托五元组哈希规则，将单条数据流固定绑定至单一转发路径。在All-to-All通信场景中，网络并发流数量庞大且流量模式相对固定，极易产生哈希极化现象，大量数据流被聚合分配至少数链路，其余等价路径长期处于低负载状态，导致网络有效可用带宽远低于理论带宽阈值，GPU集群算力受网络瓶颈制约，无法充分释放。

第二，多平面扁平化组网对负载均衡精度提出更高标准。智算集群架构逐步由三层组网压缩为两层多平面极简架构，网络固有拥塞节点大幅减少，负载均衡精度成为决定集群性能上限的核心因素。二层组网架构下，Spine节点易产生微突发流量与局部链路拥塞，若交换机缓存无法吸纳瞬时流量冲击，无损网络将触发PFC反压机制，有损网络则会直接出现丢包，最终造成网络性能大幅衰减。

第三，网络性能可预测性差，优化运维难度高。流级负载不均衡导致网络时延、带宽资源呈现显著随机性，同一训练任务在不同运行周期受哈希结果影响，性能表现差异较大，大幅提升了集群调度、性能调优与故障定位的复杂度。同时，为规避极端拥塞风险，行业普遍采用超额带宽配置方式保障业务稳定，进一步增加了智算中心的建设与运营成本。

在此背景下，网络调度机制亟需完成迭代升级，从粗粒度、静态固化的流级均衡模式，转向细粒度、动态自适应的包级均衡模式。包级负载均衡通过单包独立路径决策，从根源上解决哈希极化问题，实现网络带宽极致利用与通信时延确定性优化，现已成为超大规模智算网络的标准化配置与核心技术竞争壁垒。

二、流级均衡与包级均衡技术机理对比

传统流级负载均衡基于源IP、目的IP、协议、源端口、目的端口五元组完成哈希分组，哈希结果固定时，单条数据流的所有数据包将固定复用同一条转发路径，不同数据流可分配至不同链路。而包级负载均衡支持单个数据包独立选择转发路径，同一条数据流内的数据包可分散至多条不同链路传输。

流级负载均衡在实际应用中易出现路径冲突问题，不同GPU群组的通信路径容易重叠抢占，直接造成双方通信性能大幅下降。随着组网规模持续扩张，路径冲突问题愈发频发，因此流级负载均衡高度依赖全局路径规划能力，在All-to-All等高动态流量场景下，无法通过人工路径编排彻底规避路径冲突。下图展示流级负载均衡场景中可能出现的路径冲突问题：绿色GPU之间选择的路径和蓝色GPU之间选择的网络路径出现了重合，此时两组GPU的通信性能均出现了减半的情况。

针对流级负载均衡缺陷，业界已衍生出多类优化方案，包括通过多QP子连接拆分、增加连接数量降低路径冲突损耗，以及基于流间隙与网络拥塞状态的Flowlet动态切路方案，但此类优化方式的流量散列效果均不及包级负载均衡。

包级负载均衡可实现最优均衡效果，单一流体的数据包可通过逐包哈希机制，均匀分散至所有可用Spine转发路径。但逐包随机选路会造成接收端数据包乱序到达，因此该技术落地要求终端网卡具备成熟的乱序接收与处理能力。下图展示了包级负载均衡的效果：即绿色GPU之间存在四条路径，假设绿色GPU之间仅存在一条流，则交换机在选路时，会逐包哈希选择下一跳Spine交换机。

640 (1).png

三、包级负载均衡业界技术实践

英伟达在Spectrum-X技术白皮书中，公开了其自研包级负载均衡的核心运行流程：两端终端网卡有序输出数据包至Leaf交换机(图a)，交换机通过逐包选路机制，将多组数据包均匀分发至四条等价转发路径(图b)，实现全网路径资源均衡复用。

逐包选路会引发数据包乱序到达接收端，传统RDMA协议会将乱序传输误判为链路丢包，触发NAK重传机制(图c)，拖累传输效率。针对该问题，英伟达网卡搭载乱序直接写入(Direct Data Place, DDP)能力(图d)，数据包携带专属内存写入地址，接收端网卡可直接将乱序数据包写入对应内存区域，无需占用网卡缓存排序，有效规避乱序带来的性能损耗。

微信图片_20260617100358_1537_1.png

英伟达公开测试数据显示，传统ECMP流级调度模式下，受哈希极化与路径冲突影响，各业务流带宽资源分配不均、完成时间差异显著，最慢业务流的完成时间较最优场景增加2.5倍，长尾时延问题突出。而逐包负载均衡可有效抹平链路负载差异，大幅优化业务传输时延与集群运行稳定性。如下图所示：包负载均衡方案对比传统ECMP方案的效果。

640 (3).png

由于英伟达Spectrum-X平台的逐包转发能力，需要端侧网卡与交换机全域协同适配，为推动行业标准化发展，2026年5月，OpenAI、AMD、博通、微软、英伟达、英特尔等头部企业联合发布MRC(Multipath Reliable Connection)多路径可靠传输协议，为行业通用逐包负载均衡技术落地提供标准支撑。

四、包级均衡策略核心技术挑战

包级负载均衡重构了传统网络调度范式，在带来极致性能增益的同时，也对端网协同机制、拥塞控制策略、混合组网适配能力提出了全新技术挑战。

挑战一：大规模多路径调度与异常状态精准判定难度大。超大规模二层多平面组网场景下，两端网卡间可用转发路径可达128至256条。如何合理界定单包喷洒范围、实时维护各路径传输质量、精准区分真实链路丢包与选路导致的数据包乱序，需要在芯片算力与缓存资源受限的前提下，优化调度与识别算法，对软硬件设计能力要求极高。

挑战二：无损网络拥塞扩散风险加剧。在PFC无损网络机制下，传统流级拥塞反压仅作用于对应流量的固定路径。而包级调度模式中，单业务拥塞数据包可覆盖全部转发路径，触发全域PFC反压扩散，波及同链路承载的其他正常业务，引发跨任务性能干扰，降低集群整体调度稳定性。具体可看下图案例：两个任务重黄色任务一发生了拥塞反压，反压路径包含了蓝色任务2的路径，影响了任务2的性能。

640 (4).png

挑战三：新旧设备混合组网适配性不足。当前存量智算集群部署大量不支持乱序接收的传统网卡设备，新旧终端设备、新旧调度机制混合组网时，有序流量与乱序流量相互干扰，易引发网络抖动、误丢包、性能衰减等问题，制约集群平滑升级与稳定运行。

五、总结

包级负载均衡是AI时代网络传输范式的颠覆性技术变革。该技术以细粒度逐包喷洒调度替代传统静态流级哈希机制，可实现全网吞吐利用率趋近100%，有效规避大象流碰撞问题、大幅压低业务长尾时延，彻底解决传统ECMP技术在MoE专家并行、全域All-to-All通信场景下的哈希极化、带宽闲置、队头阻塞等核心痛点。NVIDIA Spectrum-X及微软、Meta等超大规模AI集群的规模化落地，标志着包级负载均衡已从理论研究走向商用实战，成为高性能RoCE无损网络的标配核心技术。

面向未来，伴随端网协同乱序处理、全网INT网内遥测、自适应智能路由等技术的深度融合，包级负载均衡将进一步释放硬件带宽潜能，推动智算网络由单一高吞吐转发，向高吞吐、低时延、强确定性方向迭代演进，为大模型训练效率跨越式提升、超大规模智算集群持续扩容筑牢坚实的网络底座。

联系人：

李老师：19528282160 邮箱：lijiayuan@caict.ac.cn

ODCC秘书处联系人

刘老师：13488889649 邮箱：liupengyun@caict.ac.cn

640 (1).jpg

上一篇： ODCC夏季全会 | 千年烟火遇见算力对话

NEWS INFORMATION新闻动态

ODCC算网底座 | 数据中心负载均衡

联系我们