ODCC算网底座 | 数据中心负载均衡
随着大模型训练任务由千亿参数向万亿参数规模迭代,全域All-to-All通信逐步成为制约网络性能的核心瓶颈。在动态、高并发、细粒度的全局交换场景下,传统流负载均衡策略暴露出链路负载不均、哈希极化、流量碰撞、带宽损耗等突出问题。2024年以来,包级负载均衡依托数据包级动态路径选择能力,成为超大规模智算网络的核心调度机制。该技术将流量拆解至单包粒度,在多条等价路径间均匀分发流量,实现接近理想状态的链路利用率与无阻塞通信,已被业界验证为支撑万卡以上AI集群规模化扩展的关键网络技术。目前,头部云厂商与AI芯片厂商已在下一代智算网络中规模化部署包级负载均衡技术,全面支撑万亿级参数模型高效、稳定训练。
一、包级负载均衡出现背景:AI流量范式迭代升级
智算集群已进入万卡至十万卡规模化部署阶段,稀疏模型的全域All-to-All通信成为智算网络常态化流量形态。该类通信具备全域覆盖、细粒度交互、高突发传输的特征,对网络负载均衡的均衡精度提出了极高要求。以ECMP为代表的传统流级负载均衡技术,在适配AI训练流量场景时凸显三大核心局限:
第一,哈希极化造成带宽资源严重浪费。传统ECMP技术依托五元组哈希规则,将单条数据流固定绑定至单一转发路径。在All-to-All通信场景中,网络并发流数量庞大且流量模式相对固定,极易产生哈希极化现象,大量数据流被聚合分配至少数链路,其余等价路径长期处于低负载状态,导致网络有效可用带宽远低于理论带宽阈值,GPU集群算力受网络瓶颈制约,无法充分释放。
第二,多平面扁平化组网对负载均衡精度提出更高标准。智算集群架构逐步由三层组网压缩为两层多平面极简架构,网络固有拥塞节点大幅减少,负载均衡精度成为决定集群性能上限的核心因素。二层组网架构下,Spine节点易产生微突发流量与局部链路拥塞,若交换机缓存无法吸纳瞬时流量冲击,无损网络将触发PFC反压机制,有损网络则会直接出现丢包,最终造成网络性能大幅衰减。
第三,网络性能可预测性差,优化运维难度高。流级负载不均衡导致网络时延、带宽资源呈现显著随机性,同一训练任务在不同运行周期受哈希结果影响,性能表现差异较大,大幅提升了集群调度、性能调优与故障定位的复杂度。同时,为规避极端拥塞风险,行业普遍采用超额带宽配置方式保障业务稳定,进一步增加了智算中心的建设与运营成本。
在此背景下,网络调度机制亟需完成迭代升级,从粗粒度、静态固化的流级均衡模式,转向细粒度、动态自适应的包级均衡模式。包级负载均衡通过单包独立路径决策,从根源上解决哈希极化问题,实现网络带宽极致利用与通信时延确定性优化,现已成为超大规模智算网络的标准化配置与核心技术竞争壁垒。
二、流级均衡与包级均衡技术机理对比
传统流级负载均衡基于源IP、目的IP、协议、源端口、目的端口五元组完成哈希分组,哈希结果固定时,单条数据流的所有数据包将固定复用同一条转发路径,不同数据流可分配至不同链路。而包级负载均衡支持单个数据包独立选择转发路径,同一条数据流内的数据包可分散至多条不同链路传输。
流级负载均衡在实际应用中易出现路径冲突问题,不同GPU群组的通信路径容易重叠抢占,直接造成双方通信性能大幅下降。随着组网规模持续扩张,路径冲突问题愈发频发,因此流级负载均衡高度依赖全局路径规划能力,在All-to-All等高动态流量场景下,无法通过人工路径编排彻底规避路径冲突。下图展示流级负载均衡场景中可能出现的路径冲突问题:绿色GPU之间选择的路径和蓝色GPU之间选择的网络路径出现了重合,此时两组GPU的通信性能均出现了减半的情况。

针对流级负载均衡缺陷,业界已衍生出多类优化方案,包括通过多QP子连接拆分、增加连接数量降低路径冲突损耗,以及基于流间隙与网络拥塞状态的Flowlet动态切路方案,但此类优化方式的流量散列效果均不及包级负载均衡。
包级负载均衡可实现最优均衡效果,单一流体的数据包可通过逐包哈希机制,均匀分散至所有可用Spine转发路径。但逐包随机选路会造成接收端数据包乱序到达,因此该技术落地要求终端网卡具备成熟的乱序接收与处理能力。下图展示了包级负载均衡的效果:即绿色GPU之间存在四条路径,假设绿色GPU之间仅存在一条流,则交换机在选路时,会逐包哈希选择下一跳Spine交换机。

三、包级负载均衡业界技术实践
英伟达在Spectrum-X技术白皮书中,公开了其自研包级负载均衡的核心运行流程:两端终端网卡有序输出数据包至Leaf交换机(图a),交换机通过逐包选路机制,将多组数据包均匀分发至四条等价转发路径(图b),实现全网路径资源均衡复用。
逐包选路会引发数据包乱序到达接收端,传统RDMA协议会将乱序传输误判为链路丢包,触发NAK重传机制(图c),拖累传输效率。针对该问题,英伟达网卡搭载乱序直接写入(Direct Data Place, DDP)能力(图d),数据包携带专属内存写入地址,接收端网卡可直接将乱序数据包写入对应内存区域,无需占用网卡缓存排序,有效规避乱序带来的性能损耗。

英伟达公开测试数据显示,传统ECMP流级调度模式下,受哈希极化与路径冲突影响,各业务流带宽资源分配不均、完成时间差异显著,最慢业务流的完成时间较最优场景增加2.5倍,长尾时延问题突出。而逐包负载均衡可有效抹平链路负载差异,大幅优化业务传输时延与集群运行稳定性。如下图所示:包负载均衡方案对比传统ECMP方案的效果。

由于英伟达Spectrum-X平台的逐包转发能力,需要端侧网卡与交换机全域协同适配,为推动行业标准化发展,2026年5月,OpenAI、AMD、博通、微软、英伟达、英特尔等头部企业联合发布MRC(Multipath Reliable Connection)多路径可靠传输协议,为行业通用逐包负载均衡技术落地提供标准支撑。
四、包级均衡策略核心技术挑战
包级负载均衡重构了传统网络调度范式,在带来极致性能增益的同时,也对端网协同机制、拥塞控制策略、混合组网适配能力提出了全新技术挑战。
挑战一:大规模多路径调度与异常状态精准判定难度大。超大规模二层多平面组网场景下,两端网卡间可用转发路径可达128至256条。如何合理界定单包喷洒范围、实时维护各路径传输质量、精准区分真实链路丢包与选路导致的数据包乱序,需要在芯片算力与缓存资源受限的前提下,优化调度与识别算法,对软硬件设计能力要求极高。
挑战二:无损网络拥塞扩散风险加剧。在PFC无损网络机制下,传统流级拥塞反压仅作用于对应流量的固定路径。而包级调度模式中,单业务拥塞数据包可覆盖全部转发路径,触发全域PFC反压扩散,波及同链路承载的其他正常业务,引发跨任务性能干扰,降低集群整体调度稳定性。具体可看下图案例:两个任务重黄色任务一发生了拥塞反压,反压路径包含了蓝色任务2的路径,影响了任务2的性能。

挑战三:新旧设备混合组网适配性不足。当前存量智算集群部署大量不支持乱序接收的传统网卡设备,新旧终端设备、新旧调度机制混合组网时,有序流量与乱序流量相互干扰,易引发网络抖动、误丢包、性能衰减等问题,制约集群平滑升级与稳定运行。
五、总结
包级负载均衡是AI时代网络传输范式的颠覆性技术变革。该技术以细粒度逐包喷洒调度替代传统静态流级哈希机制,可实现全网吞吐利用率趋近100%,有效规避大象流碰撞问题、大幅压低业务长尾时延,彻底解决传统ECMP技术在MoE专家并行、全域All-to-All通信场景下的哈希极化、带宽闲置、队头阻塞等核心痛点。NVIDIA Spectrum-X及微软、Meta等超大规模AI集群的规模化落地,标志着包级负载均衡已从理论研究走向商用实战,成为高性能RoCE无损网络的标配核心技术。
面向未来,伴随端网协同乱序处理、全网INT网内遥测、自适应智能路由等技术的深度融合,包级负载均衡将进一步释放硬件带宽潜能,推动智算网络由单一高吞吐转发,向高吞吐、低时延、强确定性方向迭代演进,为大模型训练效率跨越式提升、超大规模智算集群持续扩容筑牢坚实的网络底座。
联系人:
李老师:19528282160 邮箱:lijiayuan@caict.ac.cn
ODCC秘书处联系人
刘老师:13488889649 邮箱:liupengyun@caict.ac.cn



