华为郑秀丽:ANT-以算效为目标,构建AI原生传输能力
近日,2025开放数据中心大会之新技术与测试(算网)分论坛在北京召开。华为主任工程师郑秀丽介绍了智算集群Scale out网络面临的三大传输挑战,阐述了AI原生传输(AI-Native Transport,ANT)技术理念与逐包均衡、算效优先CFS(Computation First Scheduling)与数控分离DCP(Data Control Partitioning)等关键技术,并分享了ANT原型样机的测试结果,试验表明ANT可以大幅度提高网络利用率、降低训练时间。
郑秀丽
华为主任工程师
ANT旨在充分利用智算流量特征,以算效为目标,构建AI原生传输能力,其技术要点包括:
逐包均衡技术:通过网侧Spray、端侧Spray、乱序控制、防拥塞扩散、基于Message粒度的拥塞控制等技术,可从根本上解决ECMP冲突问题,在AI流量场景下实现全网的流量理想均衡,大大提高网络利用率。
算效优先CFS技术:利用AI流量的规律性,通过控制面集中规划配合数据面分布式调度,可将“业务吞吐” 以逼近理论最优方式转换为“训练/推理效率”,大大降低训练时间。
数控分离DCP技术:对控制信息和数据信息采用不同传输策略,对数据信息允许有损传输,对控制信息采用无损传输,可支持百万卡规模、百公里等大规模、长距离、高性能网络传输的需求。DCP相关论文成果《Revisiting RDMA Reliability for Lossy Fabrics》已被SIGCOMM 2025接收,于2025年9月9日在葡萄牙正式发布。
ODCC新技术与测试工作组联系人
李老师:19528282160(微信同号) 邮箱:lijiayuan@caict.ac.cn
ODCC秘书处联系人
刘老师 13488889649(微信同号) 邮箱:liupengyun@caict.ac.cn