NEWS INFORMATION新闻动态

关注微信公众号

首页  >   新闻动态  >   行业动态

AI原生传输(ANT)项目取得阶段性进展

2025-08-13

近日,由开放数据中心委员会(ODCC)主导、中国信通院与华为牵头设计,联合多家产学研机构共同研发的“AI原生传输(ANT)技术研究和测试项目”在香港科技大学开展了第一阶段测试,效果显著。

该项目旨在面向Scale out超大集群网络,通过AI原生传输(AI-Native Transport,以下简称ANT)技术创新,使能数控分离DCP(Data Control Partitioning)、逐包均衡与算效优先CFS(Computation First Scheduling)等关键技术,大大提高网络利用率、降低训练时间。

数控分离DCP技术:

对控制信息和数据信息采用不同传输策略,对数据信息允许有损传输,对控制信息采用无损传输,可支持百万卡规模、百公里等大规模、长距离、高性能网络传输的需求。

逐包均衡技术:

通过网侧spray、端侧spray、乱序控制、防拥塞扩散等技术,可从根本上解决ECMP冲突问题,在AI流量场景下实现全网的流量理想均衡,大大提高网络利用率。

算效优先CFS技术:

利用AI流量的规律性,通过控制面集中规划配合数据面分布式调度,可将“业务吞吐” 以逼近理论最优方式转换为“训练效率”,大大降低训练时间。

仿真数据结果显示,在大规模集合通信流量(含MoE AlltoAll、AllReduce等)多路径传输场景下,相比传统无损传输技术与有损传输技术,DCP容损传输技术平均可以降低5%~61%的通信算子级任务完成时间。另据小规模原型样机测试验证,在智算集群组网下(网络丢包率0.01%~1%),相比传统GBN(Go-Back-N)可靠重传技术,DCP容损传输技术可以提升网络吞吐1.6~72倍。DCP相关论文成果《Revisiting RDMA Reliability for Lossy Fabrics》已被SIGCOMM 2025接收,将于2025年9月在葡萄牙正式发布。

微信图片_2025-08-13_171333_885.png

期间,多位专家就ANT技术以及一阶段测试结果进行了深入讨论,并为二阶段的测试验证提供了宝贵的建议。中国信通院云大所总工程师郭亮、华为网络技术实验室专家陈哲、香港科技大学教授陈凯、北京大学研究员吴文斐、阿里云智能集团资深总监王伟、腾讯数据中心网络架构师吕建超、快手网络架构师戚宝侃、博通架构专家何宗应、合见工软副总裁杨凯等代表出席了ANT测试成果发布仪式。

后续,ANT项目将持续在更大规模、更高速率、更好算效传输技术方面进行探索与研究,开展逐包均衡、算效优先CFS等关键技术的验证。

未标题-1.gif