华为徐丽:下一代智算DC高速互联引领AI Infra.技术底座
华为主任工程师徐丽介绍了智算网络基础设施是实现AGI和AI普惠应用所需算力的支撑底座。在国内制程受限的情况下,Infra.需要从网络和448G/lane高速互联2个方面进行技术突破,并分享了华为公司在这2方面的技术进展和计划。
新拓扑BST,为100K+大规模智算集群而生,在保证任意2个节点间带宽配比一致的前提下,打破全互联架构,逼近2层组网规模极限并创新AI业务亲和算法,使能系统性能最优。
rFC(Remote Flow Control),逐跳跨跳流控协同配合,即时控制网络拥塞,打造极致低时延网络。
P2MP组播通信,针对大模型Dispatch阶段AlltoAll通信,把同一token “一次发送、多接收”直接下沉到网卡与交换机,提升通信效率。
UniSEC安全通信技术,为智算网络保驾护航,创新控制面分布式可信根互联认证和数据面高吞吐、低延迟群组加密通信协议,为Scale up和Scale out网络打造高通量低延时安全。
448G通过无源信道技术创新和突破,结合3D建模仿真,当前信道带宽可达到112GHz+,使能PAM4调制延续又一代。后续将进一步分享实测信息。
MLSE架构与算法创新,助力智算低功耗:分享On-Demand MLSE架构和状态压缩MLSE算法,为448G MLSE技术探索提供参考。
UniFEC技术体系,保障智算系统高可靠:分享FEC创新方案包括检纠分离架构,灵活检纠算法,跨代际融合FEC,FlexFEC等,并指出448G UniFEC 3.0将从稀疏化FEC算法,编码调制联合等方向进行探索。
华为已携手业界厂商开展下一代智算DC和高速互联的技术探讨,并凝聚行业共识,在ODCC 9月峰会发布多厂家《下一代智算DC高速互联448G/lane技术需求白皮书》和《下一代智算DC高速互联网络需求白皮书》。
点击https://mp.weixin.qq.com/s/TGZGbgn8C7llJHuENrosEA 下载相关文档
ODCC秘书处联系人
刘老师 13488889649(微信同号) 邮箱:liupengyun@caict.ac.cn