腾讯张潍丰:ETH-X GPU互联协议打造百卡超节点
近日,2025开放数据中心大会之新技术与测试(算网)分论坛顺利召开。腾讯星脉网络高级架构师张潍丰展示了ETH-X Scale Up互联协议的设计思路,从大模型应用的计算-通信关系、Scale Up的访存语义设计到事务层的设计挑战,最后分享了国内首个基于以太实现的支持内存语义的Scale Up IO(ETH-X PAXI事务层原型机)的测试结果,为以太Scale Up互联再添砖瓦。
张潍丰
腾讯星脉网络高级架构师
ETH-X超节点项目由开放数据中心委员会(ODCC)主导、中国信通院与腾讯牵头,联合博通、沐曦、燧原等 30 余家产学研机构共同研发。《ETH-X Ultra Scale Up 互联协议白皮书 V1.0》将在日前发布,为ETH-X超节点提供高性能互联协议。张潍丰分享了几个核心要点:
1 保证内存事务执行顺序,避免数据错误
针对内存事务执行顺序的问题,核心是保障 “生产者 - 消费者” 线程数据协调的释放一致性内存模型,即生产者需先写数据再更标志位,消费者需先读标志位再读数据。但网络、收端、发端的乱序会导致内存系统最终真实写入数据和标志位的顺序不符合预期,消费者读旧数据出错。为此协议定义内存屏障规则,事务层确保数据按指令顺序预期执行,杜绝数据错误。
2 实现AXI事务代理,优化写类型操作并发能力
探讨转发时延与并发吞吐的微观联系:指出微观转发时延对宏观业务时延的直接影响较小,但硬件需足够的 outstanding buffer 来覆盖事务 RTT 才能跑满吞吐。结合 Little’s Law(状态空间 = 吞吐 × 驻留时间),说明本地与远程内存事务驻留时间差异大,状态不足会阻塞事务,约束并发吞吐。解决方案是在 GPU 本地增加 AXI 事务代理,快速响应 store 类事务,提升单位计算资源并发能力。
3 光互联可靠性下降,提出系统级解决方案
对ETH-X Ultra系统端到端传输时延进行分解,指出FEC 时延占比是核心瓶颈,且优化 FEC 易导致误码率增加。其系统级方案建议结合光通道容错、光模块交叉容错等技术解决光互联中的单点故障问题,再结合链路级重传能力满足GPU超节点通信要求。
4 首个基于以太实现的支持内存语义IO原型,为国产超节点添砖加瓦
当前 ETH-X 超节点原型机已完成首轮核心性能测试,关键指标符合预期。一级网络单向传输时延小于900纳秒;集合通信算子性能显著优于RDMA实现;满足业务使用内存语义方式实现计算通信融合算子,有效降低推理业务TPOT时间。
《ETH-X GPU互联协议白皮书 V1.0》定于 2025 年 9 月通过 ODCC 官方平台正式发布,白皮书涵盖协议设计理念、ETH-X PAXI 事务层流程、ETH-X 数据链路层、物理层扩展和Die-to-Die互联设计等内容,旨在向行业开放标准化方案,推动以太网高性能计算的产业化落地,助力 AGI 时代十万卡级集群互联技术普及。
ODCC新技术与测试工作组联系人
李老师:19528282160(微信同号) 邮箱:lijiayuan@caict.ac.cn
ODCC秘书处联系人
刘老师 13488889649(微信同号) 邮箱:liupengyun@caict.ac.cn