AI 网络研讨会日前召开
近日,“人头攒动,遍地AI”的CES2025正在大洋彼岸火热召开。与此同时,由ODCC AI 网络特别任务组组织的AI 网络研讨会顺利进行。会议围绕AI网络的需求分析、架构设计和协议标准等方面进行了探讨,来自互联网企业、电信运营商、网络设备和部件厂商、AI芯片企业等十余家单位的30余位代表参会,与会专家讨论热烈。
ODCC新测组组长、中国信通院技术专家郭亮表示,近年来大模型应用快速发展,对智算网络提出较高要求。ODCC围绕智算发展新需求、新态势和新方向,联合业界推动智算网络技术研究和生态建设,取得积极成效。未来,将持续关注智算网络发展新动向,加强产研协作,共建高效智能、开放兼容的智算网络生态。
分享环节
中国移动研究院技术经理李锴表示,OISA针对GPU卡间互联的需求特性,在对等架构、流控、重传、报文等层面进行深度定义,以构建性能卓越、扩展性强、开放共享的Scale Up能力,助力AI芯片向超节点形态升级。
阿里云王伟高级总监介绍了ALS产业生态的初衷和进展,旨在为国内AI Scale UP构建开放技术生态,在数据面协议上倡导采用国际标准UALINK协议,在管控面上定义开放的Switch配置管理和高可用设计及API标准;阿里云AI互连设计师邱宇弟博士从协议分层及细节、链路层可靠传输、流控机制、RAS机制等对Alink网络协议进行了分享。
腾讯网络架构师张潍丰对Scale Up 物理层、数据链路层、传输层、事务层中GPU-Switch间互联、GPU-GPU间交互实现方式进行介绍,并对ETH-X协议在Scale Up互联协议方面所关注和解决的重点问题进行了剖析。
华为数据通信产品线智算以太网研究员庄艳针对AI集群建设的需求和挑战,提出以太网在端网协同的包均衡,在网计算,协议效率,低延时等方面的增强考虑,以提供面向AI训练/推理/推荐的高性能以太通信。
中国信通院技术专家赵继壮和邱奔分别对《智算中心网络测试规范》和《智算网络创新发展研究报告》进行了分享。其中,《测试规范》重点研究了智算网络在入算、算间及算内环节的关键能力要求、评价指标和测试方法,为智算网络技术创新和能力评价提供指引。《研究报告》剖析了智算网络背景需求、应用场景、关键技术、评价指标、产业生态等关键问题,对未来智算网络发展方向和趋势进行了展望。
研讨环节
研讨中, ODCC网络组组长、腾讯基础网络中心总监何泽坤认为,当前各类训练、推理场景不断涌现,对于Scale Up系统存在较大需求。通信和计算相互促进,呈现螺旋上升,现阶段,仍需不断优化Scale Up,支持多种语义,灵活满足各类场景需求。未来,可以通过小步优化,迭代快跑的方式推动系统演进。
中国电信技术专家王学聪认为,当前大模型推理瓶颈主要存在于解码阶段,每解码一个token都需要读取之前所有token缓存的K和V,导致GPU的显存带宽受限。未来,可以考虑针对大模型推理瓶颈做定向优化,如定制专用的大模型推理卡,增大GPU显存与显存的吞吐带宽,使GPU的计算能力与带宽吞吐达到平衡。
燧原科技首席系统架构师周永财指出,当前AI业务变化多样,数据包有大有小,通信拓扑、数据传播路径也呈现多样化,不能预先简单划定。需要考虑不同语义,如消息语义、内存语义,不同包大小情况下的数据传输行为和表现。在技术路线选择上,一要考虑编程习惯,二要确保产生更好地性能。
海光技术专家段爱民指出,在Scale UP和Scale Out网络研究过程中,需要站在AI软硬件生态角度来考虑问题。从业务框架到算子再到GPU计算的全过程,无论是交换机还是GPU,都需要服从AI端到端的性能要求。目前,Scale UP和Scale Out已有多种路线,未来,需要构建一个既能解决当前问题,又能满足未来发展需求的方案。
华为数据中心网络首席规划师温华锋指出,部分厂商在技术推广过程中宣称可支持几百、上千的卡间互联,做大超节点会带来性能的提升,但也会提高成本,需要结合性能、成本、参数规模等要素,进行综合考虑。
小结
后续,ODCC AI网络特别任务组将持续加强产业引领,联合业界厂商共同推进智算网络新技术研究和标准制定,加快产业生态建设,为智算网络创新发展注入新动能。
ODCC秘书处
刘老师 liupengyun@caict.ac.cn