ODCC | IO-NET:为Agent时代构建下一代AI网络互联底座
IO-NET以"Agent Fabric"为发展愿景,围绕DDR内存池、通用IO Die(IOD)、网络系统级可靠性、网络融合等关键项目展开系统性攻关,着力构建适配Agent时代的下一代AI网络互联底座,推动AI基础设施从“能用”向“好用”“通用”升级。
一、DDR内存池——为GPU补上"缺失的一层楼"

针对GPU显存容量受限、资源利用效率不高的突出问题,IO-NET项目借助 Scale-Up 网络实现 DDR 内存池与 GPU 高速互联,有效突破显存物理容量瓶颈。GPU将KV-Cache等"温数据"卸载到DDR内存池存储,HBM只保留"热数据"。以Batch Size=128的推理场景为例,将单卡可服务的序列长度提升数倍,有效降低单token推理成本。技术创新方面,项目设计了Scale-Up专用DMA引擎,以Read/Write/Gather三种基本RMA原语为核心,实现指令直接触发,接入端侧NoC/MC。相比传统RDMA引擎,轻量化DMA更适配GPU-内存池的访存模式,降低协议开销,提升内存访问效率。

二、通用IO Die(IOD)——让芯片互联标准化

为破解不同厂商XPU芯片互联碎片化、集成复杂度高的难题,IO-NET项目推进通用IO Die(IOD)技术攻关,聚焦标准化建设,助力厂商XPU通过标准化IOD灵活接入Scale-Up网络。
项目将IOD从XPU中解耦,构建分层化、模块化的通用IOD架构,涵盖计算芯粒NoC层、D2D接口层、功能层、Scale-Up接口层四个核心层级,其中计算芯粒NoC层差异化支持各厂商XPU,D2D接口层适配UCIe标准协议,功能层集成DMA引擎、地址翻译、访问控制等核心功能,Scale-Up接口层支持以太网等多元化接口,实现多场景适配。
技术规范的落地实施,带来显著的产业协同效益。从XPU厂商角度看,同一款计算芯粒可无缝切换至不同厂商的IOD,有效降低供应链风险,提升产业供应链稳定性。从IOD厂商角度看,同一款IOD设计可适配多厂商计算芯粒,扩大市场覆盖范围,提升产业规模化发展水平。从系统集成商角度看,GPU、CPU、Memory Pool通过标准IOD接入Scale-Up网络,降低集成复杂度,提升项目部署效率,推动产业协同发展。
三、AI网络系统级可靠性——让集群网络达到"5个9"
立足Agent时代7x24小时不间断AI业务需求,项目以提升集群网络可用度为核心目标,建立AI网络系统级可靠性评估方法和技术规范,通过端网协同技术,推动集群网络可用度提升至99.999%(5个9),为AI业务稳定运行提供全栈保障。项目构建了分级可靠性技术体系,覆盖端口级、跨端口、网络级三个核心层级,针对不同层级故障特点,制定差异化技术方案。

以512卡铜-光2层组网为例,应用该可靠性技术体系后,系统MTBF从约27小时提升至100天以上,系统MTTR从约27秒缩短至1秒以内,系统可用度从99.9%(3个9)提升至99.999%(5个9),实现从“每月多次业务中断”到“一年几乎零中断”,保障AI训练、推理等核心业务连续稳定运行。

四、网络融合——从"多张网"走向"一张网"
传统Scale-Up网络(节点内GPU互联)使用专有协议提供超高带宽和超低延迟,Scale-Out网络和FrontEnd网络(跨节点通信)使用以太网提供大规模可扩展性,二者协议不同、设备独立、管理分离。随着智算集群升级,Scale-Up范围从单机8卡扩展到跨机柜数百卡甚至上千卡,其属性已从"机内互联"演变为"节点间网络"在物理形态与Scale-Out网络日趋趋同。同时,以太网在超低延迟交换(亚微秒级)、在网计算(网内集合运算)、无损传输等能力上快速补齐短板。当两类网络底层协议逐步趋同,依托统一硬件组网架构与标准化协议栈,同时承载两类业务通信需求,已然从技术可行转向产业发展趋势。
网络融合实现了系统性价值。一是以单套融合网络替代原有多网架构,削减网卡、交换机、光模块等硬件重复采购成本。二是统一协议栈消除跨网协议转换的开销和延迟。三是Scale-Up、Scale-Out、FrontEnd网络带宽资源动态实现弹性调度,有效盘活闲置带宽资源;四是整合运维管理体系,依托统一运维工具完成全网管控,降低运营难度。
未来,网络融合需突破四大核心攻关方向。一是定义融合架构的参考模型。明确域内与跨域的带宽分配原则、并行策略映射(TP/EP在域内,DP/PP跨域)和QoS保障机制。二是推进Scale-up、Scale-out与FrontEnd网络的协议对齐。推动以太网在超低延迟、语义支持、小包线速处理等方面的增强,缩小与专有协议的性能差距。三是新型IO-NIC设计。探索将AI-NIC连接到Scale-Up Switch上的架构,实现NIC与GPU的灵活配比,让同一张网络同时承载GPU互联和外部通信。四是多网融合。将Scale-Out、Frontend、Storage等多种网络统一在IO-NET框架下,减少独立网络的部署和运维复杂度。
IO-NET四大核心技术,旨在打通各类技术壁垒,破除产业孤立发展困局。内存池技术挣脱硬件显存限制,灵活调度算力存储资源;标准化IOD实现异构芯片兼容互联,支撑硬件模块化迭代升级;多层级防护体系保障超大集群稳定运行;全网融合打破内外网络边界,统一承载集群交互与跨域数据传输。四项技术协同赋能,补齐传统基础设施资源固化、异构兼容差、运行不稳定、组网割裂等短板,持续迭代核心技术,构建开放共享、协同演进的新型 AI 基础设施生态,为智能体技术创新、产业落地与高质量发展筑牢底层支撑。
作者
张潍丰 wikkizhang@tencent.com
孙 聪 suncong@caict.ac.cn
审核
王少鹏 wangshaopeng@caict.ac.cn



