[25'ODCC成果]Switchless Scale Up GPU超节点互联系统架构技术规范
当前,AI大模型、高性能计算需求爆发,GPU 集群规模呈指数级增长。在此背景下,传统Scale-Up交换机方案因依赖私有协议栈形成闭源垄断,导致生态开放度低、厂商定制成本高、硬件兼容性受限及GPU资源池化失败率增加等问题;另外,业界开源互联方案商业化进程缓慢,多处于规范定义阶段,距离商业部署尚有差距。同时,生成式人工智能向超万亿参数、多模态及长序列方向演进,对智算基座算力提出更高要求。传统8卡单节点服务器难以应对大模型带来的通信流量激增,推动智算基座从单节点向超节点形态演进,GPUs Scale Up互联技术成为关键。
《Switchless Scale Up GPU超节点互联系统架构技术规范》围绕“首创“Switchless”Scale Up和“Switch”Scale Out双向融合系统架构”项目规划展开,重点介绍Switchless Scale Up GPU超节点互联系统架构,其基于此架构的创新解决方案采用分布式光交换电路(dOCS)光互连技术,直击当前GPU超节点互联的“闭源垄断困局”与“开源滞后瓶颈”两大痛点。以“开源X绿色”为核心,该技术突破传统Scale Up交换机架构限制,支持灵活组建不同规模的超节点,并在节点内或节点间实现多样拓扑结构的按需切换,满足不同AI模型的算力需求。同时,其内置的容错冗余机制显著增强了系统韧性。最终,方案实现了GPU超节点互联的成本优化与能效跃升,为GenAI算力集群和AI服务器超节点系统开辟了一条全新的开放互联范式。
本成果将于今年9月的开放数据中心大会上正式发布!
陈羿函
英特尔
首席工程师
吕文清
曦智科技
系统架构师
张骏
安擎
首席架构师
ODCC边缘计算组联系人
周老师 13810136860(微信同号) zhouman@caict.ac.cn
ODCC秘书处联系人
刘老师 13488889649(微信同号) 邮箱:liupengyun@caict.ac.cn