英特尔陈羿函:Switchless打破互联瓶颈,Scale Up GPU超节点算力一触即发
在近日举办的2025开放数据中心大会—边缘计算分论坛上,英特尔首席工程师陈羿函分享了Switchless Scale Up GPU超节点互联系统创新架构,旨在为大规模生成式人工智能(GenAI)及高性能计算(HPC)场景提供更强大的并行处理与实时数据交换能力。
陈羿函
英特尔首席工程师
智算架构新范式:
Scale Up与Scale Out双向融合
随着人工智能模型的规模和复杂度呈指数级增长,传统的计算架构已难以满足高效训练与推理需求。Switchless Scale Up GPU超节点互联系统架构,通过Scale Up实现超节点内的高性能直连,具备TB级带宽、亚微秒级时延与紧耦合拓扑;通过Scale Out完成跨节点的弹性扩展,支持线性扩展能力、高容错性与通信效率优化。这种“纵向集成超节点、横向扩展集群”的模式,能够精准平衡性能与规模,为多样化的AI应用奠定坚实的算力基础。
Switchless Scale Up:
重新定义GPU互连
Switchless Scale Up架构创造性地去除了传统交换机层,采用先进光互联技术,实现了物理服务器间的高速卡间与机间直连。该方案率先应用了LPO(Linear Pluggable Optics)线性直驱光模块技术,在显著降低延迟与功耗的同时,简化了设计并提升了成本效益。其性能优势尤为突出,能够有效应对AI应用面临的显存容量、计算能力和通信带宽三大核心挑战。其拓扑设计可根据GPU系统规模与性能要求灵活选择Torus、Dragonfly、Mesh、Ring、Cube Mesh等拓扑结构。
实践验证:
性能与容错能力的双重突破
基于英特尔Gaudi 3 GPU的超节点互联系统,以推理为主要测试业务,团队完成了对Switchless Scale Up架构的工程实践验证。仿真结果显示,在32卡规模下运行DeepSeek-V3 671B模型时,Switchless方案较传统Switch方案带来了约10%的性能提升。尽管在较小规模下的性能优势略弱于大规模场景(如128卡),但这主要归因于当前Gaudi 3服务器架构的机内与机间互联带宽不平衡,以及网络拓扑相对简单使得延迟优化空间受限。未来,团队计划采用ARC Pro GPU进一步优化Switchless架构,并探索使用PVC等技术方案。
此外,Switchless超节点展现了卓越的容错能力。通过分布式光交换电路的主备切换与拓扑重构机制,能够在节点故障时快速恢复系统功能,保障业务连续性。陈羿函通过具体案例展示了这一过程:当超节点内部分服务器出现故障时,系统可利用冗余节点接管任务负载,完成数据重建与同步,并动态更新网络拓扑与路由信息,确保整体性能不受显著影响。
推动算力基础设施升级,赋能AI时代创新
Switchless Scale Up GPU超节点互联系统架构的推出,不仅为大规模AI模型预训练与推理提供了高性能、高可靠的硬件基础,还通过软硬件协同创新大幅降低了部署复杂度与成本,加速了AI技术的普惠化进程。
随着人工智能技术的飞速发展,算力已成为数字时代的稀缺资源。Switchless Scale Up GPU超节点互联系统架构,将为行业用户提供更高效的算力引擎,助力企业在智能时代的激烈竞争中抢占先机。未来,英特尔将继续携手生态伙伴,持续优化Switchless架构,探索更多创新应用场景,为全球数字化转型注入强劲动力。
ODCC边缘计算工作组联系人:
周老师 13810136860(微信同号) zhouman@caict.ac.cn
ODCC秘书处联系人
刘老师 13488889649(微信同号) 邮箱:liupengyun@caict.ac.cn