ODCC成果回顾:《GPU卡间互联OISA系统研究》
2024年9月3日,2024 ODCC开放数据中心大会在北京隆重召开。由中国移动李锴牵头撰写的《GPU卡间互联OISA系统研究》作为ODCC边缘计算工作组年度重要成果在大会正式发布。
全向智感AI卡间互联系统OISA研究是国内原创提出的AI卡间高速互联协议体系的重要组成部分,特别针对当前大模型业务对超节点和超级芯片的产业需求,而同时面临国产AI芯片间互连带宽小、时延高、互连规模受限等问题,研究的AI芯片间Scale Up互连技术,实现超节点内多AI芯片的性能跃升。
在当今人工智能技术飞速发展的时代,超大规模模型的训练与推理对计算架构提出了前所未有的挑战,全向智感OISA(Omni-directional Intelligent Sensing Express Architecture)核心技术,正是为应对这一挑战而生的AI卡间高速互联协议体系。
随着大模型参数量向万亿级别演进,传统的单机8卡系统在处理大规模模型时效率显得低下,智算基础设施的整体架构也需要适应模型发展的变革。OISA协议体系通过定义物理层、数据层和事务层的标准,支持超节点内多AI芯片的对等全互连,努力解决当前国产AI芯片间互连带宽小、时延高以及互连规模受限等难题。
OISA协议体系的核心优势在于其多个关键技术特征,包括但不限于精悍报文格式、多语义融合、多层次流控和重传机制以及集合通信加速等能力。这一协议体系首次将消息语义与内存语义深度绑定,通过标识对每数据包的语义进行自由选择,为AI芯片间的高效通信提供技术基础,并通过智能感知标签优化数据传输效率,确保低时延与高可靠性。此外,OISA支持将集合通信能力卸载到交换芯片上,进一步减少通信流量,增加有效数据的带宽利用效率,显著提升模型训练与推理的计算能力。
在超节点服务器的发展方面,OISA协议体系的开放性与兼容性为整个产业链的协同创新提供了重要支撑。通过构建开放的行业标准和互操作性机制,OISA不仅推动了AI芯片与Scale Up交换芯片的互联互通,还促进了跨行业间的协同创新。
展望未来,OISA技术体系将继续推动AI芯片向超节点形态升级,构建性能卓越、扩展性强且开放共享的Scale Up互联架构,为人工智能的未来发展奠定坚实基础,助力我国智算基础设施的升级与人工智能技术的繁荣。
边缘计算工作组联系人
任老师 13516157693(微信同号)
rentong@caict.ac.cn
ODCC联系人
刘老师 13488889649(微信同号)
邮箱:liupengyun@caict.ac.cn