NEWS INFORMATION新闻动态

关注微信公众号

首页  >   新闻动态  >   工作组动态

ODCC成果回顾:《Ultra Pooling GenAI Rack Scale 系统架构技术规范》

2025-02-25

2024年9月3日,2024 ODCC开放数据中心大会在北京国际会议中心成功召开。《Ultra Pooling GenAI Rack Scale 系统架构技术规范》被授予ODCC 2024年度优秀项目,同时作为ODCC边缘工作组2024年度的重要成果,在此次大会上正式发布。

微信图片_20250225152252.png

GenAI 运用快速迭代,加速 Gen AI 系统架构优化更新。《Ultra Pooling GenAI Rack Scale 系统架构技术规范》介绍基于软、硬件协同的 Ultra Pooling GenAI Rack Scale 系统架构7大技术及解决参考方案,内容涉及运用定义系统架构、 基于OCS(光电路开关)的GenAI fabric 开放互联、系统 RAS (可靠性、可用性和可维护性) 和智能调试及根因定位、先进液冷、可持续和可扩展 碳优化计算、系统安全,以及电力算力资源调度优化等,同时深入探讨 Rack Scale 系统架构在支持 GenAI 应用中的技术 发展趋势和架构演进,以及识别未来 GenAI Rack Scale 架构设计的挑战,分享边缘工作组正在进展或计划的解决方案和工程部署实践案例。

以下是该技术规范项目的项目经理—张骏对重点成果的解读:

“一架构多配置系统”按需适配多样GenAI业务:

为了满足 GenAI 应用对高性能计算、高密度低延迟网络,大容量存储,以及可持续和系统安全等需求,Rack Scale 和 Tank Scale 系统架构应运而生(本技术规范中将 “Rack Scale” 用作 Rack Scale 和 Tank Scale 的统称)。与传统数据中心架构相比,Rack Scale架构涵盖模块化设计和强韧性的资源池化等能力,能够更灵活地扩展计算资源,实现资源的高效、安全、智能分配和利用, 为多样GenAI应用提供强大的底座支持。2024年项目成果以基于“7大核心技术及解决参考方案”的总体系统架构为重点。2025年工作组将进一步分享基于OCS开放互连的Scale Up和Scale Out双向融合、GenAI服务器系统 RAS 架构设计以及先进液冷创新方案的项目进展和成果,助力ODCC 社区在生成式人工智能的生态赋能和业界协作。

基于分布式OCS开放互连技术,首创 “Switchless” Scale Up和Scale Out 双向融合系统架构:

该系统架构专为生成式人工智能(GenAI)应用设计,提供开放互联及灵活配置的优化运行环境,实现跨物理服务器的高速卡间与机间互联,充分满足多样化GenAI对大规模多维并行处理和实时数据交换的高要求。分布式OCS技术凭借异构资源池化与智能管理策略,显著提升资源利用效率,确保业务应用性能卓越与资源优化,为构建先进的绿色智能计算开放生态奠定坚实基础。同时,该技术内置的可靠容错与冗余机制,有效保障系统的高可用性和业务连续性,大幅降低系统故障风险。通过首创的“Switchless”双向融合系统架构,我们在AI服务器及系统架构领域开辟了一条全新路径,有力推动了多样化GenAI业务的创新应用与产品竞争力的提升。

基于SuperFluid技术的先进冷板油冷方案发布,100%解决水冷板漏液业界痛点:

高性能GPU和CPU因功耗巨大且散热需求高,给Gen AI服务器系统的冷却带来了极大挑战。目前,间接接触液体冷却系统(如冷板辅助方案)普遍采用水或丙二醇与水的混合物作为冷却介质。然而,在电子设备中,水冷系统存在泄漏隐患,一旦管理不当,可能会对敏感元件造成重大损害。即便是微小的泄漏,也可能引发短路和腐蚀,进而导致系统停机或产生高昂的维修成本。尽管通过加强防漏连接、及时检测泄漏和实施定期维护等常规工程措施可以降低这些风险,但泄漏问题依然难以完全根除。这已成为数据中心在大规模部署高端人工智能服务器时,水冷解决方案所面临的关键行业痛点之一。本项目发布了一种创新的冷板液冷解决方案,该方案融合了基于绿色介电冷却液的创新SuperFluid技术,以及优化设计的冷板与中心分配单元(CDU)。这一创新设计成功解决了水冷系统长期存在的泄漏隐患这一行业难题,能够在高密度AI服务器系统中对TDP(热设计功耗)超过1500W的高性能处理器实现高效且可靠的冷却。

Ultra Pooling GenAI Rack Scale系统架构典型的实现方案-绿色超池智算基座:

该实现方案以最小化的池化POD单元为基础构建模块,包括专为推理设计的"通用AI加速卡"POD、企业级推理 GPU POD,以及为大规模数据训练定制的GPU POD。系统根据工作负载需求,动态组合POD 节点,以实现资源的高效配置。Ultra Host Processor Node(UHP)作为系统的管理中心,集中监控和管理机架内的服务器、存储和网络设备,负责供电、散热、 远程控制、故障诊断、报警和系统安全管理。UHP也是 GenAI 应用 的优化核心,提供模型感知、基Scaling Law策略的工作负载调度、机架级碳优化计算,以及支持 Climatik 和 Gen AI Operator的运作。Ultra Pooling Switch (UPS)利用开放互联OCS 技术,执行AI Fabric功能组装,实现异构 GPU 资源的有效池化。与 Ultra Host Processor Node (UHP)相结合,UPS 能够根据不同应用场景的需求,灵活重构系统资源池。UPS支持运行包括 UALINK、Ethernet、OISA 在内的Scale up 互联,确保 GPU POD之间的高效互联。绿色超池智算基座具备高度的适应性,能够覆盖从数据中心到边缘计算的多种部署场景。它不仅能够扩展成 多机架的 Super POD,满足超大规模数据中心的需求;也能在单机 架内集成 CDU、UPS、储能单元和电力算力协同单元,适用于企业 边缘和边缘数据中心等边缘计算环境。这种灵活性使得系统能够根据不同环境的需求进行定制和扩展。

微信图片_20250225152512.png


点击https://mp.weixin.qq.com/s/Mtzmw1DKyGJ-ba0Uv0zn2A,下载文档

未标题-1.gif

边缘计算工作组联系人

任老师 13516157693(微信同号)rentong@caict.ac.cn

ODCC秘书处

刘老师 13488889649(微信同号)邮箱:liupengyun@caict.ac.cn