NEWS INFORMATION新闻动态

关注微信公众号

首页  >   新闻动态  >   工作组动态

消除计算等待:构建异构统一、高性能Overlap通信库

2026-01-08

随着大模型参数规模的指数级增长,算力集群的性能瓶颈已从单核算力转向集群通信环节。传统通信库以最大化提升带宽利用率(Bandwidth Utilization)为核心目标,但当物理带宽逼近理论极限时,单纯依靠“提速”来优化路径,已无法满足需求。因此,支持精细化计算通信重叠的高性能通信库,可实现通信过程的完全隐藏,达到“消灭计算气泡”的效果,确保多卡并行计算不再受数据传输的等待制约。与此同时,为充分释放各类算子的硬件性能,异构GPU卡的混合部署已成为AI系统的刚性需求,构建极致性能的异构统一通信库已成为新一代通信库追求的目标。

一 背景与动机

1.从“异构孤岛”到“统一通信”

通信需求快速迭代,通信库生态“碎片化”严重。大模型技术演进催生大EP、PD分离等新型通信模式,带来多样化通信需求,而业界多采用“一场景一通信库”应对策略,导致通信库数量持续攀升,现网运营面临挑战。

国产算力芯片日趋成熟,但异构通信库呈现“竖井式”壁垒。各厂商独立造轮、重复研发,每款xPU均配套独立的通信库,加之不同异构卡的硬件能力与软件栈存在显著差异,导致现网规模化部署与稳定运行的难度激增。

2.从“带宽为王”到“消除等待”

通信带宽逼近物理极限。计算与通信常呈现明显的“交替串行”特征,通信时间决定了GPU MFU、AI推理时延。随着通信库软件、传输协议的持续优化,带宽利用率已趋近100%的理论阈值。网络物理带宽成为进一步提升性能的阻碍。

Overlap技术,隐藏通信时间。Overlap旨在将通信任务隐匿于计算任务的“阴影”之中。通过在计算执行的同时并行开展数据传输,将通信暴露耗时压缩至最低。但这种从“串行”到“全并行”的范式转移,对底层网络和通信库提出了前所未有的挑战。

二 异构统一:打破异构 GPU 卡通信孤岛

为打破当前通信库的“碎片化”和厂商“竖井式”困局,异构统一通信库通过定义标准化的抽象层和统一编程,构建跨硬件平台的通用通信能力。统一通信库自下而上可分为三层:

1.硬件抽象层(HAI):屏蔽硬件差异,提供标准接口

HAI层通过对底层硬件能力的统一抽象,对上提供统一的API,实现上层编程和底层硬件解耦。HAI主要包括通信接口、资源接口和运维接口。

2.通用组件层(CC):提供通用服务,支撑上层应用

通用组件层负责为应用层提供模块化服务,通过不同功能模块的组合和复用,支撑上层应用的快速开发和迭代。

3.应用层(APP):对接多样化场景,提供统一服务

应用层通过搭积木的方式,组合不同CC层的模块,快速形成新的业务逻辑,高效支撑业务新的通信需求。

三 消除等待:Overlap 通信库

为了实现极致的重叠效果,新一代通信库必须突破传统的“黑盒”传输模式,在以下四个维度分析:

1.资源轻量化:减少算力剥夺

挑战:传统overlap方案中,通信库软件和AI计算算子(Kernel)会同时竞争GPU的SM(流式多处理器)资源、寄存器和内存带宽。如果通信逻辑占据了过多的计算资源,会导致GEMM变慢,出现“重叠了但总时间变长”的尴尬局面。

需求:通信库需实现极简的控制平面。通过卸载(Offloading)技术,将逻辑下放至高性能网卡特定硬件单元,最大限度减少对 GPU SM 的占用,实现真正的“静默传输”。

2.微报文传输优化:小Msg的高频吞吐

挑战:Overlap 的本质是将大块数据切分为微小的Tile级数据。当计算过程产生离散的小数据块时,传统网络协议在大包传输下的带宽优势荡然无存,启动延迟(Latency)成为主导因素。

需求:通信库需要具备极致的小包处理能力。通过提升小消息的吞吐频率(Messages Per Second)、启动时延,确保每一个计算子过程产生的中间结果都能实时、高效地“流”向下一级。

3.语义感知调度:依赖驱动的传输

挑战:GEMM(通用矩阵乘法)的子过程对数据存在严格的拓扑依赖。如果网络盲目地采取公平传输原则,某些急需参与下一步计算的关键数据可能被阻塞在缓冲区中。

需求:新一代通信库必须能感知算子依赖,需根据后续计算节点的优先级,动态调整传输任务的权重。通过“优先级驱动的通信”,确保关键路径上的部分数据先行到达,从而提前触发后续计算,最大化流水线效率。

四 行业实践:

基于异构统一通信库技术理念,ODCC联合中国信通院、腾讯、AMD、华为、燧原、昆仑芯、壁仞、海光、沐曦、博通、云豹等产学研用多方力量,在2025ODCC开放数据中心大会上正式发起成立“OpenUCL”该社区将携手多家硬件厂商开展深度联合研发,聚力打造OpenUCL平台,为突破通信库碎片化与竖井式发展瓶颈提供标准化、一体化的解决方案。

微信图片_2026-01-08_104102_895.png

针对Overlap场景,腾讯基于上述技术,研发出一款面向Overlap的高性能通信库,实现高效的overlap,助力MoE(混合专家模型)的计算与通信耗时降低40%以上,大幅提升大模型训练与推理的整体效率。

微信图片_2026-01-08_104128_631.png

五 结语:异构统一Overlap通信库实现计算与网络的深度融合

通信库的定位已超越计算系统中的“粘合剂”角色,成为支撑系统高效运行的核心组件。异构GPU统一通信、计算通信精细化Overlap不仅仅是一种软件层面的并发技巧,更是分布式系统向“计算网络一体化”演进的必然趋势。新一代异构统一通信库通过精细化的资源管理与语义感知能力,正推动网络从“外部设备”转化为GPU内部逻辑的延伸。

联系人:

信通院

王老师  邮箱:wangshaopeng@caict.ac.cn

孙老师  邮箱:suncong@caict.ac.cn

腾讯

刘老师  邮箱:zeepliu@tencent.com

吕老师  邮箱:allenlv@tencent.com

ODCC秘书处联系人

刘老师:13488889649 邮箱:liupengyun@caict.ac.cn

微信图片_2026-01-08_104337_347.jpg