破局丨品质算力服务助力“好”算力
算力是数字经济时代的新质生产力,对推动数字中国建设、实现中国式现代化具有重要意义。
近年来,我国扎实推进算力基础设施建设,不断强化产业创新能力,持续推动算力应用落地。据中国信息通信研究院测算,截至2023年底,全球算力基础设施总规模达到910EFLOPS(FP32),同比增长40%。美国、中国算力基础设施规模位列前两名,算力占比分别为32%、26%。与此同时,我国算力结构不断调整,智算规模增长势头强劲;存力规模持续扩大,先进占比不断提升;运力质量显著提升,网络设施不断升级。截至2024年6月,我国在用算力中心超过830万标准机架,算力规模达246 EFLOPS(FP32),智算同比增速超过65%。
在这背后,得益于产业链的扎实推进,积极推动算力网络从概念创新到产业实践应用的落地。比如,中国电信已构建云智、训推一体的算力布局,在京津冀、长三角建成国内领先的全液冷万卡池,31个省级行政区部署推理池,智能算力规模达到21 EFLOPS。中国移动已初步建成业界领先的算力网络,并在河南规划建设了中原人工智能计算中心,成为全国首个社会算力并网商用案例,目前中国移动智算规模超26 EFLOPS。中国联通已建成260多个资源池,覆盖超200个地市,实现三线以上城市通算能力全面覆盖,并打造两个万卡智算集群,纵深推进智能算力梯次化布局打造场景化、专业化、差异化的智算算力服务,推出“AICC算力集群”“AICP算力平台”“星罗先进算力调度平台”“AI边缘一体机”“云GPU”五大智算产品,升级面向智算需求的创新服务。
当前,我国紧密跟踪算力产业发展趋势,持续出台相关政策,促进算力基础设施的高质量发展。随着我国智能计算中心建设火热,越来越多地方政府积极开展前瞻布局,加快推动人工智能计算中心规划建设,支撑和引领数字经济、智能产业、智慧城市以及智慧社会的发展。
然而,算力创新技术的更迭和业务发展依然面临诸多挑战。由于算力规模的不断增长,算力能耗问题日益突出。《中国智算中心服务发展报告》显示,2022年我国数据中心能耗总量1300亿千瓦时,同比增长16%;2023年,我国数据中心能耗总量1500亿千瓦时,同比增长15.4%;按目前的增长速度,预计到2030年,我国数据中心耗电量将超过4000亿千瓦时。
其次,供需配置匹配度低,硬件资源利用率不足。智能计算涉及CPU、GPU、TPU等多种类型的硬件资源,异构环境下难以实现虚拟资源的统一高效管理。由于计算任务类型、规模和优先级各不相同,资源难以充分分配,任务需求规格往往与硬件配置无法对齐,导致算力资源碎片化。
此外,大型智算中心组件众多、产品种类繁杂,组网规模庞大,不同厂商之间存在较高的技术壁垒和各自独立的生态系统,导致计算平台多样化,资源调度和能耗分发难以统一。智算中心在容量、流量、功耗方面面临指数级增长的挑战,运行过程中出错风险增加,威胁到业务的安全性和可靠性,运营团队也难以及时适应市场与客户的变化需求。
在开发方面,大模型的训练对资源需求较高,且迁移部署难度大,模型训练中存在很多的不稳定性和不确定性。随着模型规模的扩大,训练过程变得更加复杂和难以预测。在软硬件协同方面,需要处理底层硬件差异,涉及技术、管理和运营等多个层面的挑战。同时,协调工作还需从整体规划建设到持续运营维护的宏观角度,进行全方位的统筹考虑。
如何进一步推动智算产业发展、创新,更好地把握人工智能、数据要素和数字经济发展的历史机遇?在近日举办的2024中国算力大会“智算集成服务论坛”上,多位大咖齐聚一堂,共同探讨最优解。
中国信息通信研究院副院长魏亮提纲挈领式地提出3点建议:一是进一步激发产业的创新能力,广泛联合科研院所、高校、领军企业聚焦智能算力、算力芯片、算法优化等关键技术领域,突破技术瓶颈,提升算力效能、碳效表现。同时鼓励跨界融合,促进算力技术和人工智能、大数据、区块链等新兴技术的深度融合,推动算力技术向更高层次、更广领域迈进。二是进一步深化智算的应用场景,积极推动智算技术和各行业深度融合,特别是在智慧交通、智慧城市、智慧医疗等领域,积极探索并构建智算中心服务新模式,加速传统产业的数字化、智能化转型。通过算力赋能,助力企业提升生产效率,优化运营模式、创新服务模式,为社会经济发展注入强大动力。三是进一步完善产业的生态体系,深化各行业的交流合作,推动全社会用数赋质,构建互利共赢的开放合作新生态,依托中国算力平台,高效整合资源,深化智算产业链的上下游企业的协同,推动技术创新与产业融合。
“AI不仅是一门技术,更是新的生产关系和新的综合生产力,要发挥出其真正的价值,除了持续的技术和产品创新,更需要通过优质的高效的服务加速行业数字化转型的落地,真正实现用得上、用得好、用得放心,共赢智算的新时代。”华为服务Fellow、2012服务实验室主任孙虎在会上表示。华为基于智算项目集成实践以及30多年在服务领域的积累,对智算服务提出“三纵三横”的建议。具体来看,“三纵”是指围绕智算服务三个垂直的价值流(智算平台建设、智算模型和应用使能、智算系统的运维运营),“三横”是指围绕智算服务的三个水平能力带(服务规范的标准化、服务能力模型化、服务人才综合化)。基于“三纵三横”,打造智算三个高地——能力高地、人才高地、生态高地,让算力系统更高效、更稳定、更安全,加速算力中心高质量发展,真正让智能无所不在、无所不至、无所不及。
在2024华为全联接大会上,中国工程院院士倪光南曾提出,要用工程系统思维统筹规划智算集群建设,以标准引领智算产业高质量发展。他强调,智算集群是引领这一时代发展的主要新质生产力,是支撑数字中国建设和数字经济运行的重要基础设施。要实现高质量智算建设,需在大力发展算力、存力、运力的同时还要注重加强智算集群的服务体系建设。
“大集群不等于大算力,如何更加有效地利用现有的算力资源,需要算力、存力、运力与智算服务紧密协同的‘3+1’算力产业体系保驾护航。”华为IT咨询与系统集成领域总裁张岳普谈到。区别于通用计算时代分层解耦的建设和运维模式,全栈的智算建设工程系统需要统一规划和建设,整体考虑生命周期服务。华为智算集成打造的品质算力平台服务,涵盖了数据中心Facility集成、算力/存力/网络基础设施的统一规划与集成、AI计算使能与优化、运维保障的全栈服务解决方案。目前华为已为全球300多个大规模的厂家、运营商、互联网等领域客户建立了整体的算力平台。建好、用好、管好算力是智算产业链共同的目标,华为积极打造品质算力服务,支撑客户建设高质量算力集群,加速行业智能化升级。
论坛上,《中国智算中心服务发展报告(2024年)》正式发布。中国信息通信研究院云计算与大数据研究所副所长李洁博士对《中国智算中心服务发展报告(2024年)》进行了深入解读,全面剖析了当前中国智算中心发展存在的问题与挑战,并介绍了智算中心服务的总体架构、发展现状以及未来发展趋势,提出服务力将成为综合算力新质生产力发展的关键要素。
值得一提的是,在“智算集成服务论坛”上,河南省许昌市市投数字经济产业集团有限公司副总经理江芊林分享了中原人工智能计算中心的全栈建设成果,该中心采用“1+2+N”算力体系(1-中原人工智能计算中心算力底座,2-AI智能云+边缘云,N-汇聚N类应用),可满足许昌市全域的AI算力及政务云、医疗影像云、公共云等的资源需求,立足中原、面向全国,提供澎湃的公共算力。中国移动集团网络事业部处长蔡旭辉表示,中国移动积极构建端到端智算高可用架构,全方位助力智算集群管控调优,并分享了中国移动内蒙古呼和浩特、黑龙江哈尔滨的超大规模算力集群建设和运维运营经验。广东移动规划技术部基建业务总监郭光鑫分享了中国移动广东智算中心基础设施升级改造的建设经验,招商银行总行信息技术部智算总监陈果分享了金融业务在AI领域的应用。从诸多实践案例中可以窥见,智能化浪潮正在奔涌向前。
算力是赋能产业数字化转型的基础要素,对推动数字中国建设、实现中国式现代化具有重要意义。单丝不成线,独木不成林。聚力,为释放每一份算力。建好、用好、管好算力需要产业链上下游携手共进,构建适应中国式现代化发展的算力产业体系,共筑算力高地。
注:本文转自通信世界官微:破局丨品质算力服务助力“好”算力