"华彩"回顾 | 辽宁移动获奖项目分享

智存强算一体化解决方案
获奖等级:总决赛二等奖
关键词:智算、高性能文件存储、KV Cache缓存、长序列、推理加速
申报单位:中国移动通信集团辽宁有限公司
项目背景
近年来,辽宁移动积极响应国家智算战略及集团智算规划,逐步构建自身算力网络架构,由传统的“云计算”向云和AI深度融合的“云智算”升级。省内以“集中训推池+边缘推理池+入驻式一体机”三层体系智算架构全方位打造东三省人工智算领先平台。智存强算一体化解决方案项目旨在加速智算技术纵深,在推理场景中引入国产化AI存储,以其高性能、多维扩展性和AI原生等技术与平台深度结合,前瞻性、创新性的解决大模型推理的幻觉、推理响应慢和并发能力不足等问题,进一步筑牢辽宁移动在AI时代“供给者、汇聚者、运营商者定位,全面激活智能算力和应用普惠赋能,快速支撑中小型产业数智化转型。
项目方案
整体方案技术路线全部采用国产化技术路线,组网按照业务特点和安全要求划分为智算推理区、AI存储区、管理功能区、推理平台管理区等业务区域,以智算推理区及AI存储区为主要建设内容,管理功能区做DC的统一管理。整体方案以 “高性能、高可靠、易扩展” 为核心设计理念。
智算推理区:部署18台8卡服务器组成高性能 NPU 服务器集群,搭载最新一代处理器与加速卡,满足大模型推理的高算力需求,支持多任务并行处理。
1. AI存储区:
采用高性能OceanStor AI存储作为存储基石,依托 KV Cache 三级缓存技术,实现数据读写的高效调度与加速,降低推理时延。在架构层面,运用分布式集群架构,支持水平扩展,可根据业务发展动态增加计算节点与存储资源,保障资源池的灵活性与长期适用性。
2. 互联网络区:
构建高速低延迟的网络架构,配备200G的RoCE以太网络,实现智算节点与存储节点之间的高速数据传输,避免网络瓶颈。
3. 管理区:
集成统一的资源管理平台,具备资源监控、调度、分配功能,可实时掌握资源池运行状态,根据业务需求动态调整资源分配;同时支持自动化运维,实现故障预警、诊断与修复。
整体业务推理流程如下,存储参与全流程构建,包括模型文件上传加载、KV Cache三级缓存、推理数据保留、推理应用软件访问等。其中KV Cache缓存阶段,对存储的要求最高,要求具备相应接口能力及大带宽高性能要求,同时此阶段也是“以查强算”降低首Token时延的关键阶段,是解决长序列推理显存瓶颈的主要措施,能够有效减少重复计算,降低推理任务时延,提高整体业务处理效率。
创新点
1. 技术架构国产化:
CPU、存储底层操作系统,主机接口卡、磁盘框级联芯片以及SSD盘控制芯片、BMC管理芯片均采用国产品牌产品。
2. 技术实力领先:
推理过程中针对长序列场景,使用过程中易超过显存剩余空间容量,导致推理中断或分片推理,造成输出的内容质量不佳,无法使用。本次方案中特采用支持KV Cache 三级缓存的AI存储,通过在存储系统中设置多级缓存,将显存放不下的数据缓存在存储设备中,下次访问时可以直接从缓存及存储中获取,进一步优化推理方案架构,大幅降低首Token时延,提升推理的并发及吞吐,降低建设成本。
3. 技术可靠性领先:
模块级高可靠,通过芯片、卡件等冗余方式保障硬件可靠性,整体组网采用双冗余(交换机、网卡等)保障网络可靠性。IO数据采用端到端数据校验,保障数据完整性。节点级可靠性:单节点内快速感知节点故障,控制器故障秒级切换。系统级可靠:跨节点EC,实现节点间RAID功能,单系统最大可容忍4个节点同时故障。全面亚健康检测,及时发现硬盘慢盘、网络丢包、CPU资源耗尽等多方面问题,保障业务的平稳运行。
应用效益
直接经济效益上,一是算力租用提升盈利性,以存储优化集中推理性能,加强自身竞争力,降低算力消耗,可以通过服务的模式销售自身获取收益,同时分担中小型企业一次性投资的周转压力。二是高性能存储协同所衍生的数据分析、模型优化等可作为新的增值服务提供给企业,拓展收入渠道。
间接经济效益上,构建领先智算品牌市场影响力,吸引AI企业、科研机构合作,做高性能、最可靠、更安全的优质智算服务“供给者、汇聚者、运营者”,构建新商业模式和生态圈,围绕“云智算”技术范式,进行全方位合作。移动云提供AI IaaS、AI PaaS、AI MaaS、AI SaaS能力,AI IaaS以算网一体化设施,泛在网络推动多类型算力“联算成网”,AI PaaS面向开发者提供AI工具链服务和开发环境,AI MaaS加速一站式模型服务落地,汇聚模型、能力和智能体资源结合行业应用渗透,AI SaaS多样化场景应用服务服务生产、生活和社会治理数智化转型。




