NEWS INFORMATION新闻动态

关注微信公众号

首页  >   新闻动态  >   行业动态

中国工商银行&华为推动面向金融AI场景的存储推理加速技术创新

2025-10-13

中国工商银行(以下简称“工行”)联合华为共同研发的“面向金融AI场景的存储推理加速技术创新方案”,在2025中国算力大会期间被纳入“DC Tech创新先锋”案例集。该案例聚焦金融AI的推理效率瓶颈,通过存储创新提供解决路径,具备较强的参考价值。

核心技术:以存储创新破解AI推理效率难题

以KV Cache技术为核心,通过系列化创新技术全面突破金融AI场景中“长文档处理慢、多并发时延高、算力成本高”的痛点:

PB级池化缓存支撑长序列处理:

利用SSD层实现KV Cache跨节点大范围共享,使长序列处理规格提升10倍以上,结合高命中率算法实现“以查代算”,大幅减少重复计算。

NDS直通技术释放算力性能:

基于NDS高速推理直通技术,让存储访问绕过CPU与内存,为单计算节点提供50GB超高带宽,消除算力等待数据的“空转”时间。

分层计算提升推理精度:

创新采用GSA注意力算法,将传统一次性多层计算拆解,在减少单次计算量的同时,降低重要信息丢失概率,使AI输出更精准、更丰富。

微信图片_2025-10-13_135643_261.png

图 1高性能AI存储加速模型长序列推理

应用场景:AI财报分析场景率先突破赋能智能金融决策

在金融业务中,“财报分析”是信贷评估等业务的核心环节。传统模式及早期AI技术在处理财报等文档时,存在推理效率与精度瓶颈。工行率先将“AI推理加速技术”应用于财报分析场景,取得显著成效:

性能层面:

通过KV Cache缓存加速技术,可实现首token时延降低,提升吞吐与并发,单位Token成本显著下降。

精度层面:

借助分层计算与KV缓存优化,AI对财报中关键数据关联、风险点识别和趋势预判的准确度显著提升,为信贷决策提供了更客观、深入的智能支持。

应用效果:金融行业长文本、高并发AI推理性能与成本优化

通过该方案,工行最终实现规模化场景推理吞吐量提升200%、首Token时延降低约65%、单位Token成本大幅节省33%-67%,为金融AI技术的规模化应用扫清了性能与成本障碍。该技术路线展示了存储与计算协同优化的可行性。

未来,工行将继续深化与产业链伙伴的合作,探索存储技术在金融AI更多场景的创新应用,持续释放算力价值,为金融行业数智化转型提供可复制、可推广的实践经验。

未标题-1.gif