安擎张骏:AI系统全栈性能工程的革新之路
在AI技术飞速发展的当下,大模型训练成本高企、算力需求激增等问题愈发凸显。在近日举办的2025开放数据中心大会—边缘计算分论坛上,安擎首席架构师张骏聚焦“AI系统全栈性能工程”,分享训练-推理协同优化实践,为破解AI大模型高成本、算力瓶颈难题提供新思路。
张骏
安擎首席架构师
当前AI领域,模型训练成本攀升已成行业痛点。数据显示,2017年BERT-Large模型训练成本仅930美元,到2023年GPT-4已飙升至7840万美元,成本涨幅惊人。实现百万亿参数这一人脑量级的AI模型目标,按传统方法训练万亿参数模型,无论时间还是资源成本都难以承受。在此背景下,张骏指出,AI系统全栈性能工程成为破局关键,其核心在于通过硬件、软件与算法的协同创新,实现高效能与高扩展性的统一。
为推动全栈性能工程落地,有六大核心策略。以有效吞吐量为基础衡量指标,精准把握系统性能核心;优先通过技术优化提升效率,而非盲目堆叠硬件;追求数量级的性能突破,以颠覆性效果推动行业进步;采用剖析驱动的方法,精准定位问题根源,实现针对性优化;保持整体视角,确保各环节协同联动,避免局部优化导致的系统失衡;持续关注最新硬件特性,充分发挥硬件潜力。
张骏分享了多个具有行业标杆意义的实践案例。OpenAI在GPT-4.5项目中,通过机器学习与基础设施团队协同规划,成功应对大规模集群训练挑战,最终实现既定性能十倍的提升。NVIDIA的Grace-Blackwell NVL72高性能AI系统则通过创新架构设计,在万亿参数模型推理场景中,显著提升吞吐量和降低延迟等。此外,Sakana.ai的AI CUDA工程师项目,利用大型语言模型自动完成GPU内核优化,为AI开发降本增效提供新思路。
架构设计涵盖六层框架。指导理念层强调性能调优思维与文档规范;资源与数据层优化GPU调度及数据流转;基础层聚焦系统架构与硬件规划;核心优化层深耕负载监控、CUDA调优;硬件与驱动层关注多GPU互联及功耗管理;协同与部署层发力分布式训练与推理服务。
展望未来,行业将迎来多重变革。范式上从“暴力扩展”转向“智能扩展”,架构上从单点优化迈向全局效率,技术驱动上硬件创新与AI自动化优化并行,工程师角色也将从执行者升级为架构引导者。同时,破解能源与算力瓶颈、坚持开放创新,将成为行业持续发展的关键。
张骏表示,安擎将持续深耕AI系统全栈性能工程,以技术创新推动行业效能跃迁,助力更多企业与开发者突破AI发展瓶颈,加速AI技术在各领域的落地应用。
ODCC边缘计算工作组联系人:
周老师 13810136860(微信同号) zhouman@caict.ac.cn
ODCC秘书处联系人
刘老师 13488889649(微信同号) 邮箱:liupengyun@caict.ac.cn