新闻

项目

首页  >   工作组  >   智能运营工作组
  • ODCC-2025-06007-算力时代的动环监控TBOS

    已完成

    为应对近年算力时代下机房需求的爆发式增长,特别是GPU液冷等高敏感场景对动环监控时延、可靠性要求更严苛,本项目研发了算力时代的动环监控系统 TBOS。系统以云—边—端分布式架构为底座,覆盖采集、配置、存查,及监控告警的全生命周期运维管理,通过链路深度调优、AI 应用赋能和多维度可观测矩阵,构建一站式监控运营平台,为数据中心上层业务提供坚实可靠的基础保障。 TBOS 正积极推进开源共建,期望与行业伙伴共筑可靠、低成本、智能的基础设施底座,护航算力时代的数据中心运营。

  • ODCC-2025-06006-算力时代的动环采集TBOX

    已完成

    本项目基于超大规模数据中心园区运营需要,通过自研动环采集器TBOX增强对现场监控系统的把控力度,打通了数据监控的全链条,将数据采集、传输、存储到消费的全数据链路实现数据质量保证和控制,从数据源头即数据采集白盒化、透明化,进一步提升了数据感知和系统告警的质量,打造了高可控、高质量的数据监控平台。助力企业实现高效、安全、智能的基础设施管理,推动行业数字化创新升级。

  • ODCC202506003 云边结合的数据中心智能化视频监控系统

    已完成

    本项目通过利用视频监控系统结合智能化图像识别技术建立一种数据中心基础设施运维过程中的智能化管理体系,包括云边结合的视频流链路建立,不同运维场景中图像识别算法的选择及云边两级算法链路的部署。通过利用智能化管理平台,对视频点位、应用场景及异常告警进行管理,实现了图像识别技术在不同运维场景下异常行为识别的应用落地。

  • ODCC202506005 基于预制模块化数据中心场景的冷却系统智能调优技术报告

    已完成

    基于预制模块化数据中心场景的冷却系统智能调优技术可以结合预制模块化数据中心的特点,基于温升矩阵的制冷系统能耗优化的技术、数据与知识双驱动的调优技术、全局能效优化算法技术,建立设备的传热与能耗模型,融入物理机理的AI算法,对冷却系统进行运行节能优化控制,优化后的冷却系统节能率可达15%以上。

  • ODCC202506004 IDC数字孪生可视化呈现技术报告

    已完成

    IDC数字孪生可视化呈现技术构建涵盖数据采集处理、孪生建模、可视化渲染、智能分析与应用服务的完整体系,实现物理设施全域数字化映射与实时仿真,落地设施管理、能耗监控、故障预测、容量规划等场景,以智能监控与预测性维护降本提效、缩短响应时间,助力数据中心智能、绿色、高效转型。

  • ODCC202506002 数据中心数字孪生模型评价体系

    已完成

    本项目建立数据中心数字孪生评价体系,提出数据中心暖通系统水侧模型与机房包间空气场的评估方法与成熟度划分。 体系覆盖水循环(管路、泵、冷机、冷却塔)与空气温度场(气流组织、温度分布、压力平衡)建模、仿真、测试与运行验证,制定量化指标与评价标准,为模型开发者和运维者提供可用性、可靠性与性能评估依据,支撑设计优化与运行决策,促进数字孪生在设计与运营中的规范化应用。

  • ODCC202506001 服务器硬件故障诊断技术报告

    已完成

    阿里云服务器提供业界领先的诊断手段,为百万级服务器平滑运行保驾护航。整体框架划分四个层面:硬件产品层:包含磐久系列服务器ARM、x86硬件,是阿里云的基础底座;标准规范层:支持行业标准规范,UEFI、ACPI、SMBIOS、PXE、SPDM等;技术通道层:通过带内Agent、Tool,带外IPMI、Redfish等技术通道采集硬件信息和状态。通过RAS、FA等技术手段提供诊断支撑;诊断模型层:通过自研的诊断方案能够准确的识别故障,并且形成规范;同时通过大模型训练和历史经验,形成不同故障的标准修复方案。