🤖 AI总结
主题
AI基础设施中冷却系统成为核心瓶颈及其对部署的影响
摘要
AI高密度部署使冷却成为核心瓶颈,液冷转型势在必行,但面临改造、标准与选址挑战,需将电力与冷却系统统一设计。
关键信息
- 1 AI工作负载导致功率密度飙升,传统风冷失效,液冷成为必然趋势。
- 2 液冷普及面临改造复杂、标准碎片化等执行难题。
- 3 冷却架构已深度影响设施设计、部署速度和选址决策。
![]()
这是三部曲系列的最终篇,探讨冷却系统如何成为AI基础设施的核心瓶颈,以及它如何重塑部署周期、设施设计与选址决策。
一个新的AI集群上线了。GPU安装完毕,网络配置就绪,电力正常供应。随后,温度开始攀升——不是因为系统出现故障,而是因为冷却基础设施从一开始就没有为现代AI工作负载的需求而设计。
随着AI部署从早期试点走向规模化落地,热管理正成为数据中心基础设施扩展中最迫切的挑战之一。然而,当行业的目光大多聚焦于算力和电力时,在更高密度下的散热能力,正悄然成为系统规模扩展的瓶颈。
在AI工作负载不断突破基础设施极限的当下,本文将探讨冷却系统如何演进以应对这些需求,并揭示热管理解决方案在规模化过程中面临的挑战与机遇。
从风冷到液冷
向液冷的快速转型,不仅是一项技术挑战,更是运营商在AI基础设施竞争中保持优势的战略必要之举。
传统数据中心的冷却系统是为可预测的工作负载和相对稳定的功率密度而设计的。AI正在打破这些假设。更关键的是,这一转变并非循序渐进,而是在一代基础设施的周期内骤然发生。
思科数据中心与互联网基础设施业务高级副总裁兼总经理Kevin Wollenweber表示,许多企业环境尚未做好准备。
“很多企业数据中心还没有准备好大规模转向液冷,”他说。
随着部署规模的扩大,这一差距愈发明显。挑战不仅在于热量更多,还在于热量增长的速度之快。
Wollenweber指出,下一代系统的功率需求正在进入一个从根本上改变设施设计的区间。
“我们正在从每机架数十千瓦迈向数百千瓦,”他说。
传统风冷系统在每机架约20至50千瓦时通常会失去效能,具体取决于设计和气流条件。而AI部署的功率密度已经远远超出这一范围。
施耐德电气创新与数据中心业务副总裁Steven Carlini表示,最新一代AI系统的运行功率已经迫使冷却设计发生根本性转变。
“加速计算集群需要对GPU进行液冷,但系统的其他部分仍然需要风冷,”他说,”这就形成了一种混合冷却环境。”
目前部分最新AI系统的单机架功率已超过200千瓦,而设计目标已指向400千瓦乃至更高。在如此高的功率密度下,传统风冷方案的效果越来越有限,向液冷系统的过渡已势在必行。
这导致现有设施的设计承载能力与AI工作负载的实际需求之间,出现了日益扩大的落差。
过渡期的困境
即便液冷的必要性已显而易见,其普及进程仍参差不齐。许多数据中心依然依赖为上一代计算设计的基础设施,对这些环境进行改造,在管道铺设、地板设计和系统集成方面都面临重大挑战。
麦肯锡高级合伙人Soren Jautelat表示,随着冷却系统日趋复杂,设计与部署之间的差距愈发凸显。
“冷却往往被当作一个组件选型问题来讨论,但在实践中,它是一个系统集成挑战,”他说。
液冷虽然能够提升效率,但实际表现取决于水泵、管路、热交换器与设施系统的集成程度。
“组件标准碎片化、泄漏风险、改造复杂性以及安装要求,这些都是非常现实的执行难题,”他说。
Wollenweber也表示,许多组织对于如何完成这一过渡,仍处于早期摸索阶段。
“这不是大家都已经习以为常的事,”他说。
转型已经开始,但尚未完成。截至2024年,液冷在数据中心冷却市场中约占46%,风冷系统在传统环境中仍占主导地位。
Markets and Markets的行业预测显示,全球数据中心冷却市场预计将从2020年代中期的约110亿美元增长至2030年代初期的逾200亿美元,增长动力部分来自高密度工作负载向液冷的转型。
需求与准备之间的差距本身正在成为一种制约。问题已不再是是否需要液冷,而是运营商能以多快的速度完成设施和流程的适配。
电力与冷却的深度融合
在更高的功率密度下,冷却系统不能再被视为独立存在。Carlini强调,AI基础设施现在必须作为一个统一的能源系统来整体考量。
“每一瓦特输送给加速器的电力,最终都会转化为必须被带走的热量,”他说。
这在电力输送、热管理与系统性能之间建立了直接的关联。
“如果电力输送受限,算力就会受限。如果散热受限,系统可能变得不稳定,性能也会下降,”他说。
这种紧密耦合意味着基础设施不能再分割设计。
“你不能在不设计冷却的情况下设计电力,也不能在不了解计算功率包络的情况下设计冷却,”Carlini说。
此外,高密度部署要求电力输送、机架架构与冷却系统之间的协同配合,这是传统数据中心建设所不曾面对的。
因此,冷却决策正在影响整个设施的设计与部署方式。
在实践中,这一差距已经影响到新增容量的部署速度。对现有设施进行高密度冷却改造,在管道、地板设计和系统集成方面引入了诸多挑战,拖慢了部署进程。
Jautelat表示,冷却还开始影响项目的选址,尤其是在环境压力和审批压力不断加大的背景下。
“冷却架构不仅关乎运营性能,也开始影响项目能在哪里落地、能以多快的速度推进,”他说。
他特别提到了主要数据中心市场日益严峻的水资源压力,以及与审批、分区规划和社区关切相关的延误问题。
当多重瓶颈叠加
冷却挑战是AI基础设施更大范围变革的组成部分。在这场变革中,曾经独立设计的系统如今深度集成、相互依存,从根本上重塑了部署策略与设施设计。
在网络、电力和冷却三个维度上,同一种规律正在浮现:瓶颈不再由单个组件决定,而是由这些组件在规模化运行下的协同表现所决定。
随着AI工作负载持续扩张,挑战已不再只是建设更多基础设施,而是构建能够作为一个统一协调整体运行的系统。
Q&A
Q1:为什么AI工作负载会导致数据中心冷却系统面临如此大的压力?
A:AI工作负载,尤其是GPU密集型的加速计算集群,单机架功率密度已从传统的数十千瓦飙升至200千瓦以上,部分设计目标甚至超过400千瓦。传统风冷系统在每机架约20至50千瓦时就会失去效能,远不足以应对这一量级的热量。每一瓦特输送给加速器的电力最终都会转化为热量,必须被及时带走,否则系统会出现不稳定或性能下降的问题。
Q2:液冷技术在数据中心的普及面临哪些主要障碍?
A:主要障碍包括:现有设施改造难度大,涉及管道铺设、地板结构调整和系统集成等复杂工程;组件标准碎片化,不同厂商的液冷方案兼容性差;泄漏风险带来的运维顾虑;以及安装和维护人员的技能储备不足。截至2024年,液冷在数据中心冷却市场中仅占约46%,大量传统环境仍以风冷为主,过渡进程参差不齐。
Q3:冷却架构如何影响数据中心的选址决策?
A:高密度冷却系统,尤其是依赖水冷的方案,对水资源消耗较大。在水资源紧张的地区,这会直接限制项目的可行性。此外,冷却相关的环境影响还可能触发更严格的审批流程、分区规划限制以及社区反对,从而拖慢项目推进速度。因此,冷却架构的选择已不仅是技术问题,更是影响项目能否落地、何时落地的关键因素。