Ferveret CEO:冷却技术如何突破AI算力的能耗瓶颈

网易专栏1周前发布 nxnqh
15 0 0

🤖 AI总结

主题

初创公司Ferveret通过自适应相变冷却技术提升数据中心算力效率。

摘要

Ferveret采用自适应相变冷却技术,通过去除风扇和提升热效率,在固定功耗下提升约35%算力,目前处于试点阶段。

关键信息

  • 1 Ferveret开发自适应相变冷却技术,可提升服务器算力效率约15%。
  • 2 该技术去除服务器风扇,并将PUE降至1.03-1.04,综合提升约35%算力。
  • 3 目前仍处于试点阶段,正与OEM/ODM合作推进规模化部署。

Ferveret CEO:冷却技术如何突破AI算力的能耗瓶颈

随着AI基础设施建设持续推进,运营商不断将高功率密度系统部署到已受电网限制、水资源紧张和能源成本上升多重压力的设施中,冷却问题已成为这一进程中最核心的挑战之一。初创公司Ferveret正是在这一背景下应运而生,其定位是将冷却技术从成本负担转变为在固定功耗预算内释放更多算力的关键杠杆。

近几个月来,该公司凭借其”自适应相变冷却”技术的基准测试结果引发业界关注,相关数据显示服务器层面的算力效率提升约15%,若结合更低的设施运营开销,整体收益还将进一步扩大。需要指出的是,上述数据来源于测试和建模场景,而非完整的生产环境部署。

Ferveret的技术路线借鉴了核反应堆热工程领域的技术,旨在提升热传导效率,同时减少对冷水机组和高耗水系统等传统基础设施的依赖。该公司将自身方案定义为数据中心层面的”无水”冷却。

在更宏观的视角下,CEO Reza Azizian指出,单纯改善冷却可能还不够,硅基计算本身的效率局限才是更深层的长期挑战。

目前,Ferveret仍处于试点阶段,正与客户在机架层面开展合作,并通过OEM和ODM合作伙伴关系推进更大规模的部署。

以下是Ferveret CEO Azizian与Data Center Knowledge的对话内容,经整理编辑。

Data Center Knowledge:Ferveret目前的产品是什么?

Azizian:我们发明了一种名为”自适应相变冷却”的全新冷却技术。这项技术的优势在于它是机架式安装的,能够适配现有数据中心的基础设施,让用户非常便捷地试用并部署我们的方案。通过使用我们的解决方案,客户可以在相同的功耗范围内获得更多算力,因为冷却效率大幅提升了。

DCK:客户最看重的是什么?

Azizian:性能。随着数据中心越来越受到功耗限制——现在想获取更多电力简直是噩梦——客户希望在相同的功耗范围内获得更多算力,而这正是我们能提供的。

DCK:您提到服务器层面提升了约15%,背后的原理是什么?

Azizian:这15%的提升,大部分来自于一个事实:即便是直接液冷方案,服务器内仍然有风扇。我们的系统没有任何运动部件,去掉风扇后,同等算力所需的功耗大幅降低。具体来说,15%中大约4%到5%来自于芯片运行温度更低,漏电流减少,芯片运行速度略有提升;另外约10%则来自于去除风扇本身。

DCK:您还提到在数据中心层面有更显著的收益,这是如何实现的?

Azizian:我们能够将PUE(电能使用效率)降至约1.03到1.04,这意味着数据中心的运营开销大幅压缩。将这一PUE改善与服务器层面15%的提升叠加,总体上可以在相同功耗范围内获得约35%的额外算力。

DCK:目前这项技术部署在哪里?

Azizian:我们已经在服务器层面完成了大量测试,目前正在与不同客户进行机架层面的试点。我们在数据中心环境中运行试点项目,但尚未进入完整的生产部署阶段。

DCK:这对在固定功耗预算内运营的数据中心意味着什么?

Azizian:在典型的数据中心中,大约20%到30%的电力消耗在冷却上。使用我们的方案后,这一比例会大幅下降。因此,在固定功耗范围内,由于更多的总功率能够真正到达机架,运营商可以部署更多服务器。

DCK:与直接液冷方案相比,成本竞争力如何?

Azizian:我们的基础成本与直接液冷方案非常接近,差距不大。而且根据部署情况,我们不需要传统冷却方案通常所需的冷水机组和冷却塔,这在资本支出方面可以节省相当可观的费用。

DCK:运营风险由谁承担?系统维护复杂吗?

Azizian:机架式安装的特点使维护更加便捷。如果出现问题,可以将某个单元取出单独维修,与运营商目前的操作方式类似。在类似技术的早期部署中,我们曾遇到系统漏液的情况,但即便如此,温度也是逐渐上升的,不会突然发生故障,运营人员有足够的时间发现问题并进行修复。

DCK:部署流程是怎样的?

Azizian:在试点阶段,我们通常在几周内完成部署,主要工作是将服务器重新封装集成到我们的方案中。在规模化方面,我们正在与OEM和ODM厂商合作,因为他们具备超大规模集成和部署的能力。

DCK:您认为目前AI部署中存在哪些普遍误区?

Azizian:我真心认为,很多人觉得必须建设超大规模数据中心才能完成工作。但实际上,有大量5到10兆瓦的小型数据中心处于闲置状态。我认为存在一条路径,可以让算力更加分布式,无论规模大小,都能接入更广泛的算力网络并贡献算力。

DCK:展望未来,我们现在普遍忽视了什么?

Azizian:当前数据中心的运营方式根本不可持续。如果将人脑的效率与硅基计算相比,差距是天壤之别。硅基计算所需的能耗和产生的热量,从长远来看是不可持续的。

总结

Ferveret正在将其冷却技术定位为降低运营开销、在受限功耗预算内释放更多算力的关键手段。其核心方案——去除服务器风扇并提升热效率——在服务器层面已展现出可量化的收益,而更大范围的数据中心改善目前仍基于建模结果。随着部署仍处于试点阶段,下一个关键考验是这些收益能否在规模化部署中得到验证。

尽管如此,Azizian将冷却技术定位为更大挑战的一部分——这一挑战最终可能需要从根本上重新审视硅基计算本身的效率极限。

Q&A

Q1:Ferveret的自适应相变冷却技术是如何提升算力效率的?

A:Ferveret的自适应相变冷却技术通过两个主要途径提升效率:一是去除服务器风扇(无运动部件),节省约10%的功耗;二是让芯片在更低温度下运行,减少漏电流并提升运行速度,贡献约4%到5%的提升。两者合计在服务器层面实现约15%的算力效率提升。若再结合数据中心PUE降至1.03至1.04的改善,整体算力提升可达约35%。

Q2:Ferveret的冷却方案为什么被称为”无水”冷却?

A:Ferveret将其方案定义为数据中心层面的”无水”冷却,原因在于其技术不依赖传统冷却基础设施中的冷水机组和高耗水冷却塔。该技术借鉴了核反应堆热工程领域的热传导原理,在提升散热效率的同时,大幅减少了对水资源的消耗,从而降低了数据中心在水资源紧张地区的运营压力。

Q3:Ferveret目前的技术成熟度如何,是否已大规模商用?

A:目前Ferveret仍处于试点阶段,尚未进入完整的生产部署。该公司已在服务器层面完成大量测试,并正在与不同客户进行机架层面的试点。在规模化路径上,Ferveret正与OEM和ODM厂商合作,借助其超大规模集成和部署能力推进商业化落地。文章中提到的15%和35%效率提升数据,目前仍基于测试和建模场景,而非完整生产环境的验证结果。

© 版权声明

相关文章