生成式人工智能(AI)的迅速崛起,凸显了企业采用人工智能的非凡速度。Accenture最近的一份报告指出,98%的企业领导人表示,人工智能将在未来三到五年的战略中发挥重要作用。McKinsey分析师发现,近65%的企业计划在未来三年内增加对人工智能的投资。
这种势头才刚刚开始。NVIDIA、AMD和Intel正在推出专为生成式人工智能和高性能计算(HPC)设计的新芯片。公共云提供商和新兴芯片企业也参与了竞争。IDC分析师预测,人工智能软件、硬件和服务的全球支出将达到3000亿美元,高于今年预计的1540亿美元。
然而,扩展人工智能仍然存在挑战,其中最重要的是涉及支持这些工作负载所需的数据中心基础设施的挑战。
数据中心越来越“热”
图形处理单元(GPU),是人工智能和机器学习(ML)最常见的芯片,可以极大地加速人工智能应用的计算过程。其非常强大,如NVIDIA的H100GPU包含800亿个晶体管,因此会产生大量热量,必须对其进行有效冷却。
传统上,在单个数据中心机架中达到10千瓦的配置被认为是高密度,但空气冷却仍然是冷却这些服务器的有效方法。尽管UptimeInstitute发现很少有数据中心拥有超过30千瓦的机架,但极端密度正在出现。高性能计算的商品化和生成式人工智能的兴起正在增加电力需求,并使传统的空气冷却方法负担过重。
例如,NVIDIA最新的GPU的最大功耗比上一代芯片高出160%。机架配置很容易超过40千瓦范围,这对于传统的风冷方法而言是难以管理的。当今的数据中心必须不断发展,以有效管理这些升高的热负荷。
冷却技术越来越重要
好在,有多种液体冷却技术可以应对这一挑战,包括日益流行的后门热交换和直接芯片技术。新兴的浸入式冷却技术也有不同的风格,这些技术本质上是将IT组件浸入充满液体冷却剂的容器中。
尽管浸入式冷却尚处于早期采用阶段,但分析师预测,该技术将在未来四年内成为主流,市场规模将从2021年的2.51亿美元增长到2027年的超过16亿美元。这将极大地影响数据中心基础设施需求,并且企业领导者必须知道他其数据中心运营商是否愿意在短期内进行必要的投资来支持这种转变。
液体冷却的优点和缺点
液体作为热导体的效率是空气的1,000倍,而且运行所需的基础设施更少。风冷系统需要一个复杂的制冷基础设施,其中包括冷却器、气泵、电缆、湿度控制和过滤系统,以及冗余备份系统,以确保在停电时服务器不会处于不冷却状态。
相比之下,液体冷却系统相对简单,但在当前数据中心基础设施中实施其的前期投资和复杂性可能会带来重大挑战。设置可能很复杂,并且可能需要专门的维护。此外,服务器设计可能需要调整,浸入式方法可能会使OEM保修失效,并且冷却系统泄漏可能会造成损坏和停机。数据中心运营商还必须考虑在数据中心使用液体的新法规和环境标准。
也就是说,液体或浸入式冷却系统不需要太多的备份或特殊的地板或通道密封策略。对能源消耗和成本的总体影响可能是巨大的。最近的一项研究结果发现,实施液体冷却可以减少近20%的设施电力,总数据中心电力减少10%以上。总使用效率(TUE)是一项新指标,旨在比较高性能计算环境中液体冷却与空气冷却的效率,结果显示,液体冷却的能源效率提高了15%以上。
过渡到液体冷却还有其他可持续发展的好处。液体冷却系统比空气冷却系统需要更少的水。改造数据中心可以采用新的思维方式来缩小其物理足迹和碳足迹。热再利用策略可以为周围的企业和社区提供能源。这些可能性令人兴奋,并且可能会像生成人工智能本身一样具有变革性。
现在需要了解什么
对于大多数企业而言,实现本地数据中心的转型可能过于复杂且昂贵。另一方面,当今的大部分公共云基础设施并不是为运行大规模人工智能应用而构建的,而大容量工作负载的云成本不断上升,促使许多组织寻找其他选择。
考虑到这些挑战和机遇,拥有处理无数客户用例的基础设施经验的托管数据中心提供商,可能会为许多企业提供最佳解决方案。这个领域的领导者可以提供专业知识和支持,以指导组织完成转型。还与许多硬件原始设备制造商和液体冷却供应商建立了重要的关系,这些供应商将推动数据中心的发展,提供多样化的选择来满足客户的独特需求。
组织现在需要知道其数据中心运营商是否已经在计划,也许更重要的是,是否拥有可用的物理容量或适合安装所需的技术,以使下一代数据中心的发展成为可能。数据中心已经面临着将工作负载转移到满足其要求的最佳服务器的复杂挑战。随着人工智能和高性能计算工作负载的需求不断增加,添加根本上不同的冷却系统的额外挑战肯定会使这些障碍变得更加复杂。
现在正在投资这些策略的数据中心运营商将处于有利地位,可以帮助其客户正面应对这些挑战。人工智能正在改变一切,包括数据中心。现在是开始这次对话的时候了。