正在进行的数据中心重新设计的一个主要方面是,由于人工智能的庞大、复杂的工作负载以及需要添加更多图形处理单元(GPU)、张量处理单元(TPU)或加速器。
这些单元所需的功率和产生的热量,迫使设计人员重新思考什么是可行的和最佳的布局设计。而且,重新设计的成本正在不断增加。
因此,根据Tirias Research的数据,到2028年,业主每年可能会在新的人工智能数据中心基础设施上花费760亿美元。
数据中心当前面临的挑战:当今基于GPU的密集集群
Tom's Hardware的AntonShilov最近评估了人工智能工作负载对GPU的巨大需求:Omdia表示,Nvidia在2023年第二季度实际上售出了900吨H100处理器。Omdia估计,Nvidia在第二季度为人工智能(AI)和高性能计算(HPC)应用销售了超过900吨(180万磅)H100计算GPU。Omdia认为,带有散热器的NvidiaH100计算GPU的平均重量超过3公斤(6.6磅),因此Nvidia在第二季度出货了超过30万台H100。
因此,单个Nvidia H100图形处理单元(GPU)的重量约为一个轻型保龄球的重量。Omdia上面计算的重量不包括相关的布线或液体冷却。
施耐德电气数据中心创新副总裁Steven Carlini表示,用于人工智能的机架必须重新设计,以适应额外的重量和热量。其将当今密集的人工智能服务器集群与“整齐分布”的成排普通服务器机架进行了对比,这些服务器机架在当代人工智能开始认真发展之前很常见,将整齐的行变成了密集的热运行集群。
Carlini表示,这些人工智能集群每个机架的功耗高达100千瓦,而传统的非人工智能数据中心机架的每个机架功耗高达20千瓦。施耐德电气能源管理研究中心的高级研究分析师Victor Avelar指出,每台NvidiaH100的功耗为700瓦,而旧款A100的功耗为400瓦,后者的需求量仍然很高。两种GPU类型都需要液体冷却。
每个GPU中密集的800亿个晶体管硅区域产生大部分热量。Amazon和Google等企业正在安装的一台人工智能服务器包含8个这样的GPU。如果设计得当,人工智能服务器集群可以持续100%运行,相比之下,非人工智能AI应用的服务器利用率要低得多。
数据中心能源管理的长远视角
承载当今人工智能工作负载的主要数据中心的所有者,长期以来一直致力于减轻对环境的影响,并且在能源管理方面,他们往往着眼于长远。的确,能源消耗比以往任何时候都高,但现在大部分顶级数据中心容量都是由可再生能源供电,业主正在寻找其他零排放替代方案。例如,Microsoft在5月份签署了一份合同,从2028年开始从聚变能源初创企业Helion购买至少50兆瓦的电力。
VictorAvelar致力于量化当今数据中心在其生命周期内的碳足迹,并帮助优化未来数据中心的布局和设计。Avelar在其免费的数据中心生命周期二氧化碳当量计算器上进行了演示,该计算器既关注了隐含碳,如数据中心建设中使用的混凝土的资源、制造和浇筑过程中排放的碳,也关注了数据中心运营过程中产生的碳。
成本计算器帮助规划者考虑替代方案并选择最佳设计标准。例如,SchneiderElectric对电源进行了研究。Avelar对比了西弗吉尼亚州的一个燃煤电厂和法国的一个核电厂。
通过按范围查看年度总二氧化碳当量,发现西弗吉尼亚选项的范围2(从当地公用事业购买的电力)排放量在混合排放中所占的比例要大得多。相比之下,法国的选项在范围3(间接能源,例如新数据中心混凝土中的隐含碳)中所占的比例更大。范围1和范围2的排放更多地在规划者的控制范围内。
数据中心所有权的转变
Carlini指出,从历史上看,数据中心往往遵循一种类似购物中心的模式,即主要租户和精品店,所有者只专注于满足当地需求的建筑业务,并管理空间租赁。
但最近,大型云计算、媒体和SaaS提供商在新建数据中心的比例方面更加占据主导地位。对于那些所有者/运营商而言,没有标准的数据中心设计。每个数据中心都是不同的,当前环境下的主要挑战就是跟上所有正在发生的变化。