随着chatGPT的爆火和AGI的繁荣,英伟达正在以前所未见的速度发展,这不但造就了GPU的繁荣,同时还让扮演关键角色HBM热度高居不下。
继美光和SKHynix在日前表示,今年的HBM产能自己售罄以后。美光和三星在近日也带来了HBM新品,以期在这个蓬勃发展的市场占有一席之地。其中,前者带来了将用在英伟达GH200的之余,还表示将在2024年3月带来36GB12-HiHBM3E产品,后者则表示,公司发布的HBM3E12H将性能和容量提高了50%以上。
由此可见,HBM的竞争愈演愈烈,HBM也成为了决定AI芯片命运的关键。这也就是为何TimothyPrickettMorgan认为,谁掌控了HBM,就掌握了AI训练。
以下为TimothyPrickettMorgan的分享正文:
2024年推动Nvidia数据中心GPU加速器发展的最重要因素是什么?
是即将推出的“Blackwell”B100架构吗?我们确信该架构将比当前的“Hopper”H100及其胖内存弟弟H200提供性能飞跃?不。
是该公司有能力从代工合作伙伴台积电那里拿回数百万颗H100和B100GPU芯片吗?不,它不是。
是NvidiaAIEnterprise软件堆栈及其CUDA编程模型和数百个库吗?事实上,至少其中一些软件(如果不是全部)是AI训练和推理的事实上的标准。不过,又没有。
虽然所有这些无疑都是巨大的优势,并且是许多竞争对手都集中精力的优势,但Nvidia在2024年推动其业务的最重要因素与金钱有关。具体来说:英伟达在1月份结束了2024财年,现金和银行投资略低于260亿美元,如果本财年按预期进行,收入将突破1000亿美元,其中约占50%以上如果以净利润的形式体现出来,那么即使在支付了税款、庞大的研发业务以及公司的正常运营费用之后,它将为其金库增加约500亿美元。
你可以用750亿美元或更多的资金做很多事情,其中之一就是不必太担心为数据中心级GPU购买HBM堆栈DRAM内存所需的巨额资金。这种内存正在以相当好的速度变得更快、更密集(就每芯片千兆位而言)和更胖(FAT,就兆字节带宽和千兆字节容量而言),但其改进速度并没有达到人工智能加速器所需的速度。
随着美光科技(MicronTechnology)加入SK海力士(SKHynix)和三星(Samsung)的供应商行列,HBM的供应量有所改善,并且进给量和速度也随之改善。我们强烈怀疑供应将无法满足需求,HBM内存的价格将随着HBM在一定程度上推动的GPU加速器价格而继续攀升。
AMD拥有57.8亿美元的现金和投资,没有那么多闲置资金,尽管英特尔的银行存款略高于250亿美元,但它必须建立代工厂,这确实非常昂贵(按顺序如今每次流行150亿至200亿美元)。因此,它也确实不能在HBM内存上挥霍。
对NvidiaGPU加速器业务有利的另一个因素是,在GenAI繁荣时期,客户愿意为数百、数千甚至数万个数据中心GPU支付几乎任何费用。我们认为,2022年3月宣布的原始“Hopper”H100GPU的价格,特别是在SXM配置中,对于具有80GBHBM3内存、速度为3.35TB/秒的单个H100,其价格超过30,000美元,我们不知道具有96GB内存,速度为3.9TB/秒的H100的费用,但我们能推测Nvidia对具有141GBHBM3E内存、运行速度为4.8TB/秒的H200设备的收费。H200基于与H100完全相同的“Hopper”GPU,将内存容量提高了76.3%,内存带宽提高了43.3%,H100芯片的性能提高了1.6倍到1.9倍。考虑到额外的容量意味着需要更少的GPU并消耗更少的电量来针对静态数据集训练给定模型,我们认为与原始H100相比,Nvidia可以轻松地为H200收取1.6倍到1.9倍的费用。
黄金法则:拥有黄金的人制定规则
我们并不是说H200在第二季度开始发货时就会发生这种情况。(我们认为英伟达除了财务数据外还谈论日历季度。)我们只是说这样的举动是有逻辑的。很大程度上取决于AMD对“Antares”InstinctMI300XGPU加速器的收费,该加速器具有192GB的HBM3,运行速度为5.2TB/秒。MI300X具有更多的原始浮点和整数能力,HBM容量比Nvidia的H200高36.2%,带宽比H200高10.4%。
你可以用ElonMusk的最后一块钱打赌,AMD没有心情做任何事,除了对MI300X收取尽可能多的费用,甚至有建议称该公司正在努力升级到更胖、更快的HBM3E内存领域,以保持对Nvidia的竞争。MI300使用具有八高DRAM堆栈的HBM3,MI300中的内存控制器具有信号和带宽容量,可以替换为时钟速度更快的十二高堆栈HBM3E。这意味着容量增加了50%,带宽也可能增加了25%。也就是说,每个MI300X具有288GB的HBM3E容量和6.5TB/秒的带宽。
据推测,这样一个经过精心设计的MI350X芯片(我们可能会这样称呼它)在其峰值失败次数中执行了相当大的实际工作量,甚至更多,就像Nvidia从H100跳跃到H200时所发生的那样。
正是在这样的背景下,我们想谈谈HBM领域发生的事情。我们将从SKHynix开始,该公司展示了16个芯片高的HBM3E堆栈,每个堆栈提供48GB的容量和1.25TB/秒的带宽。MI300X配备8个内存控制器,可实现384GB内存和9.6TB/秒带宽。
有了这些数字,您就不必将CPU作为扩展内存控制器来处理大量工作负载。。。。
我们还没有看到关于SK海力士十六高HBM3E内存的介绍,也不知道它什么时候上市。去年8月,SK海力士展示了第五代HBM内存和第一代HBM3E内存,据称每个堆栈可提供1.15TB/秒的带宽。正如下面由Trendforce创建的HBM路线图所示,我们的预期是提供24GB和36GB容量,这意味着8高堆栈和12高堆栈。
去年8月,Nvidia显然将成为这些芯片的大客户,并且有传言称SKHynix的这款24GBHBM3E内存将用于即将推出的“Blackwell”B100GPU加速器。如果是这样,那么BlackwellGPU小芯片上的六个内存控制器将产生144GB的容量,如果B100封装按预期具有两个GPU小芯片,则意味着最大容量为288GB,带宽为13.8TB/秒。很难说收益率如何,可能只有5/6可用。也有可能-但我们希望不是-B100看起来不像一个GPU,而是系统软件的两个GPU(就像两个芯片组AMD“Arcturus”MI250X所做的那样,而不像MI300X那样,后者有8个较小的GPU芯片组这加起来会带来更多的魅力,看起来就像一个GPU到系统软件)。我们将看看那里会发生什么。
美光科技(MicronTechnology)进入HBM领域较晚,但鉴于供应短缺和需求旺盛,该公司无疑在该领域最受欢迎,该公司今天表示,它正在开始生产其首款HBM3E内存,这是一种八高堆栈容量为24GB,并补充说该内存是H200GPU的一部分。我们去年7月介绍过的MicronHBM3E变体的引脚运行速度为9.2Gb/秒,每个堆栈提供1.2TB/秒的内存。美光还声称,其HBM3E内存的消耗量比“竞争产品”少30%,想必它正在谈论严格的HBM3E比较。
美光还表示,它已开始对其12高36GBHBM3E变体进行送样,其运行速度将超过1.2TB/秒。美光没有透露比1.2TB/秒快多少。
今天晚些时候,三星推出了十二高堆栈HBM3E,这也是其第五代产品,该公司代号为“Shinebolt”。
Shinebolt取代了去年推出的“Icebolt”HBM3内存。Icebolt堆栈式DRAM内存为容量为24GB的十二层堆栈提供819GB/秒的带宽。ShineboltHBM3E在36GB堆栈中提供1.25TB/秒的带宽,就像SKHynixHBM3E十二高堆栈一样。
三星在公告中补充道:“用于AI应用时,预计与采用HBM38H相比,AI训练的平均速度可提高34%,同时推理服务的并发用户数可提升34%。”扩大11.5倍以上。”三星指出,这是基于内部模拟,而不是实际的人工智能基准。
三星的ShineboltHBM3E12H现已提供样品,预计在6月底前全面投产。
这些12高和16高的HBM3E堆栈几乎是我们在2026年HBM4发布之前所拥有的。人们可能希望HBM4会在2025年出现,毫无疑问,我们面临着推动路线图升级的压力,但这似乎不太可能。据猜测,HBM4的内存接口将增加一倍,达到2,048位。HBM1到HBM3E使用了1,024位内存接口,信号传输速度从AMD与SKHynix设计并于2013年交付的初始HBM内存相比,已经从1Gb/秒增加到9.2Gb/秒。接口加倍将允许两倍的速度。需要大量内存来挂起接口,并以一半的时钟速度提供给定量的带宽,并且随着时钟速度再次提升,带宽会逐渐增加。或者。它们从一开始就以每引脚9.2Gb/秒的速度推出,我们只需支付以瓦为单位的价格。
美光路线图表示,HBM4将提供36GB和64GB的容量,驱动速度为1.5TB/秒到2TB/秒,因此看起来会是宽速和慢速、宽速和更快的混合,但在发布时不会完全满足需求。谈到带宽。看起来,宽度加倍几乎可以使容量和带宽加倍。预计HBM4将具有十六层DRAM堆叠,仅此而已。
在2026年另一个宇宙的梦想世界中,HBM4将拥有2,048位接口,类似于引脚上的11.6Gb/秒信号传输,具有24个高DRAM堆叠,具有33.3%密度的DRAM内存(4GB而不是3GB),因此,每个堆栈的速度约为3.15TB/秒,每个堆栈的速度约为96GB。哦,那我们就疯狂吧。假设一个GPU复合体有十几个小芯片,每个小芯片都有自己的HBM4内存控制器。这将为每个GPU设备提供37.8TB/秒的聚合内存带宽,以及每个设备1,152GB的容量。
从这个角度来看,根据Nvidia的说法,一个1750亿个参数的GPT-3模型需要175GB的容量来进行推理,因此我们正在讨论的理论GPU上的内存大小大概能够处理1.15万亿个参数推理。对于GPT-3训练,需要2.5TB内存来加载数据语料库。如果您的Hoppers具有80GBHBM3内存,则需要32个Hopper才能完成这项工作。但我们的32台设备的容量将增加14.4倍,因此能够加载相应更大的数据量。我们假设的设备上的带宽也高出11.3倍。
请注意,我们没有提及这十几个GPU小芯片的失败情况?在大多数情况下,以超过80%的利用率运行任何东西都非常棘手,特别是当它可能以不同的精度执行不同的操作时。我们想要的是让触发器与比特/秒的比率恢复正常。我们想要制造一台12缸发动机,它有足够的喷油器来实际喂养野兽。
我们的猜测是,80GB的H100的HBM3内存约为理想值的三分之一,带宽也约为理想值的三分之一。这是一种最大化GPU芯片销售和收入的方法,正如Nvidia已经清楚地证明的那样,但这并不是构建平衡的计算引擎的方法-就像英特尔在其X86芯片上放置一半的DRAM内存控制器并将其全部卖给我们一样——两个带有中间仓部件的插座一直是数据中心通用计算的正确答案。我们还需要更多的内存容量和带宽。
因此,如果使用这个概念性BeastGPU加速器将带宽增加11.3倍,那么与原始H100相比,计算量可能只会增加4倍。在张量核心上,H100在FP64精度下的额定速度为67teraflops,在FP8精度(未使用稀疏性)下的额定速度为1.98petaflops。因此,这个TP100GPU复合体在FP64下的额定速度为268teraflops,在FP8下的额定速度为7.92petaflops,每个GPU小芯片的性能将是H100芯片性能的三分之一,并且可能是其大小的四分之一到五分之一,具体取决于使用的工艺技术。假设它是TSMC2N或Intel14A与真正的H100上使用的TSMC4N。毕竟,这是我们谈论的2026年。
这就是我们想要写的那种野兽,如果我们银行里有260亿美元,并且未来还有500亿美元以上的前景,这就是我们会做的。但是大量的HBM内存和计算引擎都塞满了它。
很难说这会花费多少钱。你不可能打电话给Fry'sElectronics询问2026年HBM4内存的市场价格是多少。一方面,Fry's已经死了。另一方面,我们现在甚至无法很好地了解GPU和其他矩阵引擎制造商为HBM2e、HBM3和HBM3e内存支付的费用。每个人都知道(或者认为他们知道),HBM内存和用于将内存链接到设备的任何中介层是现代人工智能训练和推理引擎的两个主要成本。(当然,混合使用片上SRAM和普通DRAM的人除外。)
在市场上,用于服务器的最大、最厚、最快的256GBDDR5内存模块在4.8GHz下运行的价格约为18,000美元,每GB约为70美元。但仅可扩展至32GB的更薄模块每GB成本仅为35美元。因此,HBM2e的价格约为每GB110美元,“超过3倍”,如上面的Nvidia图表所示。96GB的价格约为10,600美元。很难说HBM3和HBM3E的提升在该设备的“市场价格”上可能值多少钱,但如果达到HBM3仅提升25%,那么H100的市场价格约为30,000美元80GB容量,HBM3的价格为8,800美元。转向96GBHBM3E可能会将内存成本提高到“市场价格”至16,500美元,因为技术成本又增加了25%,而且额外的16GB内存和H10096GB的市场价格应约为37,700美元。
听到有关具有141GB容量(由于某种原因不是144GB)的H200的价格的传言将会很有趣。但如果这种内存价格分层成立——我们意识到这些都是疯狂的估计——那么141GB的HBM3E本身价值约为25,000美元。但按照这样的价格,H200的“市场价格”约为41,000美元。(注意:这不是我们认为Nvidia为HBM3和HBM3E内存支付的费用——这不是物料清单成本——而是分配给最终用户的价格。)
我们认为涨幅不会超过25%左右,因为内存升级到HBM3,然后再升级到HBM3E将推高内存价格,使其高于市场上传闻的NvidiaGPU价格。
请记住,这只是一个思想实验,旨在展示HBM内存定价如何控制Nvidia和AMD可以投入该领域的GPU数量,而不是相反。内存尾巴正在摇晃GPU的狗。内存容量和带宽与H200的配合越来越紧密,如果Nvidia仅对额外的内存及其额外的速度收取象征性的费用,那么不仅设备的实际效率会提高,而且性价比也会提高。但如果Nvidia只是对这些更强大的H100和H200进行定价,以便性能增益和内存增益达到平衡,那么花的钱就会少得多,而要花的钱就会多得多。
老实说,我们不知道Nvidia会做什么,也不知道AMD在MI300获得HBM3E升级后会做什么。现在美光进入该领域的HBM供应商增加了50%,而且SKHynix和三星将产量提高了2倍,这是一个很大的数字,但相对于GPU和GPU的需求,市场上的HBM内存仍然只增加了3倍。他们的内存更大,可以说大于3倍。这不是一个可以降价的环境。在这种环境下,人们会提高更先进的计算引擎及其内存的价格,并继续尽可能薄地扩展HBM内存。
这就是为什么只要Nvidia平台继续成为首选,能够支付高价购买HBM内存的人(即Nvidia联合创始人兼首席执行官黄仁勋)就可以设定人工智能训练的步伐和价格。
换而言之,对于GPU和HBM来说,他们面对的都是生死局。