HBM市场有多火?
根据YoleGroup的最新分析报告,由于人工智能服务器的需求超过了其他应用,HBM在整个DRAM出货量中所占的份额预计将从2023年的约2%上升到2029年的6%,由于HBM价格远高于DDR5,就收入而言,其份额预计将从2024年的140亿美元攀升至2029年的380亿美元——而此前该份额已从2023年的约55亿美元逐年飙升了150%以上。
YoleGroup表示,内存供应商已经增加了HBM晶圆产量,预估产量从2022年的每月44,000片晶圆(WPM)增加到2023年的74,000WPM,并可能在2024年增至151,000WPM。
在HBM这一蓬勃发展的市场中,虽然只有三个玩家,但竞争之激烈,超出了许多人的想象。简而言之,旱的旱死涝的涝死,排行第一的海力士在技术和市场上遥遥领先,拿走了最多的利润,排名第二的三星正在积极发起进攻,又拿走了一部分,至于第三的美光,由于技术路线的判断失误,市场份额较小,目前还处于一个追赶状态,短期内恐怕很难贡献大额利润。
而最新的新闻也从侧面证明了这种差距。SK海力士在2月确认,自己在过去几个月的HBM销量创下了新纪录,同时带动第四季度实现盈利,并预测产业即将复苏,SK海力士副社长金起台(KimKi-tae)指出,生成式AI服务日益多样并持续发展,作为AI存储解决方案的HBM需求也出现爆炸性成长。
更重要的是,他提到今年海力士旗下HBM已经全部售罄,虽然2024年才刚开始,但公司为了保持市场领先地位,已开始为2025年预作准备。‘
2024年刚开始,SK海力士就已经在考虑2025年的HBM市场了,隔壁三星和美光所背负的压力也是巨大,在追赶技术和市场的同时,他们在思考,能否绕开HBM这项技术,从另一个方向去抢占AI市场呢?
此时,CXL(ComputeExpressLink)再度进入到了内存厂商的视线当中。
AI存储新方向?
据报道,为了增强在AI存储芯片领域的竞争力,三星计划在下个月于硅谷举行的MemCon2024全球半导体会议上展示其对被称为HBM下一代技术的CXLDRAM的技术和愿景。
在3月26日至27日举行的为期两天的活动中,三星执行副总裁韩镇满(HanJin-man)将致开幕词。此外,该公司执行副总裁将在题为“在AI时代引领HBM和CXL创新,实现高内存带宽和高容量实现”的主题演讲中分享三星的CXL技术和愿景。
CXL是何方神圣,能让三星如此重视,将它视作HBM的替代呢?
先来简单介绍下这项技术的来龙去脉吧。CXL(ComputeExpressLink)技术是一种高速、大容量中央处理器(CPU)到设备以及CPU到内存连接的开放标准,专为高性能数据中心计算机而设计。其建立在串行PCIExpress(PCIe)物理和电气接口的基础上,包括基于PCIe的块输入/输出协议(CXL.io)以及用于访问系统内存(CXL.cache)和设备内存(CXL.mem)的新高速缓存一致性协议。串行通信和池功能使CXL内存在实现高存储容量时能够克服常见DIMM内存的性能和插槽封装限制。它最初由英特尔、AMD和其他公司联合推出,并得到了包括谷歌、微软等公司在内的大量支持。
CXL技术的背景可以追溯到PCIe(PeripheralComponentInterconnectExpress)技术,PCIe是用于连接计算机内部组件的一种标准接口技术。PCIe设备可以发起一个DMA来访问内存,只要知道目标物理地址即可。在CXL之前就有以IBM牵头的OpenCAPI,ARM为代表支持的CCIX,AMD等支持的GenZ和Nvidia自行提出的Nvlink等等多种协议。虽然PCIe已经有了很多改进,但其难以满足现代计算机处理器和加速器之间的高带宽、低延迟通信需求。于是,CXL技术应运而生。
2019年3月11日,基于PCIe5.0的CXL1.0规范发布,其允许主机CPU使用缓存一致性协议访问加速器设备上的共享内存,改进后的CXL1.1规范则于2019年6月发布。
2020年11月10日,CXL2.0规范发布。新版本增加了对CXL交换的支持,以允许将多个CXL1.x和2.0设备连接到CXL2.0主机处理器,同时将每个设备汇集到多个主机处理器,采用分布式共享内存和分解存储配置,此外它还实现了设备完整性和数据加密,不过,与CXL1.x相比,带宽没有增加,因为CXL2.0仍然使用PCIe5.0PHY。
2022年8月2日,CXL3.0规范发布,其基于PCIe6.0物理接口和双倍带宽的PAM-4编码;新功能包括具有多级交换和每个端口多种设备类型的结构功能,以及增强的点对点DMA和内存共享一致。
2023年11月14日,CXL3.1规范发布,新规范对横向扩展CXL进行了额外的结构改进、新的可信执行环境enhancements以及对内存扩展器的改进。
从2019年到2023年,CXL经历了高速的发展,其应用涉及服务器端,以及存储产品与解决方案端这两大层面。在过去2年时间里,实际上已经有许多厂商发表CXL相关元件、产品,以及成套解决方案,但有个现实问题制约影响了CXL的发展:由于英特尔、AMD这两家处理器厂商的拖延,导致服务器端迟迟未能实际支持CXL协议,以致无法形成完整CXL应用环境。
直到2022年底到2023年初,终于迎来转机,伴随着AMD发布第四代EPYC(代号Genoa),盒英特尔发布第四代XeonScalable(代号SapphireRapids),新款处理器平台上线终于将CXL带到服务器端,补上了CXL应用环境缺失的环节。
经过数年的发展,目前CXL的生态已经相当完整与丰富。在元件层级的芯片供应商与设计商,有AsteraLabs、Cadence、Marvell、Microchip、Rambus、Synopsys、MontageTechnology、Mobiveil、SmartDV、Xconn等,它们发布了对应的CXL控制器(Controller)、定时器(Retimers)、交换器(Switch)产品。
而系统层级,目前有三星、SKHynix、美光,AsteraLabs,以及台湾的世迈科技(SMARTModularTechnologies),推出扩展存储类型的CXL产品。另外,还有Elastics.cloud、IntelliProp、UnifabriX、SKhynix、三星/H3Platform、Panmnesia,发布或展示了存储池类型的CXL解决方案。
其中,三星作为CXL联盟的董事,在推广CXL上可谓是不遗余力。
2021年5月11日,三星宣布推出了业界首款支持新的ComputeExpressLink(CXL)互连标准的内存模块(基于128GBDDR5),其表示,这款基于CXL的模块与三星的DDR5技术集成,将使服务器系统能够显着扩展内存容量和带宽,从而加速数据中心的人工智能(AI)和高性能计算(HPC)工作负载。
与内存通道有限的传统DDR内存不同,三星支持CXL的DDR5模块可以将内存容量扩展到TB级,同时大幅减少内存缓存导致的系统延迟。除了CXL硬件创新之外,三星还整合了多种控制器和软件技术,如内存映射、接口转换和错误管理,这将使CPU或GPU能够识别基于CXL的内存并将其用作主内存。
而在2022年5月10日,三星又发布了CXL内存模块的512GB版本,新款CXLDRAM采用专用集成电路(ASIC)CXL控制器构建,是首款配备512GBDDR5DRAM的产品,与上一代128GB版本相比,内存容量增加了四倍,系统延迟减少了五分之一。
随后,三星还推出了其开源可扩展内存开发套件(SMDK)的更新版本。该工具包是一个综合软件包,允许CXL内存扩展器在异构内存系统中无缝工作——使系统开发人员能够将CXL内存整合到运行人工智能、大数据和云应用程序的各种IT系统中,而无需修改现有应用程序环境。
2023年5月12日,三星宣布开发出业界首款支持CXL2.0的128GBDRAM,新的CXLDRAM支持PCle5.0接口(x8通道)并提供高达每秒35GB的带宽,其表示,与英特尔的密切合作,最终在英特尔至强平台上实现了这一里程碑式的进步。
值得注意的是,三星所推出的CXL2.0DRAM模块,其中搭载了来自中国澜起科技的控制器芯片,澜起科技早在2022年5月就发布全球首款CXL内存扩展控制器芯片(MXC),2023年8月,澜起科技是全球首家进入CXL合规供应商清单(CXLIntegratorsList)的CXL内存扩展芯片厂家。
2023年12月26日,三星宣布针对开源软件提供商RedHat的EnterpriseLinux9.3(即RHEL9.3)优化了CXL内存,并在RedHatKVM和Podman环境中验证了内存识别、读写操作。其表示,这将使数据中心客户能够使用三星的CXL内存,而无需对其现有硬件进行额外调整。
三星在CXL上的持续不断的投入,让它成为了目前CXL内存厂商中的领头羊。
AI的宠儿
三星如此看重CXL,除了在下一代先进标准上占据主动权的心思外,CXL在人工智能上的优势也是它全力以赴的重要原因。
近年来,随着数据吞吐量的快速增长,现有计算系统的极限已不堪重负,人工智能数据吞吐量每年增长十倍,而现有计算系统的内存容量不足以处理急剧增长的数据量,HBM解决了带宽问题,但却无法同时解决容量扩展的问题。
目前,一个中央处理器(CPU)最多可容纳16块DRAM(最多8TB),这个数字远远小于处理人工智能和机器学习中使用的海量数据存储所需的容量。随着人工智能时代的日益临近,对支持快速接口和易扩展性的内存平台的需求变得越来越明显,而基于CXL的新型DRAM模块可能是未来人工智能时代中前景最为广阔的内存解决方案之一。
与传统接口相比,CXL的DRAM模块最大的优势,就是所谓的可扩展性,而其他方面的优势,同样不容小觑。
首先是强大的内存扩展能力,与固态硬盘(SSD)这种外置存储设备类似,CXL内存扩展器安装在插入固态硬盘的位置时,可以扩展DRAM容量。换句话说,只需改进接口,就能扩大IT系统的DRAM容量,而无需修改或完全改变现有的服务器结构。
而后是简化数据处理,内存扩展器的一个主要优势是高效的数据处理。通过扩展更高的带宽,它可以让不同的设备共享内存,更有效地利用它们的资源。它们可以通过共享公用内存区域,像使用主内存一样使用加速器的内存。没有自己内部内存的设备也可以利用主内存,将其作为自己的内存使用。
最后是加速计算速度,CXL内存扩展器的一个关键功能是最大限度地减少因数据吞吐量增加而导致的延迟问题(或延时)。内存扩展器同时利用加速器和CPU来提高系统计算速度,支持更流畅、更快速的数据处理。
CXL种种优势,让它在人工智能时代来临之际成为了新宠儿,虽不及HBM耀眼,但其前景之广阔,并不逊色于后者多少。
据市场研究公司YoleGroup10月12日预测,到2028年,全球CXL市场预计将达到150亿美元(约合20.1万亿韩元)。虽然目前只有不到10%的CPU与CXL标准兼容,但预计到2027年,全球所有CPU都将兼容CXL接口。
图片
而CXL市场的核心是DRAM。YoleGroup预计,到2028年,120亿美元(即CXL市场总收入的80%)将来自DRAM,在当今以数据爆炸为特征的人工智能时代,PCIe等现有计算标准限制了DRAM模块的简单安装,并阻碍了物理可扩展性,CXL解决了这些挑战,未来有望驱动DRAM市场新一轮的发展。
有意思的是,SK海力士与美光也看到了CXL的潜力,并已经成为了CXL联盟的会员,但它们在这一技术上的进度,与三星相比,还存在着一定的差距。
2022年8月1日,SK海力士开发了首款基于DDR5DRAM的CXL(ComputeExpressLink)内存样品,该样品的外形尺寸为EDSFF(企业和数据中心标准外形尺寸)E3.S,支持PCIe5.0x8Lane,使用DDR5标准DRAM并配备CXL控制器。同年10月,海力士又在OCP全球峰会上推出了业界首款基于CXL的计算内存解决方案(CMS)。
对比三星,海力士在2023年9月才展示了自己首款CXL2.0产品,落后三星约四个月。不过海力士自己倒是非常上心,SK海力士总裁在2023年10月还强调了CXL市场的重要性,他说:“我们正在大力投资基于CXL的新兴存储技术的发展,可以起到第二、第三个HBM的作用。”
美光虽然正式进入CXL市场较晚,但在这项技术上的发展也不容小觑,2023年8月,美光在FMS2023大会上宣布推出首款用于服务器的CXL2.0内存扩展模块的样品,该模块搭载128GB和256GBDRAM,并使用PCIe5.0x8接口连接到CPU。在新标准支持这方面,美光反而比海力士早了约2个月。
除了三大内存厂外,CXLIP的重要性也愈发凸显,据HTFMIResearch,预计到2029年,CXLIP市场将达到8.923亿美元,复合年增长率为37.6%。目前提供CXLIP的公司包括Cadence、Synopsys、Rambus(PLDA)等;面对广阔前景,国内厂商也开始涉足这一领域,据悉,问道以芯已推出支持20TB级别内存拓展的CXL2.0IP。
截至目前,许多业内人士对CXL接口的概念还很陌生,虽然内存厂商出于AI的需求快开始踊跃推出样品并量产,但具体的应用还是较少,远不如HBM那样火热。
写在最后
就2024初来看,CXL标准落地仍有许多障碍需要克服。三星开发的CXL2.0DRAM与现有标准相比,可扩展性有限。开发与GPU、CPU和DRAM兼容的CXL交换设备、设计CXLDRAM模块以及快速开发支持软件等挑战都是当务之急。
而建立生态系统也同样重要。CXL领域的知名企业包括与拥有CXL3.0设计资产和集成解决方案的全球半导体公司合作的韩国初创企业Panmesia,以及拥有CXLDRAM控制器设计技术的中国的澜起科技,业内人士指出:"要在CXL3.0中实现理想的可扩展性,仅仅停顿在部分技术开发上是不够的,必须要有涵盖整个生态系统的整体技术。"
好消息是,截至目前,CXL内存扩充模组的应用环境已经较为完善,主要的内存厂商均已推出自家的CXL内存扩充模组产品,虽然现在的服务器只能支持CXL1.1标准,但基本上已经可以连接与运行,等到下一代也就是支持CXL2.0服务器上线后,就能更好地利用它的优势,从而实现这一标准的普及。
在2024年年初,我们可以用一句话来形容,就是万事俱备,CXL只欠应用这场东风了。
当然,关于CXL竞争依旧不可避免,有韩国业内人士表示,“虽然公众不知道,但三星电子和SK海力士都‘全力以赴’确保在CXL技术方面取得领先地位,就像他们对HBM所做的那样。”
卷完了HBM,内存厂商又瞄上了CXL,一场新的内存战争,即将展开。