去年11月,微软发布了两款自研芯片:AI加速芯片Maia 100和CPU芯片Azure Cobalt 100。
互联网公司自研芯片,已经不是什么新鲜事。之前苹果、亚马逊、谷歌、华为、阿里等公司就已经这么做了,微软已经算是晚的了。
(说明一下,这里的互联网公司指的是互联网底层技术的公司,也即云计算公司,或者支撑互联网公司业务的底层技术部门。)
今天这篇文章,我们仔细分析一下,在主流大客户纷纷自研芯片的当下,独立的芯片公司未来该如何更好地发展?
算力芯片面临的技术挑战
关于算力芯片面临的挑战,之前就详细介绍过,这里不展开了。简单总结如下:
算力需求数量级提升。例如,AI算力每2个月翻一倍。典型的大算力场景:AI大模型、高阶自动驾驶、元宇宙等。
性能和灵活性难以兼顾。CPU灵活但性能不够,ASIC性能极致但灵活性不够。越复杂的系统,对通用灵活性的追求越高于对性能的追求。
业务的横向和纵向差异性。横向差异,指的是不同客户的业务差异;纵向差异,指的是单个客户的业务迭代差异。如果针对场景定制芯片会导致架构碎片化,并且芯片的迭代完全跟不上软件的迭代节奏。
大芯片研发成本越来越高。数以亿计,甚至十亿计,的研发成本,需要芯片的大规模落地来摊薄。
芯片大规模落地困境。宏观算力需要规模化的计算集群,高昂的研发成本需要规模化来摊薄研发成本。但各种性能优化的专用定制方案通用性低,覆盖场景少,难以实现大规模部署。
生态建设的门槛。大芯片需要框架和生态,门槛高且需要长期积累,小公司难以长期大量投入。即使构建了芯片生态,但生态私有,如何获得客户的广泛认可,也是非常大的挑战。
从客户视角看,不对特定厂家的硬件平台产生依赖。需要开放标准化的硬件和系统堆栈。
从客户视角看,存在宏观计算平台融合的挑战。云网边端融合,软件可以跨大范围的硬件迁移;需要不同厂家硬件的开放标准化,构建统一的硬件平台和系统堆栈。
互联网公司自研芯片分析
云计算进入下半段,行业从粗犷式发展向精细化发展转型。需要深入到底层的软硬件,通过深层次的技术创新来驱动云计算变革。
传统的芯片公司,虽然有一些先进的底层技术,但距离客户场景较远。闭门造车,技术难以转换成“给客户带来更大价值”的产品;反而在一些方面,约束了客户的价值创新。这使得互联网公司不得不“自己动手,丰衣足食”。互联网公司做芯片,具有如下一些优势:
首先,是距离最终客户近。更能把握客户的需求,更贴近客户的场景。
其次,是互联网公司做的事情更宏观更系统。云计算、人工智能、大数据、物联网、元宇宙等热点方向,都是互联网公司主导的技术发展潮流,互联网公司站在宏观层次,更能深刻体会到自身对底层软硬件的各种“特殊”要求。
最后,则是资源优势。互联网公司具有资源整合的优势,并且在整合客户需求、市场开发方面远比芯片公司有优势。
互联网公司做芯片的劣势,体现在:
首先,是技术积累不足。互联网公司自研芯片还在早期阶段,很多方面的优化还比较浅层;要想深入到技术底层,全面而系统地重构整个数据中心技术栈,挑战巨大。
其次,芯片不是互联网公司的主业。一旦遇到“风吹草动”,很可能最先被砍掉的就是芯片这种“只出不进”的部门。或者说,互联网公司对芯片难以长期坚守,难以积累芯片方面的核心竞争力。
再次,规模劣势。虽然互联网巨头每年的芯片消耗量非常大,但毕竟是单个客户。大芯片整个链条资金消耗量巨大,需要更多客户的更大的销售量来摊薄成本。单个客户的芯片消耗量,仍不足以让算力芯片进入高质量良性发展状态。
最后,供应商绑定风险。自研芯片供给自己,几乎是绝对的供应商绑定。自成一套体系的技术演进,会约束自身技术的发展。如果出现技术选型偏差,或芯片质量问题,会拖累上层业务,引起连锁问题。
术业有专攻,喝牛奶一定要自己养牛吗?
互联网公司的本质诉求
前面我们就分析过:互联网公司本质上并不是想大包大揽,“吃独食”;反而是芯片公司的产品无法满足这些客户的需要,逼迫着客户不得不自研。这里,我们对互联网公司自研芯片的本质诉求进行分析,希望独立芯片公司能够重视这些诉求,做出让客户真正满意的产品。 这里简单分析一下互联网公司的一些,隐藏在许多表面诉求背后的,更加真实的本质诉求(抛砖引玉):
首先,最核心的必然是更高的性能/成本比。性价比是永恒的话题,都希望最低廉的成本下提供最高的性能价值。
其次是,差异化。互联网公司需要有足够理想的硬件平台,支撑差异化的功能和价值,给到自己的客户。
再次,硬件可迭代。软件迭代很快,为了增加硬件设备的生命周期(也是一种降成本的手段),则需要硬件能够支持软件服务的长期迭代。
再再次,快速业务创新。互联网公司自己的产品和服务是自身的核心竞争力,互联网公司需要的是能够自己“掌控一切”的开发平台,来实现业务创新,来增强自身的核心竞争力。
最后则是,无平台依赖。平台依赖某种程度上是一种“垄断”。互联网公司,通常也是“巨头”,有非常大的产业链“话语权”,肯定不希望被绑定在某个特定的平台上。这样不仅会降低自己的“话语权”,还存在巨大的技术风险。
这里我们假设一个理想情况:如果存在通用的芯片方案,能够满足上述这些需求,客户不会产生平台依赖,不对客户自身业务的核心竞争力构成威胁,并且功能更加强大,性能更加强劲,价格更具有显著优势。那么请问,互联网公司还需要芯片自研吗?或者更直白的说,互联网公司,愿意吃力不讨好,通过自研芯片增加自己的成本、降低自己的竞争力吗?反过来说,芯片公司需要更多的本质创新。
芯片研发模式分析
芯片研发通常有三种模式:
模式一,传统模式,硬件定义软件:
问题一,芯片公司私有的架构和平台,构建生态门槛很高,客户存在平台依赖。
问题二,定制的解决方案,难以覆盖所有客户的要求。
问题三,客户需要修改自身的业务逻辑,迁移的成本和风险很高。
硬件定义软件,是架构孤岛、生态孤岛、算力孤岛;并且因为供应商依赖的原因,对客户不友好。
模式二,客户友好模式,软件定义硬件:
芯片公司提供设计服务,为客户定制。客户自研也属于客户定制的范畴,因为内部客户也是客户。
优势在于:能够拿到详细的客户需求,了解场景痛点;还有就是早期种子客户的支持,是产品成功的关键。
问题一,客户的需求,不一定是“真正”的需求,真正的需求需要自己深度洞察。
问题二,需求的横向和纵向差异问题并未解决。首先,即使大客户内部,不同的团队之间的需求也存在较大差异;其次,需求的快速迭代如何满足?
模式三:开放模式,软硬件相互定义。开放标准的平台架构/接口:
通过通用标准化的平台,实现业务和平台解耦。
通用的设计,实现客户软件定义一切,平台硬件加速一切。
通过本质的系统架构创新,实现:数量级性能提升;覆盖更多场景及迭代;不改变业务逻辑,实现业务平滑迁移;兼容已有生态;没有平台依赖;学习和使用的低门槛。
哪种模式更好?仁者见仁,智者见智。
芯片公司需要进化成互联网公司
量变会引起质变。但与此同时,很难发现质变从何时开始,很难把握质变发展的整个过程。
芯片公司的组织和研发模式,在逐渐地进入新的质变,如表格所示:
小规模芯片阶段。最重要的是芯片的研发。这一时期,芯片公司就是纯粹的芯片公司,通常硬件和软件开发人员比例在1:1左右。
大规模芯片阶段。量变引起了质变,各类处理器芯片越做越大,则进入软件型芯片公司的时代。2008年,黄仁勋率先喊出NVIDIA是一家软件公司。然后把更多的资源给了CUDA框架,而不是GPU芯片。所以才成就了现在NVIDIA的伟大。这一时期,硬件和软件人员的比例在1:5左右。
超大规模芯片阶段。现在的发展趋势,单机计算越来越少,分布式集群计算成为主流,甚至走向跨集群计算。芯片很重要,开发框架更重要。但即使开发框架重要,也仅仅解决的是单机计算的问题,要想解决集群/跨集群计算的问题,计算平台解决方案则更更重要。我们认为,这一时期的芯片公司,需要做到比客户更懂客户,将成为典型的互联网型的芯片公司,其硬件软件人员比例将达到1:10左右。
计算规模的量变,需要架构创新的质变:
只懂软件,难以驾驭复杂的芯片设计,无法深入,难以整合;
只懂硬件,堆叠的性能再好,客户难以驾驭,场景覆盖小,生命周期短,芯片无法大规模落地,成本高昂,风险极高;
唯有软硬件深度融合,比客户更懂客户,才是正确的发展道路。
更深层次的开放合作
行业和技术都在巨变:云计算、边缘计算出现后,系统的规模数量级膨胀。也因此,互联网公司的业务场景非常复杂,具有很多超出个体硬件的高级特征。能深刻理解这些系统需求的莫过于互联网公司,而芯片公司对系统的把握,有些不足。虽然如此,但这个视角仍然是局部的、相对微观的。人类发展,从“男耕女织”到“手工作坊”,再到流水线的“工业化大生产”,再到现在的“全球化大分工”。从更宏观、更长期以及发展的视角看,全球产业是国际化大分工的,每个地区每个公司每个人,都在做自己最擅长的事情。(企业的能力边界:一个公司之所以只做自己擅长的事情,不是不愿意拓展到其他相关甚至不相关的领域,而是能力有边界,“鞭长莫及”。)
随着时间推移,很多技术会沉淀,云计算底层技术也不例外。开放合作,更加科学精细的分工,才能构建健康而宏大的行业生态。底层的芯片公司,也需要不断地自我革新,才能真正帮助客户,成就客户,同时也成就自己。