基于所创建的 RTL 系统的功耗优化已经投入了大量精力,但这只代表了可能节省的功率和能源的一小部分。该行业转向更密集系统的愿望受到热量的限制,因此人们越来越关注重新架构系统以减少执行每个有用功能所消耗的能源。
取得重大进展需要打破孤岛。在许多情况下,它需要硬件和软件、数字和模拟、或半导体架构师和封装等团队共同创建解决方案。没有一个团队可以完成所有工作,但一个团队肯定有可能毁掉其他团队所做的所有工作。
英特尔客户端 SoC 架构研究员兼设计工程组首席技术官 Jeff Wilcox 表示:“功耗一直是并将继续成为主要限制因素。” “幸运的是,我们每年都能够再剥离一层并取得长足进步。热密度仍然是一个挑战,并导致越来越多的布局限制,特别是对于 CPU 和热密度较高的区域。我们在热点热问题和持续热问题方面都受到限制。”
在寻找新的封装解决方案时,挑战变得更加严峻。
“摩尔定律正在放缓,性能和功耗不再通过转移到下一个技术节点而自动提高,”Synopsys 虚拟原型首席工程师 Tim Kogel表示。“为了让多芯片系统成为继续扩展的灵丹妙药,小芯片的功耗需要在架构层面得到更多关注。由于封装内芯片的几何依赖性,不可能通过增加芯片面积和/或添加更多电源通孔来轻松“解决”功率密度问题。多芯片系统的电力传输网络必须预先规划,并且所有组件都需要遵守规范。”
它不再是后端优化任务。
“焦点已经从低功耗转向能源效率,”Synopsys EDA 集团产品管理总监 William Ruby 说道。“你可能会考虑这样的问题:‘我们是一直以特定的时钟频率运行,还是运行得更快然后停止?’ 虽然总平均功耗可能相似,但能耗却不同。这就是它的真正来源,并且它是由不同的应用程序驱动的。每瓦性能在数据中心应用中绝对至关重要。”
能源需要设计。
“两种不同的架构可以具有相同的能源足迹,但具有不同的功率配置,”西门子 EDA首席产品经理 Qazi Ahmed 说道。“高性能、小面积架构将具有高持续功耗的功率包络,这可能会导致下游的热问题。能耗是数据表上的一项重要规格。任何优化功率的方法都必须提高整体能源效率。只有当所有所做的功都是有用的时,理论上的能量消耗才有可能。实际上,必须确保消耗的能量与完成的工作量成线性比例。从空闲情况到峰值情况的不同场景的能源比例图可以揭示需要关注的低功率效率区域。”
这需要您更多地了解系统将如何使用。
“功耗不能在真空中定义,”Synopsys 的 Ruby 说道。“你必须说,这是我们的电源规格。这是我们在该设备最终将运行的工作负载或应用程序上下文中的功率目标。你可能有不同的目标和不同的工作量,开发团队中的每个人都必须朝着这些目标努力。”
当目标应用程序未知时,这会变得更加困难。英特尔的 Wilcox 表示:“感觉每次我们都会碰壁,但不知怎的,我们确实设法突破了它——也许可以通过将 N-1 节点用于 GPU 之类的东西,这样你就可以获得更好的能效。”
“通过更广泛的应用,我们可以利用晶圆价格稍便宜的旧工艺节省一些成本,并设计更大的 GPU。然后我们可以以更低的电压和更慢的速度运行它,运行一台宽大的机器,而不是一台狭窄的高压高频机器。没有一个规则。它通常基于目前的限制。”
有时必要的解决方案截然不同。Mythic 首席执行官戴夫·菲克 (Dave Fick) 表示:“在追求节能计算的过程中,人们的注意力正在转向模拟计算。” “模拟计算因其卓越的信息密度而脱颖而出,这大大减少了对晶体管和电线的需求。该技术可以用减少 10 到 100 倍的组件来实现计算功能。因此,它可以显着降低能耗、延迟和成本。关键是要确定‘模糊’处理与系统性能需求相一致的场景。”
存储器
将数据从一种形式的存储器传输到另一种形式的存储器不执行有用的结束功能。将信息和计算结合在一起是一种不可避免的罪恶。几十年来,这两个要素之间一直存在性能和功耗墙,业界现在正在更深入地研究如何最大限度地减少甚至更好地消除这种情况。
减少浪费的电力变得至关重要。英特尔数据中心部门高级研究员 Sailesh Kottapalli 表示:“在计算方面应用了许多微架构技巧来降低计算实现能力。” “这已经取得了很大进展。但是,如果您在执行某些指令时进行功率分析,那么能量消耗在哪里?数据移动,无论是来自缓存还是来自内存,都是其中的较大部分。减少数据传输能量是电源效率的下一个前沿领域。2.5D 和 3D 的一大优势就是试图减少这部分能量。”
该行业必须更加明智地最大限度地减少数据移动。Untether AI 硬件副总裁夏仁新表示:“数据传输的能源成本超过了计算的能源成本。” “以前确实如此,但随着大型语言模型的出现,它变得更加严重。从我们的内部分析中,我们看到模型的大小和所需的计算之间的比率正在增加,但规模不同。移动数据和节能的能力变得更加重要。此前有报道称,大约 90% 的能量都花在了数据传输上,而不是计算上。未来只会变得更加极端。”
一些不必要的数据移动是由于孤岛造成的。“传统上,我们在 GPU 和 CPU 内存之间进行隔离,”Wilcox 说。“他们没有共享相同的记忆位置。这意味着您必须在同一物理内存系统中复制到同一系统中的另一个区域,以便 GPU 可以处理它。这是非常浪费的。我们正在与微软合作实现共享虚拟内存等技术,我们可以绕过其中的一些技术并允许他们传递指针。然后他们可以直接对内存进行操作,而不是移动它。过去插入隔断工作的一些刚性结构会带来越来越大的惩罚,我们必须打破这些东西。”
人工智能正在考虑新的记忆组织。“随着人工智能模型变得越来越大,不可能将所有东西都安装在芯片上或本地,因此你必须将东西换入换出,”Untether 的 Xia 说。“然后你会尝试更智能地处理数据移动。您优化移动的距离,尝试构建网络或芯片上的网络,将数据移动到其最近的邻居以进行神经网络中层的操作,并尝试最小化数据移动。即使会有一些交换,只要减少交换量,并减少它穿过芯片的距离就会有所帮助。”
近内存计算是多家公司正在使用的一项技术。Arteris产品管理和战略营销高级总监 Guillaume Boillet 表示:“面对传统半导体缩放带来的回报递减,为了实现大幅节能,可能需要重新架构设计。” “这种重新架构可以包括从一刀切的处理器设计转向包含专用处理单元组合的系统,并通过采用近内存或例如,内存计算可以降低数据移动的能源成本。”
在某些情况下,计算可以在内存中完成,完全消除了向处理器的移动。“内存中的模拟计算是如何在模拟计算中高效执行大量运算(例如点积)的一个例子,”Mythic 的 Fick 说道。“还有许多其他机会可以将计算添加到数据路径中,以实现更密集、更快、更高效的计算。未来几年看到各种类型的模拟计算将会令人兴奋。”
后端减少
虽然有人说大多数大型优化都是在系统级别进行的,但仍然可以进行更多后端减少。“工艺节点通常为我们提供较低的电压,”Wilcox 说。“虽然我们没有获得我们已经习惯的一些扩展优势,但每个工艺节点的功耗仍然在缩减。当我们努力降低 V min和 V max电压时,我们已经从中受益。我们能够继续保持这种动力性能趋势。”
系统需要继续扩展。“使用二维硅,只能容纳这么多的内存和计算,”夏说。“大多数公司确实有横向扩展策略,例如一块板上有多个芯片、一个系统中有多个板、一个机架中有多个系统。最终您应该能够以二维方式拟合所有模型。另一种方法是垂直发展。通过垂直发展,跨越不同的芯片,我们可以使用不同的内存技术。我们可以利用 DRAM 等更密集的内存技术。这将使我们的记忆密度至少提高一个数量级。”
转向 3D 还有其他优势。Arm高级首席 CPU 架构师 Vincent Risson 表示:“最近出现了从单片 2D 集成设计转向分解设计的转变,这些设计映射到来自异构制造工艺的多个芯片,并使用先进的 2.5D/3D 封装进行集成。” “这使得能够在对能源效率最重要的领域有针对性地使用最新的工艺节点。先进的 3D 集成提供了通过提供更大的本地缓存或采用新的颠覆性内存技术来改变内存层次结构的机会,同时仍然保持低访问延迟并降低下游功耗。例如,在当今的云计算中,我们看到的许多挑战都与计算密度有关。先进的 3D 集成不仅解决了标线限制,还通过为 SoC 网络架构提供额外的垂直维度来实现并行性。”
距离是关键。“互连本质上为芯片提供了电容负载,并且该电容需要在信号转换时充电和放电,”Synopsys 的 Ruby 说道。“动态功率的公式是电容乘以电压平方乘以活动。当互连线变短时,电容就会减少,就像 3D 集成一样。您可以使用 Activity 并仅在需要时发送数据。还有电压。在低压差分信号 (LVDS) 领域有一些工作,其中信号不会在芯片之间全面摆动,但它们本质上更接近模拟。电压摆幅减小,因此与电容充电和放电相关的功耗也降低。”
垂直堆叠可以提供显著的优势。“在 3D 垂直堆叠方案中,我们的芯片之间有大量垂直连接,而不是所有东西都从受周边限制的一侧出去,”Xia 说。“我们可以在芯片之间封装更密集的垂直互连。然后,由于距离很近,由于芯片彼此堆叠在一起,因此根据物理定律,您可以在每比特的皮焦耳基础上获得更好的能源效率。”
但这确实是有代价的。“芯片堆叠可能是一个真正的挑战,具体取决于您放置的内容,”Wilcox 说。“你在热源和散热器之间放置了更多的阻抗。与分解相关的一些电源问题对我们有帮助,我们可以将不需要的区域置于更高性能的流程中。我们可以将它们移至较旧的节点并利用这一点,但我们确实必须处理所产生的新问题。”
虽然使用新节点会有所帮助,但这会产生额外的问题。“新节点可能会提供传统意义上降低的功率特性,但它们也会增加额外的开销,例如毛刺功率,”西门子的Ahmed说。“较低技术节点的网络延迟与门延迟的分布会因故障而导致不可预见的动态功率。这些可能高达 40%。为人工智能加速器开发计算密集型逻辑的设计公司需要升级其现有的功耗方法,以确保考虑到故障功率以及缓解故障的方法。”
创造力仍然很重要。“电力输送就是一个很好的例子,”Wilcox说。“你对瞬态的适应能力越强,那么你就不必将它们纳入你的电压裕度中。这些在功率方面确实非常昂贵。能够找到方法来适应电流峰值的不确定性,这可能会导致电压降到低于正常工作的水平,这意味着您不必保持更高的电压来适应这种情况。这些类型的技术非常重要。它们可以像其他一些性感的大特征一样具有影响力。”
诸如此类的技术只有通过进行详细分析才能成为可能。“您可以实施芯片级电源技术,例如动态电压和频率缩放或电源关闭,”Ruby 说。“所有这些事情都需要考虑、分析和评估,权衡利弊。如果关闭一个块,它不太可能在单个时钟周期内唤醒。您需要给它时间来唤醒和初始化。与此同时,系统可能会等待这种情况发生。对性能也有影响。”
虽然最大的收益可能是在系统级别获得的,但在技术级别仍然有许多优化可用。没有工具可以告诉您执行特定功能所需的理论最小功率,但这并不意味着没有足够的改进机会。其中一些可能需要创造性思维才能找到它们,而其他技术进步则可以实现系统级改进。