芯片行业正在向 3D-IC 方向快速发展,但事实证明,一个更简单的步骤可以提供相当于整个节点进步的增益——提取分布式存储器并将其放置在逻辑之上(extracting distributed memories and placing them on top of logic)。
逻辑上的存储器显著缩短了逻辑与直接关联的存储器之间的距离。根据一项研究计划,这可以将性能提高 22%,并将功耗降低 36%。但需要解决一些问题才能使其成为一个简单的解决方案。
逻辑上的记忆有两种版本,它们已经变得相当普遍,并作为商业世界中的概念证明。HBM将 DRAM 堆叠在一个小型逻辑芯片上,该逻辑芯片通过中介层连接到主系统。第二个应用程序将大型 L3 缓存直接放置在处理器顶部。虽然这使内存更接近处理器,但它没有利用两个芯片之间巨大的互连潜力。
真正的机会是当大量分布式存储器从主逻辑芯片中移出并直接放置在与其相关的逻辑之上时。这是真正的 3D 集成,但它并不具有与跨多个堆叠芯片分配逻辑相关的所有复杂性。
“从技术上讲,HBM 是逻辑上的内存”,西门子 EDA的 Tessent 部门经理 Joe Reynick 说道。“你有基础芯片,然后是其上的 DRAM 堆栈。但采用 SoC,从该 SoC 中移除存储器,并使用由纯存储器组成的第二个芯片,这是一个很大的进步。我们正在通过铜柱、TSV 或任何从一个芯片到另一个芯片的技术进行连接,这带来了一系列新的问题和优势。”
Fraunhofer IIS 自适应系统工程部高效电子部门负责人 Andy Heinig对此表示同意。“HBM 中的逻辑并不是真正的计算逻辑。它仅用于协调来自处理器并进入内存块的信号,反之亦然。目前逻辑上缓存的做法更多的是逻辑上实内存的方向。然而,在逻辑缓存的情况下,与并行方法相比,没有那么多架构变化。逻辑上的真实内存将在未来实现显着的性能提升,但前提是开发出新的架构。”
长期以来,处理能力一直受到内存带宽的限制,而且这种趋势并没有改善。“在某些时候,处理将受到总线带宽的限制,”西门子 EDA 定制 IC 验证部门的产品经理 Pradeep Thiagarajan 说道。“当数据速率更高时,这会受到更大的限制。您在接口上构建更复杂的调制方案来发送和接收它,并且必须保持这些各种互连的信号完整性 - 特别是当它上升到内存堆栈时。”
许多人认为,芯片中 50% 的面积被内存占用。Ansys产品营销总监 Marc Swinnen 表示:“研究还表明,如果 x,y 平面上的互连长度超过 100 微米,那么进入 z 平面会更便宜。” “任何接近 100 微米的值,保持在同一水平上都会更便宜。通过上升到 z 平面,你可以获得更短、更快的电气连接。”
许多正在开发的新架构都是由处理器阵列组成,每个处理器都有关联的内存。Untether AI 硬件副总裁 Renxin Xia 表示:“我们需要处理能力接近内存。” “如果你被限制在二维平面上,那么只有几种方法可以接近记忆。合乎逻辑的下一步是开始从三维角度看待问题。然后,您可以垂直集成或紧密集成到更多内存。”
但总有一些问题需要克服。Synopsys产品管理总监 Kenneth Larsen 表示:“已经有许多研究试图将 DRAM 置于逻辑之上。” “但是 DRAM 对温度非常敏感,需要调整刷新率。虽然软件中有多种方法可以解决这个问题,但很难不对性能产生影响。您需要考虑一些新的身体因素。这就是为什么我希望我们能够开始将讨论从组装(将事物粘在一起)转移开来,也许更多地讨论集成(事物可以一起开发)。”
良率是一个复杂的故事。 “对于装配,你有更多的连接,”西门子的 Reynick 说。“如果您要获取 100,000 个内存实例并将它们映射到小芯片,那么您就拥有了需要建立的所有数据、地址和控制连接。这可能会对产量产生影响。您可能需要考虑冗余连接。但另一方面是由于工艺复杂性降低而导致产量提高。如果你看一下成品率方程,就会发现有面积、缺陷密度,还有一个称为工艺复杂性的参数。工艺复杂性基本上是您使用的金属层的数量。如果您从设计中删除存储器,那么整体过程的复杂性就会降低。这对内存芯片和逻辑芯片的良率都有改善作用。”
不确定性成为一个更大的问题,特别是如果使用多个工艺或节点来制造每个芯片。“我们可以在芯片中植入一个 p 型环形振荡器和一个 n 型环形振荡器,”西门子的 Thiagarajan 说道。“在进行表征时,您可以看到每个设备的相对速度。在我们对其进行切割后,就完成了已知良好的芯片测试。然后,使用 OTP(性可编程)或电子熔丝,您可以识别每个特定部件,以确定它是否是慢-快、快-慢、典型-典型部件。客户可能会说,“我只想要慢速或快速的零件。”你必须小心,要有足够宽的窗口来容纳各种零件。”
将 SRAM 与逻辑分离的压力越来越大,因为它不再具有扩展性。“Vdd 的另一个限制是 SRAM Vmin,它为嵌入式 SRAM 的给定错误率设置了尽可能低的电源电压,”Atomera 技术官 Robert Mears 说道。“由于嵌入式 SRAM 通常是电压降低时失效的模块,因此 Vmin 通常设置电源电压。工艺技术可以降低变异性,提高 PMOS 可靠性,并增加驱动电流,从而将 Vmin 降低 100mV。”
不过,可能会面临一些新的热密度挑战。 Synopsys TCAD 产品组研究员 Victor Moroz 表示:“3nm finFET 技术的电路活动系数约为 1%。” “同时开关的晶体管数量不能超过 1%,因为它会过热并熔化。但如果你的芯片有一半是 SRAM,那么 SRAM 就非常懒惰了。其活性因子远小于1%。从整体角度来看,它几乎为零。如果移除 SRAM,您可能必须重新考虑逻辑中的活动因素。”
垂直发展还有其他好处。“通过垂直发展,跨越不同的芯片,我们可以使用不同的内存技术,”Untether 的 Xia 说。“我们可以利用 DRAM 等更密集的内存技术。我们不像逻辑芯片那样受限于 SRAM。这可以让我们的记忆密度提高一个数量级。”
Ansys 产品经理 Takeo Tomine 也指出热量是 ReRAM 的一个问题。 “通常,对于低于 7nm 的先进技术节点,器件尺寸会缩小,而电源电压 (Vdd) 保持恒定,从而导致更高的功率密度和更大的金属密度,从而产生更多热量。自热效应是影响ReRAM可靠性和准确性的关键因素。当热量被困在晶体管器件中时,自热变得严重。对于 ReRAM,温度变化会降低 R on /R off比率,这对许多应用(包括 AI 处理)的准确性和可靠性不利。必须进行仔细的热管理,特别是在不同设备之间功耗不均匀的设计中。然后,必须对产生的热量向附近层和设备的扩散进行建模,以捕获随时间变化的全芯片热图。”
热成为所有此类存储层的主要问题。
“通常,处理器位于底部,内存芯片位于其上方,”西门子 EDA 内 Simcenter 产品组合的电子与半导体行业总监 John Parry 说道。“但是内存芯片的温度限制比逻辑芯片低。通常,逻辑芯片的温度约为 120°C 或 125°C。这在一定程度上取决于制造工艺和所使用的技术,但高带宽内存的温度限制为 80°C。通常,您会通过内存芯片向上吸收热量。将内存置于处理器上方的问题在于,处理器必须通过本身受热的物体将热量传导出去。”
有些人考虑过翻转所有内容,使处理器位于顶部,内存位于底部。“您不仅需要处理芯片中的逻辑,还需要 I/O,”Reynick 说道。“I/O 必须与外部世界建立连接。基板上还有一种散热器,它通过 PCB 的球连接到该散热器,因此逻辑存储器更受欢迎,因为如果您想在底部放置 I/O 或存储器,您可能需要进行馈通(feed-throughs)。”
当你还考虑到电力时,它会变得更加昂贵。“TSV 价格昂贵、体积庞大,而且存在固有的良率问题,”Ansys 的 Swinnen 说道。“逻辑芯片可以与存储器对话,但逻辑芯片仍然需要以某种方式到达基板。信号和电源必须通过存储器到达芯片。如果您的芯片使用 100 瓦,那么通过内存传输的功率就很大。必须考虑诸如此类的平淡问题。在 z 方向上,每平方毫米有数千个微凸块,但它们非常小,互连密度比芯片本身低得多。z 方向每英寸的电线数量与 x 和 y 方向的电线数量不同。”
测试也成为一个更大的问题。“你必须创建新的测试台,其中包含来自多种工艺技术的电路部分,”Thiagarajan 说。“您必须考虑连接性,包括根据 S 参数提取通道或线路,然后将其连接到接收设计,这可能采用不同的工艺技术。您将拥有多个 PDK,其中包括各自工艺技术的变化,然后您可以一起对其进行模拟。您还需要在典型模拟器工具之上进行协同变化感知设计的能力。你必须在硅前考虑一个更大的子系统,以便在硬件出来后为测试做好准备。”
Reynick 指出,互连测试成为一个新问题。 “我们如何测试互连并验证它是否正常工作?我们仍然可以使用已知良好的芯片测试和晶圆探针来测试芯片本身。如果您使用的是 PHY,那么您需要进行环回测试,以便您可以一直到达焊盘并返回并验证测试是否正常工作。即使它是单向信号,我们仍然建议将它们设置为双向信号,以便您可以进行返回焊盘并返回芯片的内部循环。
我们仍然可以进行 SCAN。我们可能仍然需要牺牲焊盘。您的测试信号以及电源和接地采样需要传送到可探测的焊盘,因为没有可靠的探针卡可以满足 3D 微凸块间距的要求。您需要探针卡的标准间距,以便您可以进行测试。内存芯片上也需要一些测试逻辑。当你进行内存 BiST 时,我们在每个内存周围都有包装器。这些包装器需要位于内存芯片上,以便我们实际上可以对这些内存进行内存 BiST 测试。”