三星要掀内存革命

类别:业界动态  出处:网络整理  发布于:2023-12-20 10:52:25 | 495 次阅读

  我们记得当内存容量不足时,带宽会受到限制,从而导致数据传输的延迟增加,从而导致系统更加努力地工作,从而增加功耗和这会增加总拥有成本 (TCO)。
  三星为这个问题提供了一个他们称之为“近内存解决方案”(Near Memory Solutions)的解决方案。这一价值主张正在为内存容量革命奠定基础。人工智能应用程序看到越来越多的深度学习算法是由生成预训练 Transformer (GPT) 的大型语言模型处理驱动的。随着数据呈指数级增长,内存的传统作用正在从数据存储扩展到内存中处理,因此内存的能力现在正在卸载 CPU 和 GPU 的一些处理任务。简而言之,现在是内存解决方案与 CPU 和 GPU 分担数据处理工作负载的时候了。
  在早前的内存技术日 (MTD) 上,三星展示了设备内存存储和内存本身加速器领域的多项技术进步。这些设备旨在跟上人工智能不断进步的步伐,以及用于训练大型语言模型 (LLM) 的数十亿(很快将达数万亿)GPT 参数。
  三星电子公司副总裁兼新业务规划主管 JangSeok (JS) Choi 首先介绍了内存产品组合,并解释了新内存层次结构的愿景。他的立场是,加速内存处理是跟上LLM士系统处理速度的关键。JS 补充说,业界不仅在努力跟上机器学习的步伐,而且现在还必须解决人工智能模型推理的问题。简单来说,机器学习模型训练完成后,模型推理会自动将学到的知识应用于新的数据点,以对新数据进行预测。这也需要额外的内存容量、执行力和精度。
  这些产品组合中的第一个是低功耗、高带宽、扩展粒度 (LHM:low-power, high-bandwidth, extended granularity ) 解决方案。LHM 是一种专注于低功耗、高带宽的 DRAM,具有在芯片逻辑芯片顶部进行 3D 堆叠的能力。此外,该产品组合中还有高带宽内存 (HBM) DRAM,目前以“Icebolt”(HBM3) 的形式向客户提供。该存储设备可以堆叠并提供带宽的存储,同时使用非常低的功耗。这是一款 AI 加速器,可堆叠 12 层 10nm 级 16Gb DRAM 芯片,内存达 24GB。JS 表示,这是一种将带来改变的人工智能推理解决方案。
  引入了内存中处理(PIM:process-in-memory) 和近内存处理 (PNM:process-near-memory ) 等技术。HBM-PIM 和 CXL-PNM 等解决方案已作为概念验证而开发,这使数据传输和处理更接近内存,因此 DRAM 在处理大型 AI 模型时不会出现瓶颈。
  此外,该产品组合还开发了旨在加速 CPU 性能的 Compute Express Link (CXL) 协议。CXL DRAM (CMM-D)、CXL-PNM (CMM-DC)、内存语义 SSD (CMM-H) 和智能 SSD + CXL I/F、计算 (CMM-HC) 都是 CXL 内存扩展和计算解决方案这是记忆实验室预测的。JS 预计,到 2026 年,对 CXL 价值部分的需求将激增。
  在演讲中,JS 多次强调,克服人工智能时代内存问题的整体成功将通过与技术领域的其他公司合作来实现。在 Mem 技术日期间,这些公司的代表介绍了与 Meta、Memverge 和 SAP HANA 的合作伙伴关系。
  散心副总裁 Walter Jun 详细介绍了正在为 CMM 产品线开发的技术,并概述了为什么 CMM 对三星来说是一个重要机会。CXL 的关键功能包括开放标准接口、使用 PCIe 5.0 基础设施的轻松采用以及可独立应用于处理大数据模型的扩展内存容量和增加的带宽。
  三星副总裁兼内存解决方案实验室负责人 Sungwook Ryu 受邀上台介绍内存解决方案实验室正在研究的内存和 SSD 开发成果。正在开发的两个值得注意的解决方案是:1) 无源存储设备以提高整体系统性能;2) 将无源存储设备转变为更加有源的设备。这些解决方案中采用了各种协议和接口,包括 DDR、CXL 和 NVMe。
  内存解决方案实验室副总裁 Yangseok Ki 与 Sungwook 一起参加了本次演讲。Yangseok 介绍了 CXL 内存模块 – 混合 (CMM-H) 架构、优点和性能。解释了 CMM-H 模块的概述,并强调了这项技术开发的重要性。
  三星公司副总裁 Walter Jun 详细介绍了正在为 CMM 产品线开发的技术,并概述了为什么 CMM 对三星来说是一个重要机会。CXL 的关键功能包括开放标准接口、使用 PCIe 5.0 基础设施的轻松采用以及可独立应用于处理大数据模型的扩展内存容量和增加的带宽。
  从三星路线图看DRAM发展新动向
  随着人工智能和元宇宙等对于高性能计算有强烈需求的应用逐渐成为半导体行业的新市场驱动,内存的性能发展也成了这些应用的重要支撑,这也成为内存行业继续大力投入新技术发展的重要动力。
  在这些高性能计算系统中,内存带宽和容量将决定计算性能(例如人工智能算法中需要的大容量神经网络模型计算,以及元宇宙应用中的高性能渲染技术),这也就是高性能计算领域人们常常提及的“内存墙”。在许多高性能计算应用中,事实上逻辑计算并非整个系统的瓶颈,而数据存取才是整个系统速度的决定性因素。一方面,内存芯片技术需要进一步提升带宽和容量,而另一方面则需要在设计整体系统时,确保有高效的内存存取机制,从而打破内存墙的限制,进一步提升高性能计算的性能。
  上周,三星召开了2022年技术发布会(Tech Day 2022),其中发布了三星在未来几年内的内存技术发展路线图。从中,我们认为其对于内存发展的主题围绕着“更快,更大,更智能”几个方向,这也与前面所讨论的高性能计算对于内存的需求相吻合。由于三星是内存芯片领域的,我们认为它公布的路线图将会很大程度上反映整体内存芯片行业的发展动向。
  内存接口决定了整体系统可以以多快的速度存取内存里面的数据,因此也是决定了整体系统性能的重要因素。随着新一代内存接口的问世,高性能计算系统的性能也可望得到进一步提升。
  在三星公布的内存接口路线图中,我们可以看到涵盖不同领域的内存接口演进的速度。首先,在云端高性能服务器领域,HBM已经成为了高端GPU的标配,这也是三星在重点投资的领域之一。HBM的特点是使用封装技术,使用多层堆叠实现超高IO接口宽度,同时配合较高速的接口传输速率,从而实现高能效比的超高带宽。
  在三星发布的路线图中,2022年HBM3技术已经量产,其单芯片接口宽度可达1024 bit,接口传输速率可达6.4 Gbps,相比上一代提升1.8倍,从而实现单芯片接口带宽819 GB/s,如果使用6层堆叠可以实现4.8 TB/s的总带宽。而在三星公布的路线图上,2024年预计将实现接口速度高达7.2 Gbps的HBM3p,从而将数据传输率相比这一代进一步提升10%,从而将堆叠的总带宽提升到5 TB/s以上。另外,这里的计算还没有考虑到封装技术带来的高多层堆叠和内存宽度提升,我们预计到时候单芯片和堆叠芯片到2024年HBM3p都将实现更多的总带宽提升。而这也将会成为人工智能应用的重要推动力,我们预计在2025年之后的新一代云端旗舰GPU中看到HBM3p的使用,从而进一步加强云端人工智能的算力。
  除了HBM之外,在桌面和移动应用中,渲染也正在成为元宇宙相关应用的重要支柱。例如,在虚拟现实应用中,为了实现沉浸感,对于图像渲染的需求越来越强。高端虚拟现实设备会使用桌面级GPU做渲染,并且将渲染的图像通过串流传回虚拟现实设备中,而目前的虚拟现实一体机则会需要使用移动级GPU在一体机中直接做图像渲染。这些应用都需要越来越大的显存带宽,而三星这次发布的GDDR7(针对桌面级应用)和LPDDR5X(针对移动级应用)都是针对这些应用的重要技术支柱。其中LPDDR5X的IO数据率可达8.5 Gbps,比之前LPDDR5(6.4 Gbps)提升30%,而GDDR7的IO速率可达36 Gbps,是之前GDDR6的两倍。
  总体来说,这次三星从内存接口角度公布的路线图显示了从“更快”的角度,三星将进一步成为内存业界的领跑者之一,从而为半导体行业的进一步赋能人工智能和元宇宙等下一代应用提供支持。
  更大:芯片和系统级创新将成为更大内存系统的关键
  随着人工智能技术的演进,神经网络模型的参数也在越来越多(今年已经全面走向十亿级参数规模,未来几年预期将进一步实现数量级上的提升),而计算中需要使用的中间结果存储需求也对DRAM的容量提出新的需求。
  为了满足这样对于存储容量的需求,我们同时需要芯片级和系统级的解决方案。在芯片层面,三星给出的答案是新一代使用1b(12 nm)特征尺寸生产的DRAM,从而实现更大的集成度。三星宣布1b DRAM将会在2023年量产,这也意味着三星在DRAM领域进一步巩固自己领先的地位。
  除了芯片级方案之外,系统级方案也是增加内存容量的重要方向。例如,在云端服务器市场,使用CXL技术做内存扩展就是一个很有潜力的方向。使用CXL做内存扩展的原理是把大量DRAM芯片集成在同一张内存扩展卡里,然后使用CXL主控芯片使用CXL协议接入高速接口中(PCIe),从而可以供系统直接使用,而无需占用DRAM插槽和接口,以起到内存容量扩展的作用。
  今年早些时候,三星公布了自己基于CXL内存扩展技术的结果,其中使用了为了CXL专门开发的ASIC主控芯片,并且在机器学习等重要应用中取得了和使用传统DDR内存接口几乎一样的性能,从而表明使用CXL做DRAM容量扩展从性能而言将是一个可行的技术方案,目前主要需要解决的是成本方面的考量,从而让该技术进一步得到应用。
  三星这次也公布了自己在CXL领域的持续投资,未来我们预计将看到更多CXL内存扩展方面的产品。我们预计,CXL首先会在对于内存容量有巨大需求且对于性能有强烈需求的应用中(例如超大规模神经网络模型)开始得到使用,并且在未来越来越多地扩展到其他应用中去。
  更智能:存内计算可望成为下一代内存新范式
  除了在更大和更快两方面有提升之外,三星另一个布局方向是智能化DRAM,即针对机器学习和人工智能等应用使用存内计算和近内存计算这样的新技术。
  三星主要的存内计算技术称为HBM-PIM,其中PIM即存内计算(process in memory)的缩写。其具体原理是在HBM内存中直接集成计算单元。传统的计算过程中,首先会从内存中读出数据,然后在其他芯片中的计算单元中做计算,然后把结果写回内存。而在HBM-PIM中,三星的技术路径是在给DRAM的指令不仅仅是读取和写入,也可以直接是计算,例如可以给“写入数据A同时将该数据和B相加”,这样在下次读出时,直接就得到已经计算过的数据,而无需再次读出并做计算。这样就节省了大量额外的数据移动开销,能实现更好的延迟和能效比。目前,三星已经在HBM2的DRAM中完成了第一代HBM-PIM的开发(Aquabolt),而在三星公布的路线图中,我们也看到了HBM3-PIM列上了日程,预计在2024年完成开发。
  除了存内计算之外,另一种技术方案是在DRAM旁边直接集成加速器逻辑以降低访问内存的开销,这样的技术三星称为AXDIMM(accelerator DIMM),在三星公布的路线图上预计2024-2025年完成开发。
  我们认为,三星在智能化DRAM方面的布局从长远来看将会对内存技术和市场格局有深远影响,未来随着机器学习等应用对于内存访问提出进一步需求,我们认为这样的技术将有机会获得主流系统厂商越来越多的应用。
  结语
  随着人工智能等应用的演进,DRAM的未来发展也正在向赋能这类下一代应用的方向靠拢。从三星公布的路线图来看,未来的DRAM技术发展除了进一步提升DRAM芯片的容量和接口速度之外,还有在系统层面的革新方向(包括CXL内存扩展以及存内计算/近内存计算等智能化DRAM),DRAM技术的演进将会带给芯片和系统厂商越来越多的技术创新机会,而这些创新将会进一步推动新应用和新场景的出现,从而让整个领域进一步发展。
关键词:三星内存

全年征稿 / 资讯合作

稿件以电子文档的形式交稿,欢迎大家砸稿过来哦!

联系邮箱:3342987809@qq.com

版权与免责声明

凡本网注明“出处:维库电子市场网”的所有作品,版权均属于维库电子市场网,转载请必须注明维库电子市场网,https://www.dzsc.com,违反者本网将追究相关法律责任。

本网转载并注明自其它出处的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品出处,并自负版权等法律责任。

如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。

热点排行

广告