AMD的AI芯片战略

类别:业界动态  出处:网络整理  发布于:2024-04-10 11:32:33 | 361 次阅读

  如果说 AMD 的故事就像过山车一样,那是轻描淡写了。因为2014 年的 AMD 和 2024 年的 AMD 之间存在着巨大的反差。十年前的 AMD 举步维艰,而今天的 AMD 正在复苏,关键的是,他们已经成为了许多市场的参与者。
  与该领域的许多其他参与者一样,人工智能是主要关注点,该公司在内部建立了专门的人工智能团队,以涵盖快速发展的人工智能市场的完整端到端战略。
  近几周,AMD 执行官苏姿丰 (Lisa Su) 和计算与图形部门副总裁/总经理 Jack Huynh 均回答了行业分析师提出的有关 AMD 人工智能硬件战略的性质以及如何看待其产品组合的问题,我们来将其综合以下。
  AMD 的 AI 硬件战略分为三个方面:
  个是 AMD 的 Instinct 系列数据中心 GPU,以 MI300 系列的形式零售。
  MI300X 有两种变体,专注于 AI - 它已成功获得 Microsoft 和 Azure 等大型云厂商以及TensorWave 等一些较小的以 AI 为中心的云的采用。
  在的财报电话会议上,Lisa Su 评论称,对这些芯片的需求不断扩大,到 2024 年底,收入将从 20 亿美元增加到 35 亿美元。在发布会上,AMD 将自己与 NVIDIA 的 H100 进行了比较,标志着八芯片系统在 ML 训练中相同,但在 ML 推理中更好。
  该系列的另一个变体是 MI300A,提供类似的规格,但是 CPU/GPU 组合,面向高性能计算。它已被采用到计划中的的全球超级计算机 El Captian 中,该计算机将使用机器学习模型来协助保护美国核储备。
  在谈到 MI300 的采用时,Lisa 表示:
  “我们感到惊喜,很高兴看到 MI300 的发展势头,以及这种势头的来源。大型云[客户]通常移动速度快——从工作负载[到工作负载]。LLM 非常适合 MI300 - 我们的内存容量和内存带宽[处于市场领先]。人工智能是主要的工作负载。[我们]拥有相当广泛的客户群,他们有不同的需求 - 有些是训练,有些是微调,有些是混合的。当我们从客户开始时,[但是]从模式中失去了信心。[我们在软件环境方面也花费了]大量工作。新客户[发现]更容易达到他们的性能期望,因为 ROCm(AMD 的软件堆栈)正在变得成熟。[我们] [MI300] 的工作负载是大型语言模型。”
  还应该指出的是,AMD 近宣布正在将其芯片间通信协议(称为 Infinity Fabric)扩展到 Arista、Broadcom 和 Cisco 等特定网络合作伙伴。我们希望这些公司能够构建 Infinity Fabric 交换机,使 MI300 能够在单一系统之外实现芯片间通信。
  AMD 战略的第二个方面是他们的客户端 GPU 系列。
  这包括 AMD 的 Radeon 独立显卡 (GPU) 及其 APU,后者由集成到客户端 CPU 上的 GPU 组成,主要用于笔记本电脑。AMD 人工智能战略的个和第二个方面都依赖于他们的计算堆栈,称为 ROCm,它是 AMD 与 NVIDIA CUDA 堆栈的竞争对手。
  关于 ROCm(即使是版本)的长期抱怨是企业和消费类硬件之间的支持不一致 - 只有 AMD 的 Instinct GPU 能够正确支持 ROCm 及其相关库并选择独立 GPU,而 CUDA 几乎可以在所有 NVIDIA 硬件上运行。
  然而,杰克在我们的问答中说:
  “我们[目前]在我们的 7900 旗舰机上启用 ROCm,以便您可以执行一些人工智能应用程序。我们将更广泛地扩展 ROCm。” “有些学校、大学和初创公司可能买不起非常高端的 GPU,但他们想要进行修补。我们希望使该社区成为开发者工具。”
  我们希望这意味着 ROCm 对当前一代硬件以及所有未来版本的支持更广泛 - 不仅仅是他们的旗舰 RX7900 系列。
  Lisa 还对 AMD 的软件堆栈发表了评论:
  “近的大问题是软件。我们在软件方面取得了巨大进步。ROCm 6 软件堆栈是一个重大进步。在软件方面还有很多工作要做……我们希望抓住巨大的机遇。”
  AMD 的第三个方面是他们的 XDNA AI 引擎。
  虽然该技术来自 Xilinx,但该 IP 在收购之前已授权给 AMD。这些人工智能引擎正在集成到笔记本电脑处理器中,并将作为微软 AIPC 计划的 NPU 呈现,以与英特尔和高通的产品竞争。这些 AI 引擎专为低功耗推理而设计,而不是高功耗 GPU 能够进行的高吞吐量推理或训练。
  在评论 NPU 与 GPU 的地位时,Lisa 说:
  “人工智能引擎在某些地方会更加流行,例如个人电脑和笔记本电脑。如果您正在寻找大规模、更多的工作站笔记本电脑,[他们]可能会在该框架中使用 GPU。”
  AMD 看到了多种人工智能工作负载和引擎的未来:CPU、GPU 和 NPU。值得注意的是,空间中的其他人都发出同样的声音。
  Jack评论说:
  “[对于] NPU,微软由于功效而大力推动[它]。NPU 仍然可以驱动体验,但不会损害电池[寿命]。我们将赌注押在 NPU 上。我们将在 AI 上实现 2 倍和 3 倍……NPU 的关键在于电池寿命 - 在台式机中,您往往不用担心电池,而且还可以将 [NPU 支持的]自定义数据格式带入台式机。”
  这种三管齐下的方法使 AMD 能够在各个方面解决人工智能领域的问题,这表明并非所有鸡蛋都必须放在同一个篮子里。AMD 使用这种方法已经取得了一些成功——在数据中心领域,AMD 被认为是 NVIDIA 接近的竞争对手。MI300 的内存容量和带宽使其能够与 NVIDIA 的 H100 硬件(我们仍在等待 B100 基准测试)进行良好的竞争。NPU 领域仍然太新且不稳定,无法真正确定 AMD 的战略是否获得回报;不过,微软很可能会将 NPU 用于本地机器学习模型,例如助手或“‘co-pilot”模型。
  从我们的角度来看,AMD 战略的弱点在于桌面 GPU 方面,因为整个 AMD 硬件堆栈缺乏近乎普遍的 ROCm 支持。这是一个需要时间才能解决的问题——战线分裂的缺点之一是资源的划分。AMD 将要求严格的管理,以确保整个公司的工作不会重复。不过,也有积极的一面,AMD 不断提高对 2024 年数据中心收入的预测,声称限制只是需求,而不是供应。

关键词:AMD

全年征稿 / 资讯合作

稿件以电子文档的形式交稿,欢迎大家砸稿过来哦!

联系邮箱:3342987809@qq.com

版权与免责声明

凡本网注明“出处:维库电子市场网”的所有作品,版权均属于维库电子市场网,转载请必须注明维库电子市场网,https://www.dzsc.com,违反者本网将追究相关法律责任。

本网转载并注明自其它出处的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品出处,并自负版权等法律责任。

如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。

热点排行

广告