AMD的AI芯片战略

judy 在周三, 04/10/2024 - 14:09 提交

来源：内容由半导体行业观察（ID：icbank）编译自morethanmoore，谢谢。

如果说 AMD 的故事就像过山车一样，那是轻描淡写了。因为2014 年的 AMD 和 2024 年的 AMD 之间存在着巨大的反差。十年前的 AMD 举步维艰，而今天的 AMD 正在复苏，关键的是，他们已经成为了许多市场的参与者。

与该领域的许多其他参与者一样，人工智能是主要关注点，该公司在内部建立了专门的人工智能团队，以涵盖快速发展的人工智能市场的完整端到端战略。

最近几周，AMD 首席执行官苏姿丰 (Lisa Su) 和计算与图形部门高级副总裁/总经理 Jack Huynh 均回答了行业分析师提出的有关 AMD 人工智能硬件战略的性质以及如何看待其产品组合的问题，我们来将其综合以下。

AMD 的 AI 硬件战略分为三个方面：

第一个是 AMD 的 Instinct 系列数据中心 GPU，以 MI300 系列的形式零售。

MI300X 有两种变体，专注于 AI - 它已成功获得 Microsoft 和 Azure 等大型云厂商以及TensorWave 等一些较小的以 AI 为中心的云的采用。

在最新的财报电话会议上，Lisa Su 评论称，对这些芯片的需求不断扩大，到 2024 年底，收入将从 20 亿美元增加到 35 亿美元。在发布会上，AMD 将自己与 NVIDIA 的 H100 进行了比较，标志着八芯片系统在 ML 训练中相同，但在 ML 推理中更好。

该系列的另一个变体是 MI300A，提供类似的规格，但是 CPU/GPU 组合，面向高性能计算。它已被采用到计划中的最大的全球超级计算机 El Captian 中，该计算机将使用机器学习模型来协助保护美国核储备。

在谈到 MI300 的采用时，Lisa 表示：

“我们感到惊喜，很高兴看到 MI300 的发展势头，以及这种势头的来源。大型云[客户]通常移动速度最快——从工作负载[到工作负载]。LLM 非常适合 MI300 - 我们的内存容量和内存带宽[处于市场领先]。人工智能是最主要的工作负载。[我们]拥有相当广泛的客户群，他们有不同的需求 - 有些是训练，有些是微调，有些是混合的。当我们从客户开始时，[但是]从模式中失去了信心。[我们在软件环境方面也花费了]大量工作。新客户[发现]更容易达到他们的性能期望，因为 ROCm（AMD 的软件堆栈）正在变得成熟。[我们] [MI300] 最大的工作负载是大型语言模型。”

还应该指出的是，AMD 最近宣布正在将其芯片间通信协议（称为 Infinity Fabric）扩展到 Arista、Broadcom 和 Cisco 等特定网络合作伙伴。我们希望这些公司能够构建 Infinity Fabric 交换机，使 MI300 能够在单一系统之外实现芯片间通信。

AMD 战略的第二个方面是他们的客户端 GPU 系列。

这包括 AMD 的 Radeon 独立显卡 (GPU) 及其 APU，后者由集成到客户端 CPU 上的 GPU 组成，主要用于笔记本电脑。AMD 人工智能战略的第一个和第二个方面都依赖于他们的计算堆栈，称为 ROCm，它是 AMD 与 NVIDIA CUDA 堆栈的竞争对手。

关于 ROCm（即使是最新版本）的长期抱怨是企业和消费类硬件之间的支持不一致 - 只有 AMD 的 Instinct GPU 能够正确支持 ROCm 及其相关库并选择独立 GPU，而 CUDA 几乎可以在所有 NVIDIA 硬件上运行。

然而，杰克在我们的问答中说：

“我们[目前]在我们的 7900 旗舰机上启用 ROCm，以便您可以执行一些人工智能应用程序。我们将更广泛地扩展 ROCm。” “有些学校、大学和初创公司可能买不起非常高端的 GPU，但他们想要进行修补。我们希望使该社区成为开发者工具。”

我们希望这意味着 ROCm 对当前一代硬件以及所有未来版本的支持更广泛 - 不仅仅是他们的旗舰 RX7900 系列。

Lisa 还对 AMD 的软件堆栈发表了评论：

“最近的大问题是软件。我们在软件方面取得了巨大进步。ROCm 6 软件堆栈是一个重大进步。在软件方面还有很多工作要做……我们希望抓住巨大的机遇。”

AMD 的第三个方面是他们的 XDNA AI 引擎。

虽然该技术来自 Xilinx，但该 IP 在收购之前已授权给 AMD。这些人工智能引擎正在集成到笔记本电脑处理器中，并将作为微软 AIPC 计划的 NPU 呈现，以与英特尔和高通的产品竞争。这些 AI 引擎专为低功耗推理而设计，而不是高功耗 GPU 能够进行的高吞吐量推理或训练。

在评论 NPU 与 GPU 的地位时，Lisa 说：

“人工智能引擎在某些地方会更加流行，例如个人电脑和笔记本电脑。如果您正在寻找大规模、更多的工作站笔记本电脑，[他们]可能会在该框架中使用 GPU。”

AMD 看到了多种人工智能工作负载和引擎的未来：CPU、GPU 和 NPU。值得注意的是，空间中的其他人都发出同样的声音。

Jack评论说：

“[对于] NPU，微软由于功效而大力推动[它]。NPU 仍然可以驱动体验，但不会损害电池[寿命]。我们将赌注押在 NPU 上。我们将在 AI 上实现 2 倍和 3 倍……NPU 的关键在于电池寿命 - 在台式机中，您往往不用担心电池，而且还可以将 [NPU 支持的]自定义数据格式带入台式机。”

这种三管齐下的方法使 AMD 能够在各个方面解决人工智能领域的问题，这表明并非所有鸡蛋都必须放在同一个篮子里。AMD 使用这种方法已经取得了一些成功——在数据中心领域，AMD 被认为是 NVIDIA 最接近的竞争对手。MI300 的内存容量和带宽使其能够与 NVIDIA 的 H100 硬件（我们仍在等待 B100 基准测试）进行良好的竞争。NPU 领域仍然太新且不稳定，无法真正确定 AMD 的战略是否获得回报；不过，微软很可能会将 NPU 用于本地机器学习模型，例如助手或“‘co-pilot”模型。

从我们的角度来看，AMD 战略的弱点在于桌面 GPU 方面，因为整个 AMD 硬件堆栈缺乏近乎普遍的 ROCm 支持。这是一个需要时间才能解决的问题——战线分裂的缺点之一是资源的划分。AMD 将要求严格的管理，以确保整个公司的工作不会重复。不过，也有积极的一面，AMD 不断提高对 2024 年数据中心收入的预测，声称限制只是需求，而不是供应。

原文链接：https://morethanmoore.substack.com/p/quick-bytes-amds-ai-hardware-strategy

AMD

AI芯片

每日头条

AMD推出MI300X加速器，较英伟达H100最多提升60%，猛增市场规模预期	第二代 AMD Versal™ 自适应 SoC 助力 AI 驱动型嵌入式系统实现单芯片智能性	AMD EPYC处理器为Pixar的RenderMan Challenge 2022中所使用的“AMD Creator Cloud”提供动力
AMD：开放成熟的 AI 解决方案，已准备好投入实际应用	AMD推出巨型 FPGA	FPGA穷途末路了吗？评AMD 300亿美元溢价收购赛灵思，这会毁了Xilinx!

最新文章

最新文章