AMD的AI芯片战略

来源:内容由半导体行业观察(ID:icbank)编译自morethanmoore,谢谢。


如果说 AMD 的故事就像过山车一样,那是轻描淡写了。因为2014 年的 AMD 和 2024 年的 AMD 之间存在着巨大的反差。十年前的 AMD 举步维艰,而今天的 AMD 正在复苏,关键的是,他们已经成为了许多市场的参与者。

与该领域的许多其他参与者一样,人工智能是主要关注点,该公司在内部建立了专门的人工智能团队,以涵盖快速发展的人工智能市场的完整端到端战略。

最近几周,AMD 首席执行官苏姿丰 (Lisa Su) 和计算与图形部门高级副总裁/总经理 Jack Huynh 均回答了行业分析师提出的有关 AMD 人工智能硬件战略的性质以及如何看待其产品组合的问题,我们来将其综合以下。

AMD 的 AI 硬件战略分为三个方面:

第一个是 AMD 的 Instinct 系列数据中心 GPU,以 MI300 系列的形式零售。

MI300X 有两种变体,专注于 AI - 它已成功获得 Microsoft 和 Azure 等大型云厂商以及TensorWave 等一些较小的以 AI 为中心的云的采用。

在最新的财报电话会议上,Lisa Su 评论称,对这些芯片的需求不断扩大,到 2024 年底,收入将从 20 亿美元增加到 35 亿美元。在发布会上,AMD 将自己与 NVIDIA 的 H100 进行了比较,标志着八芯片系统在 ML 训练中相同,但在 ML 推理中更好。

该系列的另一个变体是 MI300A,提供类似的规格,但是 CPU/GPU 组合,面向高性能计算。它已被采用到计划中的最大的全球超级计算机 El Captian 中,该计算机将使用机器学习模型来协助保护美国核储备。

在谈到 MI300 的采用时,Lisa 表示:

“我们感到惊喜,很高兴看到 MI300 的发展势头,以及这种势头的来源。大型云[客户]通常移动速度最快——从工作负载[到工作负载]。LLM 非常适合 MI300 - 我们的内存容量和内存带宽[处于市场领先]。人工智能是最主要的工作负载。[我们]拥有相当广泛的客户群,他们有不同的需求 - 有些是训练,有些是微调,有些是混合的。当我们从客户开始时,[但是]从模式中失去了信心。[我们在软件环境方面也花费了]大量工作。新客户[发现]更容易达到他们的性能期望,因为 ROCm(AMD 的软件堆栈)正在变得成熟。[我们] [MI300] 最大的工作负载是大型语言模型。”

还应该指出的是,AMD 最近宣布正在将其芯片间通信协议(称为 Infinity Fabric)扩展到 Arista、Broadcom 和 Cisco 等特定网络合作伙伴。我们希望这些公司能够构建 Infinity Fabric 交换机,使 MI300 能够在单一系统之外实现芯片间通信。

AMD 战略的第二个方面是他们的客户端 GPU 系列。

这包括 AMD 的 Radeon 独立显卡 (GPU) 及其 APU,后者由集成到客户端 CPU 上的 GPU 组成,主要用于笔记本电脑。AMD 人工智能战略的第一个和第二个方面都依赖于他们的计算堆栈,称为 ROCm,它是 AMD 与 NVIDIA CUDA 堆栈的竞争对手。

关于 ROCm(即使是最新版本)的长期抱怨是企业和消费类硬件之间的支持不一致 - 只有 AMD 的 Instinct GPU 能够正确支持 ROCm 及其相关库并选择独立 GPU,而 CUDA 几乎可以在所有 NVIDIA 硬件上运行。

然而,杰克在我们的问答中说:

“我们[目前]在我们的 7900 旗舰机上启用 ROCm,以便您可以执行一些人工智能应用程序。我们将更广泛地扩展 ROCm。” “有些学校、大学和初创公司可能买不起非常高端的 GPU,但他们想要进行修补。我们希望使该社区成为开发者工具。”

我们希望这意味着 ROCm 对当前一代硬件以及所有未来版本的支持更广泛 - 不仅仅是他们的旗舰 RX7900 系列。

Lisa 还对 AMD 的软件堆栈发表了评论:

“最近的大问题是软件。我们在软件方面取得了巨大进步。ROCm 6 软件堆栈是一个重大进步。在软件方面还有很多工作要做……我们希望抓住巨大的机遇。”

AMD 的第三个方面是他们的 XDNA AI 引擎。

虽然该技术来自 Xilinx,但该 IP 在收购之前已授权给 AMD。这些人工智能引擎正在集成到笔记本电脑处理器中,并将作为微软 AIPC 计划的 NPU 呈现,以与英特尔和高通的产品竞争。这些 AI 引擎专为低功耗推理而设计,而不是高功耗 GPU 能够进行的高吞吐量推理或训练。

在评论 NPU 与 GPU 的地位时,Lisa 说:

“人工智能引擎在某些地方会更加流行,例如个人电脑和笔记本电脑。如果您正在寻找大规模、更多的工作站笔记本电脑,[他们]可能会在该框架中使用 GPU。”

AMD 看到了多种人工智能工作负载和引擎的未来:CPU、GPU 和 NPU。值得注意的是,空间中的其他人都发出同样的声音。

Jack评论说:

“[对于] NPU,微软由于功效而大力推动[它]。NPU 仍然可以驱动体验,但不会损害电池[寿命]。我们将赌注押在 NPU 上。我们将在 AI 上实现 2 倍和 3 倍……NPU 的关键在于电池寿命 - 在台式机中,您往往不用担心电池,而且还可以将 [NPU 支持的]自定义数据格式带入台式机。”

这种三管齐下的方法使 AMD 能够在各个方面解决人工智能领域的问题,这表明并非所有鸡蛋都必须放在同一个篮子里。AMD 使用这种方法已经取得了一些成功——在数据中心领域,AMD 被认为是 NVIDIA 最接近的竞争对手。MI300 的内存容量和带宽使其能够与 NVIDIA 的 H100 硬件(我们仍在等待 B100 基准测试)进行良好的竞争。NPU 领域仍然太新且不稳定,无法真正确定 AMD 的战略是否获得回报;不过,微软很可能会将 NPU 用于本地机器学习模型,例如助手或“‘co-pilot”模型。

从我们的角度来看,AMD 战略的弱点在于桌面 GPU 方面,因为整个 AMD 硬件堆栈缺乏近乎普遍的 ROCm 支持。这是一个需要时间才能解决的问题——战线分裂的缺点之一是资源的划分。AMD 将要求严格的管理,以确保整个公司的工作不会重复。不过,也有积极的一面,AMD 不断提高对 2024 年数据中心收入的预测,声称限制只是需求,而不是供应。

原文链接:https://morethanmoore.substack.com/p/quick-bytes-amds-ai-hardware-strategy 


最新文章

最新文章