白皮书 | Versal 平台的系统级优势

过去几年里,计算行业见证了数据的大规模爆发以及机器学习( ML )与 AI 应用的激增。其结果是对更高吞吐量和实时计算能力愈发强烈的需求,与此同时还要保持灵活应变能力,以便跟上不断演进的工作负载需求和不断变化的协议。

赛灵思 Versal 产品组合提供了一种颠覆性架构,将同类最佳的 7nm 可编程逻辑与标量处理引擎、空间处理硬件引擎、矢量处理智能引擎相结合,同时采用领先的存储器和接口技术,从而为一系列市场和应用提供了一款基础性平台,助其打造灵活应变的特定领域架构。

Versal ACAP 可在广泛市场和应用中打造未来产品:数据中心互联、存储与计算加速、从边缘到云端的 AI 加速、5G 无线、有线应用、自动驾驶、航空航天以及众多其他市场。

系统级性能

Versal 架构并非传统 FPGA 架构。自诞生以来,其宗旨始终是提供比增量架构结果质量( QoR )性能更高的系统级性能。具体而言,赛灵思的目标是较之上一代和替代性可编程逻辑架构高达 5 倍的系统级性能。

Versal 架构解决了三大挑战:

  • 系统级单位功耗性能
  • 高能效计算与数据迁移功能
  • 可编程逻辑中的金属缩放限制
  • 以往的 FPGA 基准测试完全基于架构的 QoR。而且部分由于金属时延带来的问题,今天的可编程逻辑架构在性能上与前几代相比提高不多。下图所示的是 24 个 RTL 设计的综合 Geomean FMAX 性能,将赛灵思上一代 Virtex® UltraScale+™ FPGA 与英特尔 Agilex 器件的架构性能进行比较。

    软件可编程架构

    为满足不断演进发展的需求,Versal 架构也提供了软件可编程平台。综合全面的软件开发堆栈有助于充分发挥 Versal ACAP 的全部功能。

    硬件开发者:

    Vivado 设计套件。Vivado 工具采用最新的 ML 算法,在实现一流的 QoR 的同时,为 IP 集成和可编程 NoC 配置提供了完整的 IP 接口。

    软件及AI 开发者:

    Vitis 统一软件平台。Vitis 工具依托约 1,000 个硬件/AI 引擎加速开源库,使用 C/C++ 和 Python 提供完整的软件编程抽象。对于 AI 开发者,Vitis AI 直接支持 TensorFlow 和 Pytorch 等 ML 框架,便于量化和编译受训模型,而且仅用几分钟就能在预构建的 AI 加速叠加 IP 上运行。

    将 Versal 架构结合 Vivado、Vitis/Vitis AI 以及赛灵思一直以来的可编程能力和灵活应变能力,能够为众多突破性产品奠定基础。

    Versal ACAP 与同类 FPGA 对比

    基于 CNN 的图像检测

    2.7-8.2倍单位功耗性能

    在众多应用领域,运用机器学习技术已成为普遍现象。事实上,很难找到一个还没有被机器学习转变的行业。

    为了展示在 Versal ACAP 上实现的推断吞吐量性能,赛灵思用 ML Perf Data Center Inference v1.0 测量了基准测试的结果。搭载在赛灵思 VCK5000 型 AI 推断开发卡上的 VC1902 是赛灵思 Versal AI Core 系列的首款器件,在多种硬件可编程平台上运行 ResNet50 v1.5 图像检测基准测试时,均表现出行业领先性能。

    5G 无线波束成形

    2.14倍单位功耗性能

    大规模 MIMO 无线电是全球 5G 商业部署的主要组成部分。为支持波束成形,5G NR 中定义了物理和更高层的流程和控制信令。Versal 架构提供的自适应计算灵活性和性能,能够满足难度大且不断演进的 5G NR 设计要求。由乘法器、存储器和互联构成的传统 FPGA 架构相比,Versal AI 引擎技术既提高了所需的计算密度,又降低了功耗。

    下图所示的是在 Versal AI Core VC1902 量产 ACAP 上运行的无线 5G 应用的预测性能,与同类可编程器件的预测性能的对比。

    网络加速

    可提供大于 16W 的功率裕度

    在云提供商和企业数据中心中,从 CPU 卸载各类关键应用的需求存越来越强烈,特别是围绕网络加速领域。新一类硬件加速器已在市场上兴起,作用是帮助卸载高 CPU 占用的应用处理。

    赛灵思网络加速器通过卸载计算密集型网络进程,不但显著增强了对 CPU 的有效利用,还可提供可扩展的组合式数据平面编程能力。通过添加硬化 IP 等大量基础功能,Versal 架构在有利于网络加速器应用的同时,支持定制数据平面处理。

    下图所示是运行在 Versal 器件上的网络加速器应用与同类可编程器件的预测功耗比较。与同类产品相比,使用功耗 75W 的 PCIe 卡承载 Versal 架构功能时能留出 16W 的功率裕度。

    DCI 桥接和传输

    2.2倍单位功耗性能

    随着数据中心向 400G 和最终的 800G 发展,数据中心互联( DCI )设备将继续向灵活性提出需求。这些网络负载不断增长,要求路由器/交换机芯片采用最新的 SerDes 速率(5G 到 112G),从而实现全密度运行,为 DCI 桥接和传输功能提供支持。此外,为防止基础设施设备遭遇频繁的网络攻击,也经常需要具备在线加密/解密等安全功能。

    赛灵思 Versal ACAP SmartPHY 解决方案能够连接高达 2.4Tb/s 的传输/网络接口,直接对接光通信,并在单个器件中集成最高 1.6Tb/s 的全双工加密。这是目前业界最高的单器件密度,能帮助 OEM 系统提供商开发差异化产品。

    下图所示的是等效 DCI 桥接设计中的 Versal 器件的功耗估算与同类可编程器件的预测性能对比。

    Versal ACAP 是一类全新的产品,功能和异构集成度均得到显著改善。通过在 Versal 架构(如 AI 引擎、NoC、100G MRMAC、600G DCMAC、400G 高速加密引擎和 600G Interlaken)内硬化大量基础 IP,Versal ACAP 相对于同类 FPGA 拥有压倒性的性能和单位功耗性能优势,可为多种类型的应用大幅提升系统级性能。

    点击下载点完整版白皮书

    最新文章

    最新文章