强强联合,解决“小黄人”难题!Xilinx 携手 Nimbix 与三星提速云应用

我们不妨将并行计算单元想象成一个塞满小黄人的小型棒球场,每个小黄人代表 100 万个逻辑门。一旦某个任务不支持所有小黄人同时并行工作,GPU 这样的并行计算加速器就会面临严重的性能瓶颈。

现代数据中心的成功要诀是:大规模提供尖端加速计算平台,让世界各地的开发者与解决方案提供商都能充分发挥它们的作用。在过去十年里,云计算已运用并行计算来提高性能,这种方法需要将求解过程分解成多个并行任务,以充分利用所有的计算单元。以 GPU 为代表的并行计算加速器,其中含有多达 2,000 个计算单元。我们不妨将它想象成一个塞满小黄人的小型棒球场,每个小黄人代表 100 万个逻辑门。一旦某个任务不支持所有小黄人同时并行工作,GPU 这样的并行计算加速器就会面临严重的性能瓶颈。当然,有些问题适合这种并行计算“小黄人”模式,但也有很多问题并不适合。

例如压缩、视频编码、基因组分析和股票交易等任务就不适合这种并行模式。这些任务更适合逻辑门方法与可编程芯片,即现场可编程门阵列 (FPGA)。正因如此,Nimbix 率先在云上面向开发者推出基于 FPGA 的 Alveo U50 加速器就具有非常重要的意义了。

*赛灵思 Alveo U50 加速器

逻辑门是计算的基本单元。从“Hello World”到“Half-Life”,每个程序在执行时都将化为启闭迅速的大量逻辑门集合。程序的运行速度几乎完全取决于程序员的意图(体现在其代码中)与最终执行该意图所需的逻辑门数量之间的抽象层数量。每增加一层抽象,就需要更多数量的逻辑门。

假设选取一个视频编码高级程序,将其直接转换成逻辑门,然后将逻辑门定义加载到 FPGA 中。结果证明,与常规的 CPU 方法相比,使用逻辑门对程序进行处理,不仅将视频编码速度提高了 20 倍,而且也将功耗降低了 10 倍。此外,还可以将编码器的 30 多个并行实例加载到 FPGA 中。这样一来,通常在 CPU 编码单个流的时间里就可以生成 600 个编码流。这就是将基于门的 FPGA 方法用于求解的强大之处。此外,与 GPU 等功能固定的加速器相比,FPGA 还具有更高的灵活应变能力。随着工作负载算法和要求的发展演进,FPGA 提供了可重配置硬件,其适配速度远远快于 GPU 的产品周期。想象一下,现在已经有 100 种以上类似解决方案得到优化以运用加速技术!

FPGA 曾被认为是适用于嵌入式计算环境(汽车、工业物联网及无人机和摄像头等高端消费产品)的专用芯片,但随着基于 FPGA 的加速在一系列新兴的新型工作负载中日臻成熟,FPGA 正在数据中心领域得到广泛采用。为了应对不断增长的需求,赛灵思推出了专门针对数据中心的 Alveo加速器卡产品线。

赛灵思与 Nimbix 展开合作,致力于为广大用户提供基于云的 FPGA 加速平台。从计算流体动力学到视频转码,开发者能够立即访问和使用这款平台,获得超过 100 种应用。新硬件的部署工作往往难度较大,但通过 Nimbix 动态部署基于云的 FPGA 加速硬件,可以一键点击轻松实现。Nimbix 使用了赛灵思全系列 Alveo 产品线,包括U50、U200、U250、U280 加速器卡。

*三星 SmartSSD

不仅如此,赛灵思还与 Nimbix 和三星的 SmartSSD存储部门合作,利用基于 FPGA 的计算加速器交付智能存储。三星 SmartSSD 是一种在前端安装 FPGA 加速器并预先加载可编程逻辑的 SSD,能够动态地改善驱动器的整体性能,为大规模数据处理和分析提供可扩展加速。数据直接在 SmartSSD 上进行处理,然后传送给主机 CPU,从而减少数据传输,并加快获得洞察的速度。Nimbix 云为数据分析师、数据科学家以及加速 IP 开发者提供了获取加速存储内计算的便捷渠道,方便开发新一代云应用与数据中心应用。

在云端开发和部署 FPGA 加速器从未像今天这样简单。赛灵思与众多大型云提供商紧密合作,推动新平台尽快投入使用。Nimbix 是首家使用赛灵思 Alveo U50 卡和三星 SmartSSD 的加速云提供商。客户现在可以注册并开始免费试用。

文章来源:一点灵Xi

推荐阅读