现代数据中心的成功要诀与方案推荐

GPU 与小黄人

以 GPU 为代表的并行计算加速器,其中含有多达 2,000 个计算单元。不妨将它想象成一个塞满小黄人的小型棒球场,每个小黄人代表 100 万个逻辑门。一旦某个任务不支持所有小黄人同时并行工作,GPU 这样的并行计算加速器就会面临严重的性能瓶颈。当然,有些问题适合这种并行计算“小黄人”模式,但也有很多问题并不适合。

现代数据中心的成功要诀是:大规模提供尖端加速计算平台,让世界各地的开发者与解决方案提供商都能充分发挥它们的作用。

在过去十年里,云计算已运用并行计算来提高性能,这种方法需要将求解过程分解成多个并行任务,以充分利用所有的计算单元。然而,时至今日,有很多问题并不适合这样的并行计算模式(见上文小黄人比喻)。例如压缩、视频编码、基因组分析和股票交易等任务就不适合这种并行模式。这些任务更适合逻辑门方法与可编程芯片,即现场可编程门阵列 (FPGA)。正因如此,Nimbix 率先在云上面向开发者推出基于 FPGA 的 Alveo U50 加速器就具有非常重要的意义了。

赛灵思 Alveo U50 加速器

逻辑门是计算的基本单元。从“Hello World”到“Half-Life”,每个程序在执行时都将化为启闭迅速的大量逻辑门集合。程序的运行速度几乎完全取决于程序员的意图(体现在其代码中)与最终执行该意图所需的逻辑门数量之间的抽象层数量。每增加一层抽象,就需要更多数量的逻辑门。

假设选取一个视频编码高级程序,将其直接转换成逻辑门,然后将逻辑门定义加载到 FPGA 中。结果证明,与常规的 CPU 方法相比,使用逻辑门对程序进行处理,不仅将视频编码速度提高了 20 倍,而且也将功耗降低了 10 倍。此外,还可以将编码器的 30 多个并行实例加载到 FPGA 中。这样一来,通常在 CPU 编码单个流的时间里就可以生成 600 个编码流。这就是将基于门的 FPGA 方法用于求解的强大之处。此外,与 GPU 等功能固定的加速器相比,FPGA 还具有更高的灵活应变能力。随着工作负载算法和要求的发展演进,FPGA 提供了可重配置硬件,其适配速度远远快于 GPU 的产品周期。想象一下,现在已经有 100 种以上类似解决方案得到优化以运用加速技术!

FPGA 曾被认为是适用于嵌入式计算环境(汽车、工业物联网及无人机和摄像头等高端消费产品)的专用芯片,但随着基于 FPGA 的加速在一系列新兴的新型工作负载中日臻成熟,FPGA 正在数据中心领域得到广泛采用。为了应对不断增长的需求,赛灵思推出了专门针对数据中心的 Alveo加速器卡产品线。

赛灵思与 Nimbix 展开合作,致力于为广大用户提供基于云的 FPGA 加速平台。从计算流体动力学到视频转码,开发者能够立即访问和使用这款平台,获得超过 100 种应用。新硬件的部署工作往往难度较大,但通过 Nimbix 动态部署基于云的 FPGA 加速硬件,可以一键点击轻松实现。Nimbix 使用了赛灵思全系列 Alveo 产品线,包括U50、U200、U250、U280 加速器卡。

三星 SmartSSD

不仅如此,赛灵思还与 Nimbix 和三星的 SmartSSD存储部门合作,利用基于 FPGA 的计算加速器交付智能存储。三星 SmartSSD 是一种在前端安装 FPGA 加速器并预先加载可编程逻辑的 SSD,能够动态地改善驱动器的整体性能,为大规模数据处理和分析提供可扩展加速。数据直接在 SmartSSD 上进行处理,然后传送给主机 CPU,从而减少数据传输,并加快获得洞察的速度。Nimbix 云为数据分析师、数据科学家以及加速 IP 开发者提供了获取加速存储内计算的便捷渠道,方便开发新一代云应用与数据中心应用。

在云端开发和部署 FPGA 加速器从未像今天这样简单。赛灵思与众多大型云提供商紧密合作,推动新平台尽快投入使用。Nimbix 是首家使用赛灵思 Alveo U50 卡和三星 SmartSSD 的加速云提供商。客户现在可以注册并开始免费试用。

文章来源:Xilinx赛灵思官微

推荐阅读