FPGA加速AI计算的两位老牌玩家终于牵手

相信您一定听说过基于FPGA的计算加速突然成为一个热门话题。你可能还听说过英特尔在几年前收购Altera超过160亿美元的消息。FPGA技术已逐渐的一个杀手应用程序。如今,随着摩尔定律的逐渐减缓。工程师寻找替代方法以更快的速度和更低的功耗处理更多数据,数据中心的控制正在酝酿着巨大的争夺战。

FPGA是加速许多类型计算工作负载的出色平台,特别是那些数据通路适用于大规模并行运算的工作负载。FPGA可以通过在硬件中实现重要的计算密集算法块来减少传统处理器,从而大幅减少延迟和(通常更重要的)功耗。

基于FPGA的加速的一大缺点是编程模型。为了从具有FPGA和传统处理器协同工作的异构计算系统中获得最佳性能,您需要一种方法来分解问题,将传统代码转换为适当的FPGA架构,并在精心设计的硬件配置中实现整体功能。除其他外,这需要FPGA设计方面的大量专业知识,以及将数据输入和输出这些FPGA加速器的总体策略,以及完成任务的存储器和存储架构。做到这一点并不是一件容易的事,并且有很多方法可以在整个过程中出错并最终从您的FPGA投资中获得很少的收益。

在本周在达拉斯举行的超级计算会议上,Bittware(今年早些时候被Molex收购)宣布他们与Nallatech“联手”(Molex去年收购了Interconnect Systems,Inc。)。在FPGA加速领域,这是一个大问题。虽然基于FPGA的加速对于我们大多数人来说可能是一个新的热门话题,并且看起来像是一个全新的世界正在为工程探索开放,但这些人已经有很长一段时间了。

Allan Cantle于1993年创立了Nallatech,专注于基于FPGA的加速。

我们在2004年首次开始了解Nallatech,到那时该公司已经有超过十年的经验来处理(当时)被称为“可重新配置计算”的挑战。Bittware在加速方面具有类似的传奇历史,从1991年开始使用基于DSP的ISA总线开始,到2004年与Altera合作转向FPGA。这两家公司很可能在基于FPGA的加速方面拥有更多的组合经验。

有趣的是,这项技术的这两位长期资深玩家将在Molex旗下团结一致。

根据公告,组合的Bittware / Nallatech团队将提供基于Intel和Xilinx的FPGA加速解决方案。Bittware称他们的目标应用包括机器学习推理,实时数据分析,高频交易,实时网络监控和视频广播等。Bittware正在利用Bittware,Nallatech和Molex的综合资源来获得大型企业客户。

Bittware将他们的解决方案分解为“计算”,且专注于“网络”和“存储”。虽然使用FPGA加速计算是一种魅力,但计算系统的每个部分都需要针对任务进行设计,否则您最终会将性能留在纸面上。FPGA可以在加速这些任务中发挥关键作用。几十年前,FPGA在网络业务中崭露头角,并且最近才在存储和计算方面证明了自己。

在计算方面,Bittware提供来自Intel和Xilinx的支持HBM2的FPGA器件。HBM集成对于英特尔和Xilinx都是新的,并且是一项改变游戏规则的创新,它允许加速应用程序,否则这些应用程序将受到传统分立存储器实现带宽的限制。例如,Bittware的520N-MX是一款全高双宽PCI-Express卡,包含一个Intel Stratix 10 MX FPGA,高达8 GB的集成HBM2 @ 512 Gbps,四个QSFP28网箱,每端口支持高达100G,两个支持DDR4 SDRAM,QDR-II + SRAM或Intel Optane 3D-XPoint的DIMM,两个用于直接扩展到NVMe SSD阵列的OCuLink端口,以及用于智能平台管理的“板卡管理控制器”(BMC)。

XUPVVH是一款3/4长PCIe板,带有Xilinx Virtex UltraScale + VU35P / VU37P,集成8 GB HBM2 @ 460 GBps,支持Gen1,Gen2或Gen3的PCIe x16接口,4个QSFP适用于4x 40 / 100GbE或16x 10 / 25GbE的笼子,以及高达256 GBytes的DDR4。由于VIrtex的280万个逻辑元件可以产生大量的热量,Bittware使用他们称之为“Viper”的平台,该平台使用计算机流动模拟以“热量优先”的方式驱动物理电路板设计,包括“使用热量”管道,气流通道和安排组件,以最大限度地提高服务器中有限的可用气流。“Viper板默认是被动的,可选择主动冷却。

除了硬件的功能和规格之外,Bittware团队还拥有丰富的经验,可以从基于FPGA的系统中获得真实的性能。对复杂数据中心安装中的工作负载进行分区,了解内存和网络带宽要求以及管理散热是一项不小的成就,而这个团队带来的专业知识可能是成功与失败之间的差异,也可能是最佳系统与不平衡折衷之间的差异。

原文链接: https://www.eejournal.com/article/ye-olde-fpga-acceleration/
文章转载自:SSDFans

推荐阅读