FPGA加速卡

2018年10月16日,华为在赛灵思开发者论坛( XDF)上与赛灵思联合发布了FX系列FPGA加速卡,为基因测序、视频编码、图片处理、数据压缩等业务提供了高能效比的加速解决方案。

“随着IT和人工智能技术快速发展,寻找高能效比的数据中心加速方案至关重要。我们很高兴和赛灵思开展技术及商业合作,结合双方的优势共同为企业客户提供灵活高效的FPGA加速解决方案,助力客户在智能时代快速应对业务变化。” ——张小华,华为 IT 智能计算业务部副总裁


图文:华为 IT 智能计算业务部副总裁张小华与赛灵思数据中心副总裁 Freddy Engineer 共同发布 FX 系列 FPGA 加速卡

作者:张国斌

物联网、人工智能技术的走热,产生了大量的数据,而这些数据的处理也大幅度增加了数据中心的能耗。调研数据显示,在全球范围内,数据中心已经成为全球能源使用规模最大的用户,将从2015年的0.9%上升到2025年的4.5%。而且到2025年,数据中心的能耗将占ICT行业总能耗的33%,如果数据中心不考虑降低能耗,则数据中心的碳足迹将达到全球碳足迹的5.5%!因此,很多数据中心运营商都要考虑保持大规模性能需求和运营效率之间的平衡,要获得性能和效率的同时提升,就要考虑通过FPGA加速卡降低能耗,因此,FPGA加速卡正成为数据中心加速应用的主流,这也进一步刺激服务器厂商加速提供各类基于FPGA的加速卡。

10月16日,在北京举行的2018XDF赛灵思开发者大会上,领先的AI计算力厂商浪潮联合赛灵思推出了全球首款集成HBM2高速缓存的FPGA AI加速卡F37X。该卡可在不到75W典型应用功耗提供28.1TOPS的INT8计算性能和460GB/s的超高数据带宽,适合机器学习推理、视频转码、图像识别、语音识别、自然语言处理、基因组测序分析、NFV、大数据分析查询等各类应用场景,实现高性能、高带宽、低延迟、低功耗的AI计算加速!

10月16日,在北京举行的2018XDF赛灵思开发者大会上,浪潮联合赛灵思宣布推出全球首款集成HBM2高速缓存的FPGA AI加速卡F37X,可在不到75W典型应用功耗提供28.1TOPS的INT8计算性能和460GB/s的超高数据带宽,适合于机器学习推理、视频转码、图像识别、语音识别、自然语言处理、基因组测序分析、NFV、大数据分析查询等各类应用场景,实现高性能、高带宽、低延迟、低功耗的AI计算加速。

浪潮集团副总裁李金在XDF大会做主题演讲

浪潮集团副总裁李金在XDF大会做主题演讲

华为公司与Xilinx在XDF上联合发布FX系列FPGA加速卡

2018年10月16日,华为在赛灵思开发者论坛( XDF)上与赛灵思联合发布了FX系列FPGA加速卡,为基因测序、视频编码、图片处理、数据压缩等业务提供了高能效比的加速解决方案。XDF是一个连接软硬件及系统开发者与赛灵思及合作伙伴和业界领袖并进行深度交流的行业盛会。

(图:IT 智能计算业务副总裁张小华与赛灵思公司数据中心销售副总裁Freddy Engineer)

华为FX系列FPGA加速卡采用赛灵思 Ultrascale+ 16nm VU9P/VU5P芯片,支持PCIe 3.0 x16互连通道,2*100GE网络通道,最大外挂128GB内存;同时,华为FPGA加速云服务器基于自研FPGA加速卡已稳定运行一年, 最大可支持8张FPGA加速卡, FPGA之间最高可达300G Mesh互联,提供人工智能、基因测序、视频编码、图片处理、数据压缩、网络处理等业务的优化设计,具有高性能计算能力和大带宽数据连接,适用于多种类型的硬件加速业务,用最高能效比加速您的数据中心。

5月4日,阿里云宣布新一代FPGA计算实例F3启动邀测。该产品基于自研超高性能FPGA加速卡打造,可在云上实现FPGA加速业务的快速研发、安全分发、一键部署和弹性伸缩,为人工智能产业、图片视频转码、基因计算提供加速服务,在特定场景下的处理效率比CPU高百倍。

官网显示F3采用阿里云自研超高性能FPGA加速卡,搭载Xilinx 16nm Virtex UltraScale+ 器件VU9P,提供最高16个VU9P芯片的实例规格,此次对外发布邀测的实例规格支持4个VU9P芯片,此实例提供超过一千万逻辑单元,和高达47 TeraMACs 的DSP计算能力。

据了解,阿里云自主研发的高性能FPGA加速卡在诸多技术方面进行了创新:

1. 采用了创新的单卡双芯片设计,提高了计算密度,降低单位计算力的成本;

2. 卡内双芯片高速互联,带宽高达600Gbps,支持多种轻量级传输协议,传输效率95%

3. 卡间互连,通过硬核支持100Gbps Mac协议;

4. 提供实时健康监控能力,可感知底层故障,实时报警;

5. 首创的统一FPGA SHELL架构快速支持OpenCL,HLS以及RTL的开发流程,支持多种DMA访存加速,能够让多种应用程序开发的工程师更快捷的完成异构计算的定制开发工作;

百度云FPGA标准开发环境

FPGA标准开发环境
镜像是云服务器实例运行环境的模板,包括操作系统和预装软件等配置。百度云为每个FPGA实例默认提供了专属公共镜像,用户可以按需选择适合的镜像类型。

概述
基于百度云自研的FPGA加速卡,提供了一套FPGA标准开发环境。您可以使用百度云提供的镜像工具包,在FPGA上开发与调试自己的业务功能,或者将已有的功能模块移植到FPGA加速卡上。

百度自研FPGA加速卡使用Xilinx 20nm KU115 FPGA。FPGA板卡带有4通道DDR4,每个通道72bit,带ECC,容量2GB,速率2400Mhz。FPGA通过PCIE 3.0x8和CPU相连。板卡的结构框图如下所示:

基于上面的FPGA板卡,百度还提供的FPGA标准开发环境,其系统结构如下图:

视频: Xilinx@SC15:OpenCL, C/C++ 软件开发环境演示

该视频展示了赛灵思 SDAccel 开发环境的运行情况,并演示了一个软件程序员是如何在OpenCL中捕获一个应用,并利用 FPGA 对其完成加速的。整个过程中该程序员完全不需要是一个FPGA专家或对赛灵思器件设计流程特别熟悉即可独立完成。视频展示了SDAccel编译、调试和监测的功能,还有FPGA加速卡的展示。

该视频演示了FFmpeg OpenCL扩展了FPGA加速功能后的视频无缝加速,可应用于广播电视以及视频分发服务等。该应用采用赛灵思 SDAccel 开发环境开发,运行于IBM POWER8 服务器搭配Alpha Data公司的FPGA加速卡实现。

同步内容