硬件加速

OpenCV库正被广泛地应用于算法原型设计,许多业界领先的厂商和计算机视觉研究机构都在使用。FPGA 可以为复杂的算法提供无与伦比的计算效率的优势,比如密集光流算法和立体视觉算法等,同时,功耗仅只有几瓦而已。然而,想要获得这一巨大优势,往往需要硬件设计专长,比如Verilog 或VHDL 语言的使用,这增加了开发难度。在本次研讨会当中,赛灵思展示了一种全新的方法,该方法可以使对硬件设计不太熟悉的设计者轻松而方便地释放FPGA 硬件加速的优势,比如利用经过硬件调优的OpenCV库,完全类似CC++ 的开发环境,以及随时可用的硬件开发平台等。

看一刻钟视频,C/C++代码运行效率就提高了?

作者:stark

我们在实现嵌入式系统功能的同时毫无疑问还需要进行系统工程的优化,尤其是代码的优化,这样才能够充分发挥嵌入式处理器的性能,让代码执行的更快。通常我们会采用三种方式:一是提升处理器的时钟速度,比如采用更高速度等级的器件,二是采用更多内核的处理来分担任务负载,三是采用更高端代码兼容性更强的处理器。这三种方式无疑会增加系统功耗和成本,另一种方式就是采用Xilinx All Programmable Zynq SoC和Zynq UltraScale+ MPSoC多核异构系列器件。

图1:Xilinx推出的Zynq UltraScale+ MPSoC多核异构器件

图1:Xilinx推出的Zynq UltraScale+ MPSoC多核异构器件

赛灵思公司(Xilinx, Inc.,(NASDAQ:XLNX))今天宣布其软件定义开发环境SDAccel现已上线亚马逊AWS,可与亚马逊弹性计算云(Amazon EC2)F1实例配合使用。Amazon EC2 F1实例借助赛灵思16nm Virtex®UltraScale+™FPGA,可提供可重配置的定制硬件加速功能,能够满足数据分析、视频处理和机器学习等计算密集型工作负载的种种需求。

随着面向Amazon EC2 F1实例的SDAccel开发环境的部署,使不太熟悉FPGA的软件开发人员现在也能够将工作负载的性能提升高达50倍之多。

SDAccel通过为Amazon EC2 F1构建专用的FPGA内核,可以自动加速使用C、C++或OpenCL编写的软件应用。SDAccel还支持传统硬件设计师用VHDL Verilog等底层硬件描述语言编写优化加速器。

SDAccel通过AWS FPGA开发人员亚马逊机器映像AMI(Amazon Machine Image) 提供,这样开发人员就能够快速在云端构建应用,且无需购买或安装任何软件或硬件。开发人员还可以利用AWS的全方位的服务来部署并灵活扩展其应用,以满足客户任何需求。

OpenCV库正被广泛地应用于算法原型设计,许多业界领先的厂商和计算机视觉研究机构都在使用。FPGA 可以为复杂的算法提供无与伦比的计算效率的优势,比如密集光流算法和立体视觉算法等,同时,功耗仅只有几瓦而已。然而,想要获得这一巨大优势,往往需要硬件设计专长,比如Verilog 或VHDL 语言的使用,这增加了开发难度。在本次研讨会当中,赛灵思将要向您展示一种全新的方法,该方法可以使对硬件设计不太熟悉的设计者轻松而方便地释放FPGA 硬件加速的优势,比如利用经过硬件调优的OpenCV库,完全类似CC++ 的开发环境,以及随时可用的硬件开发平台等。研讨会结束还有与专家的在线问答环节可以解答您的疑问。

时 间:2017年08月24日 10:00--12:00

专家介绍:罗霖(赛灵思亚太区工业医疗市场高级经理)

基于Vivado HLS的边缘检测硬件加速应用

作者:彭习武,张 涛 来源:2017年电子技术应用第5期

摘 要: 针对计算机处理高清图像或视频的边缘检测时存在延时长和数据存储带宽受限的缺点,提出了用Vivado HLS将边缘检测软件代码转换成RTL级硬件电路的硬件加速方法。硬件加速是将运算量大的功能模块由硬件电路实现,根据硬件电路工作频率高和数据位宽自定义,可以解决延时长和数据宽度受限的缺点。实验结果表明,边缘检测硬件加速方法不仅使延时和数据带宽都得到了改善,而且也缩短了边缘检测的开发周期。

0 引言

在计算机视觉和图像处理领域中,图像边缘检测技术起着重要的作用,其效果好坏直接影响整个系统的性能。由于图像的边缘蕴含了丰富的内在信息,是进行图像分割、特征值提取的重要依据。边缘检测不仅能减少处理数据,又能保留图像中物体的形状信息,是实时图像处理中的重要内容之一[1]。

视频:Nimbix Cloud 上的 Xilinx 应用加速

Xilinx 与大数据及机器学习的异构加速器云端解决方案领先供应商 Nimbix 公司合作,共同创建可通过 C/ C++ 和 OpenCL 利用 FPGA 计算密度的新一代应用。本视频将带您访问 Nimbix 以及掌握入门指南。

作者:清风流云

在过去的三十年中,以太网已经发展成为所有行业的统一通信基础架构。每天都有超过三百万的以太网端口在部署,覆盖从FE到100GbE的所有速度。企业和运营商在部署时通常会使用盒式的交换设备和堆叠和高密度机箱式交换机的组合,来应对以太网的不断演进。然而,在过去的几年中,以太网发展态势正在持续改变。随着数据中心以太网部署和创新都在以最快的速度进行着,数据中心的以太网端口部署趋于一致,无论是10GbE、25GbE或50GbE,相同的以太网端口速度通过一个机架架顶(ToR)交换机被部署于每一个服务器上,然后聚集到多个CLOS层。最终目的是将尽可能多的以太网端口以最高的商用速度部署在以太网交换机上,并使其最经济和最节能。连接到ToR交换机的终端是服务器NIC(网络接口卡),它一般是市场上可用的最高速度(目前为10/25GbE,正在向25/50GbE方向发展)。

今天,25GbE交换机的128个接口正在部署中,在接下来的几年内会到达并超越64x 100GbE。但是,尽管数据中心正在向更高的端口密度、更高的端口速度和同质部署方向发展,但是更低的速度仍拥有广泛市场,比如10GbE继续被使用并仍具有经济效益。数据中心的创新带动更高密度和更高端口速度的发展,但很多细分市场仍需要具备较低端口速度和不同密度的解决方案。

“加速界的后起之秀”:Xilinx 可重构加速堆

作者:清风流云

自2012年维克托•迈尔-舍恩伯格及肯尼斯•库克耶编写的《大数据时代》问世之后,大数据这个词就越来越多的被提及,人们用它来描述和定义爆炸时代产生的海量数据。紧随其后数据挖掘,人工智能,机器学习,深度学习这些学科也出现在各大研究所、高校实验室,并迅速获得蓬勃发展。这些学科的出现与发展标志着数据爆炸时代的到来。究其缘由,针对这些学科的研究,不论是算法还是运算都面临着海量数据的处理,这几门学科均不是单纯的单领域的研究,都是多个领域交叉学科的研究,涉及概率论,统计学,逼近论,凸分析,密码学,仿生学等等多门学科。随后,针对这些学科数据处理的算法大量涌现,对算法运行速度的要求也越来越高,所以,对算法的硬件加速器设计,对数据处理的硬件加速器设计就变得十分迫切。

Xilinx 可重构加速堆:

今天,在机器学习、数据分析、实时视频数据流三个超大规模数据中心的加速实现中,为了消除编程障碍,降低工作量,Xilinx的可重构加速度堆找到了用武之地。

张 宇,冯 丹
(华中科技大学计算机科学与技术学院,湖北武汉430074)
E mail: yuzhangl3@gmail.com
当前嵌入式计算应用不断增加,嵌入式系统需要具备相当的处理能力以满足应用需求.在系统中耦合一个专用硬件处
理模块来加速某种计算机密集型应用是一种被广泛采纳的有效手段.针对基于Xilinx FPGA的可编程片上系统,从体系结构角度分别研究了三种形式的硬件加速方案:(1)与CPU耦合的协处理器;(2)挂接在PLB总线上的加速器;(3)挂接在MPMCSwitch Fabric上的加速器.分析了三种方案各自的特点.在实验环节选取了128位AES加密算法,并在Xilinx Virtex5器件上做了硬件实现,结果表明基于MPMC扩展的加速器方案性能较好,CPU占用率最低.

同步内容