硬件加速

在6月27日开幕的世界移动大会MWC上海展会上,联想集团、中国移动、赛灵思(Xilinx)、Napatech、锐德世(Radisys)五家公司联合推出了业界首个支持多形态加速硬件、软硬件充分解耦的移动接入网云化方案 。

联想集团副总裁、联想研究院企业服务云计算实验室和5G实验室负责人黄莹博士表示:“无线网基站云化与虚拟化是5G时代的重要技术方向,对运营商优化网络效率、促进业务创新、提升用户体验等方面,均具有深远意义。联想致力打造基于NFV技术的端到端产品与服务,在硬件加速与整体软、硬件解决方案等方面持续创新,助力运营商网络云化、虚拟化与智能化的转型。”

今年二月,中国移动联合全球多家运营商,在C-RAN理念的基础上进一步发起了开放智能无线网络(O-RAN)联盟,首次提出“智能管控、开放接口、开源白盒”无线接入网的核心理念,将进一步推进无线网基站的云化和虚拟化,最终实现软硬件解耦的开放设备。NFV虚拟化平台需要通过引入加速硬件设备进一步提升性能、优化能效、节省成本,这已在业界形成了共识。而目前加速器方案存在功能专一、接口不统一等问题,造成软硬件无法解耦。在这一背景下,中国移动从运营商实际需求出发,提出引入硬件可编程、且接口统一封装的硬件加速解决思路。与联想集团联合行业伙伴积极探索这一理念下的NFVI解决方案,取得了阶段性成果。

随着通用处理器的规模由于“暗硅 (Dark Silicon)”的局限性而不断缩减,定制化的硬件加速器 (如 FPGA,CGRA 和 ASIC) 在现代数据中心得到了越来越多的关注,因为它们的功耗更低,性能更高而延迟时间更短,能效更高。微软在其数据中心部署 FPGA,亚马逊、阿里巴巴、百度、华为和腾讯支持 FPGA 公有云的发布,以及 Google 的 TPU 云的部署,所有的这些都在证明,将定制硬件加速器集成到数据中心被认为是维持未来数据中心增长的最有前景的方法之一。

在数据中心部署硬件加速器仍处于初期阶段,并且面临许多亟需研究的挑战。例如,什么样的应用和工作负载可以从加速器中受益,如何编程和管理数据中心中的这些加速器,以及如何对这些加速器体系结构进行建模和优化?在本次研讨会中,我们将联合学术和行业专家分享他们的经验,讨论他们面临的挑战以及该领域潜在需要关注的领域。以下是计划将涉及的研讨会内容。欢迎报名参加!以下是计划将涉及的研讨会内容。

研讨会主题

作者:Steve Leibson,编译:黑夜

说起AI相信大家肯定大家都不陌生,搞过深度学习的人可能都会碰到一个问题,那就是没有一个好的加速硬件,例如GPU,很难做深度学习。小编今天带大家走进一篇关于机器学习加速芯片的报告,来看一下未来的机器学习加速市场。在这篇名为“加速器:下一代机器学习芯片”的报告中,德勤全球预测,“到2018年底,用于加速数据中心机器学习的所有芯片中,超过25%将是FPGA,ASIC”。报告接着说道:“这些芯片将大大提高机器学习的使用率,使应用程序能够消耗更少的功率,同时变得更具相应能力,灵活性和处理能力,这将扩大其市场”。在后来的报告中指出:“机器学习应用还将售出20万多个FPGA和10万个ASIC芯片”。

OpenCV库正被广泛地应用于算法原型设计,许多业界领先的厂商和计算机视觉研究机构都在使用。FPGA 可以为复杂的算法提供无与伦比的计算效率的优势,比如密集光流算法和立体视觉算法等,同时,功耗仅只有几瓦而已。然而,想要获得这一巨大优势,往往需要硬件设计专长,比如Verilog 或VHDL 语言的使用,这增加了开发难度。在本次研讨会当中,赛灵思展示了一种全新的方法,该方法可以使对硬件设计不太熟悉的设计者轻松而方便地释放FPGA 硬件加速的优势,比如利用经过硬件调优的OpenCV库,完全类似CC++ 的开发环境,以及随时可用的硬件开发平台等。

看一刻钟视频,C/C++代码运行效率就提高了?

作者:stark

我们在实现嵌入式系统功能的同时毫无疑问还需要进行系统工程的优化,尤其是代码的优化,这样才能够充分发挥嵌入式处理器的性能,让代码执行的更快。通常我们会采用三种方式:一是提升处理器的时钟速度,比如采用更高速度等级的器件,二是采用更多内核的处理来分担任务负载,三是采用更高端代码兼容性更强的处理器。这三种方式无疑会增加系统功耗和成本,另一种方式就是采用Xilinx All Programmable Zynq SoC和Zynq UltraScale+ MPSoC多核异构系列器件。

图1:Xilinx推出的Zynq UltraScale+ MPSoC多核异构器件

图1:Xilinx推出的Zynq UltraScale+ MPSoC多核异构器件

赛灵思公司(Xilinx, Inc.,(NASDAQ:XLNX))今天宣布其软件定义开发环境SDAccel现已上线亚马逊AWS,可与亚马逊弹性计算云(Amazon EC2)F1实例配合使用。Amazon EC2 F1实例借助赛灵思16nm Virtex®UltraScale+™FPGA,可提供可重配置的定制硬件加速功能,能够满足数据分析、视频处理和机器学习等计算密集型工作负载的种种需求。

随着面向Amazon EC2 F1实例的SDAccel开发环境的部署,使不太熟悉FPGA的软件开发人员现在也能够将工作负载的性能提升高达50倍之多。

SDAccel通过为Amazon EC2 F1构建专用的FPGA内核,可以自动加速使用C、C++或OpenCL编写的软件应用。SDAccel还支持传统硬件设计师用VHDL Verilog等底层硬件描述语言编写优化加速器。

SDAccel通过AWS FPGA开发人员亚马逊机器映像AMI(Amazon Machine Image) 提供,这样开发人员就能够快速在云端构建应用,且无需购买或安装任何软件或硬件。开发人员还可以利用AWS的全方位的服务来部署并灵活扩展其应用,以满足客户任何需求。

OpenCV库正被广泛地应用于算法原型设计,许多业界领先的厂商和计算机视觉研究机构都在使用。FPGA 可以为复杂的算法提供无与伦比的计算效率的优势,比如密集光流算法和立体视觉算法等,同时,功耗仅只有几瓦而已。然而,想要获得这一巨大优势,往往需要硬件设计专长,比如Verilog 或VHDL 语言的使用,这增加了开发难度。在本次研讨会当中,赛灵思将要向您展示一种全新的方法,该方法可以使对硬件设计不太熟悉的设计者轻松而方便地释放FPGA 硬件加速的优势,比如利用经过硬件调优的OpenCV库,完全类似CC++ 的开发环境,以及随时可用的硬件开发平台等。研讨会结束还有与专家的在线问答环节可以解答您的疑问。

时 间:2017年08月24日 10:00--12:00

专家介绍:罗霖(赛灵思亚太区工业医疗市场高级经理)

基于Vivado HLS的边缘检测硬件加速应用

作者:彭习武,张 涛 来源:2017年电子技术应用第5期

摘 要: 针对计算机处理高清图像或视频的边缘检测时存在延时长和数据存储带宽受限的缺点,提出了用Vivado HLS将边缘检测软件代码转换成RTL级硬件电路的硬件加速方法。硬件加速是将运算量大的功能模块由硬件电路实现,根据硬件电路工作频率高和数据位宽自定义,可以解决延时长和数据宽度受限的缺点。实验结果表明,边缘检测硬件加速方法不仅使延时和数据带宽都得到了改善,而且也缩短了边缘检测的开发周期。

0 引言

在计算机视觉和图像处理领域中,图像边缘检测技术起着重要的作用,其效果好坏直接影响整个系统的性能。由于图像的边缘蕴含了丰富的内在信息,是进行图像分割、特征值提取的重要依据。边缘检测不仅能减少处理数据,又能保留图像中物体的形状信息,是实时图像处理中的重要内容之一[1]。

视频:Nimbix Cloud 上的 Xilinx 应用加速

Xilinx 与大数据及机器学习的异构加速器云端解决方案领先供应商 Nimbix 公司合作,共同创建可通过 C/ C++ 和 OpenCL 利用 FPGA 计算密度的新一代应用。本视频将带您访问 Nimbix 以及掌握入门指南。

作者:清风流云

在过去的三十年中,以太网已经发展成为所有行业的统一通信基础架构。每天都有超过三百万的以太网端口在部署,覆盖从FE到100GbE的所有速度。企业和运营商在部署时通常会使用盒式的交换设备和堆叠和高密度机箱式交换机的组合,来应对以太网的不断演进。然而,在过去的几年中,以太网发展态势正在持续改变。随着数据中心以太网部署和创新都在以最快的速度进行着,数据中心的以太网端口部署趋于一致,无论是10GbE、25GbE或50GbE,相同的以太网端口速度通过一个机架架顶(ToR)交换机被部署于每一个服务器上,然后聚集到多个CLOS层。最终目的是将尽可能多的以太网端口以最高的商用速度部署在以太网交换机上,并使其最经济和最节能。连接到ToR交换机的终端是服务器NIC(网络接口卡),它一般是市场上可用的最高速度(目前为10/25GbE,正在向25/50GbE方向发展)。

今天,25GbE交换机的128个接口正在部署中,在接下来的几年内会到达并超越64x 100GbE。但是,尽管数据中心正在向更高的端口密度、更高的端口速度和同质部署方向发展,但是更低的速度仍拥有广泛市场,比如10GbE继续被使用并仍具有经济效益。数据中心的创新带动更高密度和更高端口速度的发展,但很多细分市场仍需要具备较低端口速度和不同密度的解决方案。

同步内容