Kintex UltraScale

给AI换个“大动力小心脏”之OCR异构加速

作者: derick,腾讯架构师

OCR在通用文字识别等场景下有广泛应用,基于FPGA异构加速的OCR识别相比CPU/GPU实现具有延时小、成本低的优势。我们设计了多FPGA芯片协同的异构加速架构,能快速适配业务OCR模型变化,检测识别整体性能为GPU P4 130%,处理延时仅为P4的1/10,CPU的1/30。

1.文字识别技术- OCR

OCR技术,通俗来讲就是从图像中检测并识别字符的一种方法,在证通用文字识别、书籍电子化、自动信息采集、证照类识别等应用场景中得到了广泛应用。通用场景的OCR因此通用场景下的OCR技术一直都是人工智能领域挑战性极强的研究领域,不需要针对特殊场景进行定制,可以识别任意场景图片中的文字。

通用OCR技术包含两大关键技术:文本检测和文字识别。检测模型的作用简单来说就是确定图片中哪里有字,并把有字的区域框出来。文字识别是将文本检测box作为输入,识别出其中的字符。

全新的PXI FlexRIO示波器与PXI FlexRIO协处理器模块相结合,无需通过自定义设计, 即可提供自定义硬件解决方案。

NI(美国国家仪器公司,National Instruments,简称NI) 作为致力于为工程师和科学家提供基于平台的系统解决方案来应对全球最严峻工程挑战的供应商,近日宣布推出集成Mezzanine I/O模块与Xilinx Kintex UltraScale FPGA的全新PXI FlexRIO架构硬件平台。 基于此全新架构推出的第一批产品,包含两款高分辨率PXI FlexRIO示波器、三款专用PXI FlexRIO协处理器模块,以及一款可协助进行自定义前端开发的模块开发包。

Nextera Video 公司为解决当今广播视频专业人员所面临的主要问题提供优质的产品以及解决方案,包括向 VoIP 和硬件虚拟化过渡等。SONY NMI 系统是一个即插即用的 VoIP 系统,使用 COTS IP 交换机通过 IP 提供端到端的压缩或非压缩视频。赛灵思 FPGA 为系统提供了最佳的每瓦性能比,并可根据特定的视频应用需求灵活地定制系统。

作者:Richard Chirgwin

Mellanox公司的下一代Innova网络适配器不仅将整合强制性高速接口,同时亦将嵌入一块Xilinx FPGA芯片。

分流工作负载已经成为Mellanox适配器发展策略中的一项重要组成部分,而这显然也迎合了一部分客户的需求——正因为如此,FPGA的加入也变得顺理成章。

该公司高级营销主管Bob Doud在接受采访时解释称,即将推出的这款Innova-2适配器进一步扩展了“将对主机CPU不友好的软件负载的分流能力,通过在FPGA内加速不同功能实现网络功能提速。”

这款全新适配器将Mellanox ConnectX-5与Xilinx Kintex超大规模FPGA加以结合,且提供配置选项以加速主机应用或者网络应用。

通过配置,各板载连接机制——包括网络接口、RDMA以及PCIe——将能够实现主机加速(‘旁观’)或网络加速(‘线路内对冲’)等效果。

在线路内对冲场景下,来自以太网接口的流量将被传递至FPGA以实现网络分流,而后被交付至ConnectX-5系统芯片处,最后才抵达主机。在旁观配置下,流量则首先由该系统芯片处理,随后主机加速工作负载流量被进一步传递至FPGA处。

网上上的PCI交换机同样可以进行两路拆分。

作者:清风流云

背景:
脉冲神经网络Spiking neuralnetworks (SNNs)是第三代神经网络模型,其模拟神经元更加接近实际,除此之外,把时间信息的影响也考虑其中。基本思路为:动态神经网络中的神经元不是在每一次迭代传播中都被激活(而在典型的多层感知机网络中却是),而是在它的膜电位达到某一个特定值才被激活。当一个神经元被激活,它会产生一个信号传递给其他神经元,提高或降低其膜电位。在脉冲神经网络中,神经元的当前激活水平(被建模成某种微分方程)通常被认为是当前状态,一个输入脉冲会使当前这个值升高,持续一段时间,然后逐渐衰退。出现了很多编码方式把这些输出脉冲序列解释为一个实际的数字,这些编码方式会同时考虑到脉冲频率和脉冲间隔时间。

BrainChip加速卡:

作者:蒙面侠客

微处理器快速读取内存,双倍和四倍的数据速率同步SRAM,网络和电信系统的快速数据交换,用于支持高端数位讯号处理器以及其在VoIP、蜂巢式基站台、DSL线卡及数据机等方面的应用,低延迟DRAM的应用。这些方面都需要快速的读写性能。怎么才能获得更快的读写速度呢?

遇上了内存传输速度的问题?想要更高的内存速度?GSI科技提供了一个好的解决方案,这款神器的读写速度能够同时达到7.2Gbyte/sec。当然这是在结合了SigmaQuad-IIIe SRAM和Xilinx Kintex UltraScale FPGA之后表现出现的强大性能,同时还要依靠36-bit的读写速度和800MHz的时钟速度。如图1所示,可见板子上的SigmaQuad-IIIe SRAM直接和Xilinx Kintex UltraScale KU040 FPGA相连接。GSI是怎么实现这种性能的呢?此公司发展了自己的内存控制器IP来实现这个惊人的传输速度,而且这个IP是对GSI的用户免费开放的。

FPGA资源平民化 - 阿里云FaaS F2使用指南

前言
阿里云虚拟化团队异构计算和高性能计算团队一直致力于将计算资源"平民化";平民化这个词我第一次是从高性能计算团队何万青老师那边听到的,他们在做的E-HPC就是要让所有云上用户都能够瞬间拥有一个小型的超算集群,使得使用超算不再仅仅是一些超算中心和高校的特权;我们异构计算团队则致力于将目前最快,最新的计算设备在云上提供给用户,之前的产品为GPU云服务器EGS;大概半年前我们正式推出了FPGA云服务器FaaS;经过内测,公测,现在终于正式上线,用户只需要开通白名单就可以和使用ECS虚拟机一样使用FPGA资源了!

IBM打造的新服务器架构之中的中流砥柱Xilinx FPGA

作者:蒙面侠客

背景:
FPGA(Filed Programmable Gate Arrays)在数据中心服务器中开辟道路,他们被用作加速器来促进单个服务器节点的计算能力,从而增加了整体服务器的计算效率。与此同时,数据中心的服务器基础架构被重新设计,在同样的体积和同样的功耗的情况下能够使承载更多的计算量。这种重新设计将不同于传统的服务器,服务器由多个服务器节点组成,每一个服务器节点用独立的处理器,FPGA,内存,存储模块等组成。

为了跟随服务器发展的潮流,IBM公司发展了一种平台,将FPGA和服务器的CPU分离,直接将FPGA连接到数据中心的网络之中。这种解决方案将会使FPGA作为一种单独的计算单元,将多个FPGA单元形成的集群用于新兴的超大规模数据中心中使用的服务器。IBM的研究室里,科研人员将64个Xilinx公司的Kintex UltraScale XCKU060 型号的FPGA集成到一起形成一个服务器插片单元,能够达到最大带宽640Gb/s。将16个基本的插片单元集成在一个服务器的柜子上,便形成了一个有着1024个FPGA和16TB的2400Mb/s的DDR4内存的服务器。这个平台充分考虑了成本效率,使用水冷的方式实现了最优的能量效率。

PON:数据传输至家庭的演变

作者:Paolo Novellini、Antonello Di Fresco/赛灵思

15年前,连接因特网最常见的方式是透过模拟调制解调器,再经标准电话语音信道发送数据。这种技术采用已经部署的现有标准双绞电话线,无需对「最后一哩(last mile)」技术做任何更改,因此对使用者来说这种方式非常廉价,并迅速主导整个通讯市场。不用挖路铺线、不用改变中央机房(CO),这种方式极具吸引力。

模拟调制解调器的峰值速度为56Kbps。为什么是56Kbps?为什么不再高一点?简单地说:这不是「理论上」的可能,而是这种理论极限局限了ADSL技术的发展舞台。

模拟调制解调器使用经ITU-T委员会严格规范的现有语音信道。该通道具有限定带宽(4kHz,包含防护频段),进入Muldex(多任务器/解多任务器,Multiplexer Demultiplexer)之前在中央机房进行硬件滤波。Muldex是中央机房中与电话连接的设备。

透过4kHz模拟通道可传输的最大数据速率是多少?这个问题的关键是了解ADSL。

SDAccel 项目可针对目标平台进行编译。SDAccel 平台参考设计是电路板和软硬件架构组件的完美结合,可通过它执行 OpenCL 应用内核。 该参考设计可作为帮助平台开发人员为其定制 PCIe 电路板添加 DAccel 支持的起点。

同步内容