KU115-FPGA

给AI换个“大动力小心脏”之OCR异构加速

作者: derick,腾讯架构师

OCR在通用文字识别等场景下有广泛应用,基于FPGA异构加速的OCR识别相比CPU/GPU实现具有延时小、成本低的优势。我们设计了多FPGA芯片协同的异构加速架构,能快速适配业务OCR模型变化,检测识别整体性能为GPU P4 130%,处理延时仅为P4的1/10,CPU的1/30。

1.文字识别技术- OCR

OCR技术,通俗来讲就是从图像中检测并识别字符的一种方法,在证通用文字识别、书籍电子化、自动信息采集、证照类识别等应用场景中得到了广泛应用。通用场景的OCR因此通用场景下的OCR技术一直都是人工智能领域挑战性极强的研究领域,不需要针对特殊场景进行定制,可以识别任意场景图片中的文字。

通用OCR技术包含两大关键技术:文本检测和文字识别。检测模型的作用简单来说就是确定图片中哪里有字,并把有字的区域框出来。文字识别是将文本检测box作为输入,识别出其中的字符。

FPGA资源平民化 - 阿里云FaaS F2使用指南

前言
阿里云虚拟化团队异构计算和高性能计算团队一直致力于将计算资源"平民化";平民化这个词我第一次是从高性能计算团队何万青老师那边听到的,他们在做的E-HPC就是要让所有云上用户都能够瞬间拥有一个小型的超算集群,使得使用超算不再仅仅是一些超算中心和高校的特权;我们异构计算团队则致力于将目前最快,最新的计算设备在云上提供给用户,之前的产品为GPU云服务器EGS;大概半年前我们正式推出了FPGA云服务器FaaS;经过内测,公测,现在终于正式上线,用户只需要开通白名单就可以和使用ECS虚拟机一样使用FPGA资源了!

阿里云宣布推出全新一代异构加速平台,这是阿里云首次发布一整套异构计算家族,其涵盖GPU、FPGA在内等6款异构实例,可满足从图形渲染到高性能计算及人工智能等复杂应用的计算需求。

  其中,适用于深度学习在线推理(Inference)的 GPU 实例 GN5i,采用了英伟达 Pascal 架构 P4 图形处理器,提供最大 45Tops INT8 整型计算能力和 11TFlops FP32 单精度浮点计算能力。可根据深度学习计算力的要求,进行 GPU 实例的“Scale-out”水平扩容或“Scale-up”垂直变配。分钟级即可完成实例的创建。

  阿里云高级技术专家龙欣介绍,在面向 AI 深度学习在线推理场景时,GN5i 实例依托专有推理型 GPU 和阿里云高性能 SSD 云存储和 OSS 存储服务,在满足数据处理 IO 的基础上,时延最低可达微秒级。此外,GN5i 可一键部署 TensorFlow、Caffe 等主流深度学习框架,提供智能调度、自动运维、实时扩容等服务,有效降低人工智能在线服务成本 50%以上。

作者:闲情逸致

背景:
高频交易是指从那些人们无法利用的极为短暂的市场变化中寻求获利的计算机化交易,比如,某种证券买入价和卖出价差价的微小变化,或者某只股票在不同交易所之间的微小价差。这种交易的速度非常快,以至于有些交易机构将自己的“服务器群组”(server farms)安置到了离交易所的计算机很近的地方,以缩短交易指令通过光缆以光速旅行的距离。追求速度?这无疑又是FPGA可以发挥的领域。

Aldec HES-HPC-DSP-KU115 FPGA加速板:
现在社会,无论做什么都讲究速率,简单来讲即——时间就是金钱,时间就是一切,而这句话在高频交易领域(HFT)更为突出,为了寻求高利润需要不断地定量建模来减小超短期投资组合持有期。在高频交易的竞技场上,万分之一秒就可以产生很大的不同。这就导致很多的高频贸易公司使用基于FPGA开发的硬件来进行决策和投资贸易,其中,很多的公司都选择使用赛灵思FPGA芯片。这也就说明了为何Aldec可以2017年的芝加哥贸易展这种经济类展会上展示自己的HES-HPC-DSP-KU115 FPGA加速板了。

事倍价半!Prodigy Kintex UltraScale Proto创造奇迹

作者:闲情逸致

背景:
关于S2C公司,对于做FPGA的人来说可能比较熟悉,特别是近年来S2C和FPGA巨头Xilinx公司有了越来越多的密切合作。S2C公司是业内领先的SoC/ASIC快速原型解决方案供应商,于2003年,由一个来自硅谷的具有丰富的ASCI仿真、FPGA原型设计以及SoC验证技术经验的团队成立于美国加州圣约瑟,从它成立伊始,已经成功地发布了快速SoC原型设计解决方案。目前,S2C公司主要提供三类产品:
1)基于FPGA的快速软、硬件原型设计
2)设计成熟的IP原型,包含IP的接口和运行平台
3)系统级的设计验证及加速工具。

深度学习:基于FPGA的解决方案更具优势

作者:Stark

近几年来人工智能相关信息登上了各大媒体头条,自动驾驶,无人车也不再显得那么陌生,其实这一切都源于机器学习,深度学习和人工神经网络等相关学科的兴起。机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论,统计学,算法复杂度理论等多门学科。深度学习是机器学习研究中一个新的领域,本身是神经网络算法的衍生,在图像,语音等富媒体的分类和识别上取得了非常好的效果,各大研究机构和高科技公司都投入了大量的人力来做相关的研究和开发,例如百度公司于2013年成立了深度学习研究院(Institute of Deep Learning, IDL)为研究创新竭尽全力。

百度运用FPGA方法大规模加速SQL查询

作者: Nicole Hemsoth 译者: LinuxBars

尽管我们对百度今年工作焦点的关注集中在这个中国搜索巨头在深度学习方面的举措上,许多其他的关键的,尽管不那么前沿的应用表现出了大数据带来的挑战。

正如百度的欧阳剑在本周 Hot Chips 大会上谈论的,百度坐拥超过 1 EB 的数据,每天处理大约 100 PB 的数据,每天更新 100 亿的网页,每 24 小时更新处理超过 1 PB 的日志更新,这些数字和 Google 不分上下,正如人们所想象的。百度采用了类似 Google 的方法去大规模地解决潜在的瓶颈。

正如刚刚我们谈到的,Google 寻找一切可能的方法去打败摩尔定律,百度也在进行相同的探索,而令人激动的、使人着迷的机器学习工作是迷人的,业务的核心关键任务的加速同样也是,因为必须如此。欧阳提到,公司基于自身的数据提供高端服务的需求和 CPU 可以承载的能力之间的差距将会逐渐增大。

Single KU115 Prodigy™ Logic Module

Single KU115 Prodigy Logic Module是采用了S2C的第六代原型技术的,基于赛灵思Kintex UltraScale XCKU115 FPGA的SoC/ASIC原型系统,是一款理想的面向物联网应用和其他中小规模设计的FPGA原型解决方案。其拥有5,520 DPS资源,完美的贴合计算密集型应用的需求。Single KU115原型系统还拥有48路高速收发器以满足高速数据通信的需要。此低成本、通用而又独立的原型系统可与S2C市场领先的丰富的原型接口子卡库相集成,以快速构建目标原型系统。

I/O架构

大容量与可扩展性

  • 1.45M系统逻辑单元
  • 75.9Mb内部存储器
  • 5,520 DSP Slice
  • 多颗Logic Module之间可通过互联模块或线缆轻松实现容量的扩展
  • 作者:Kenshin

    Annapolis Micro Systems公司成立于1982年,被认为是可重构计算系统的领导者,它主要设计和生产嵌入式商用现货(COTS)系统和产品,主要用于数字信号处理和高性能嵌入式计算,面向军事和商业市场提供解决方案。Annapolis Micro Systems公司同时也开发出两款革命性质的编程工具“CoreFire Next”和“Open Project Builder”,让用户能够充分利用FPGA强大的功能来实现更具挑战性的应用系统设计。

    今天向大家介绍的是Annapolis Micro Systems公司又推出两款基于Xilinx FPGA的开发板卡,这两款板卡同样符合OpenVPX 6U技术规范,属于其开发的“WILDSTAR”系列板卡。这两块板卡采用的都是Xilinx 20nm Kintex UltraScale FPGA:

  • “WILDSTAR UltraKVP 2PE”:集成一个或者两个Xilinx Kintex UltraScale KU115 FPGA
  • “WILDSTAR UltraKVP 3PE”:集成三个Xilinx Kintex UltraScale KU115 FPGA
  • 作者:Kenshin

    DRC(DRC Computer Corporation)是一家专门定制应用加速解决方案的公司,帮客户降低成本的同时提升系统性能。自主研发了基于FPGA(可编程门阵列)可配置协处理器,运行复杂的数据分析应用要比同级别的X86处理器要快上很多倍。DRC公司的客户超过100多个遍布世界,各地,它为客户定制的应用覆盖了大数据分析搜索,图像处理,数据安全,金融分析,科研,军事等各种领域。美国军事部门也是其客户之一,DRC主要负责其大数据应用研发任务。

    图1 DRC开发的大数据应用领域广泛

    图1 DRC开发的大数据应用领域广泛

    同步内容