FPGA加速

近期,华为云携手峰科计算(以下简称“峰科”)发布基于FPGA的基因加速云解决方案,该方案采用GATK(The Genome Analysis Toolkit)标准分析流程,将全基因组测序(WGS)性能提升5倍,比传统模式提升3~5倍,同时测序精度可达99.95%以上,在大幅缩短测序时间的同时实现TCO大幅降低。

基因测序数据分析加速面临的挑战

首先,基因测序分析流程BWT+GATK当前被业界广泛采纳,但采用此流程的传统测序方法需要消耗高额算力及存储资源,且耗时较长。

其次,针对基因测序中高算力需求的smith-waterman,pair-hmm等算法处理,其具有计算并行性,不连续,非规则的存储访问,低bit操作等特性,计算依赖不规则区域的操作会对CPU消耗很大,性能难以提升。

华为云FPGA基因加速解决方案的三大优势

国内外公有云市场相继登陆 DDESE是何方神圣

最近,有几则消息吸引了老孙的注意力,一则消息是在海外,亚马逊AWS最近上线了一款名为DDESE的FPGA语音识别加速方案,据说这个语音识别加速解决方案是首个在AWS上发布的,由中国人工智能创业公司提供的方案。另一则消息是,国内的华为云也将DDESE解决方案移植到了华为云平台之上。此外,据说阿里云也正在将DDESE迁移至其上。那么,这个DDESE到底是何方神圣,竟然可以让诸多云厂商“竞折腰”?

DDESE,语音识别的“加速器”

DDESE是深鉴科技笛卡尔高效语音识别引擎(DeePhi Descartes Efficient Speech Recognition Engine)的简称,它是深鉴科技基于Xilinx FPGA自主研发的高效的端到端自动语音识别引擎,它针对深度神经网络(主要是LSTM),为用户提供软硬件协同设计的快速、灵活、高效的推理计算加速解决方案(包括剪枝、定点、编译和FPGA执行推理)。它借助了DeepSpeech2框架和LibriSpeech 1000小时数据集来做模型训练和压缩,支持用户测试对比CPU/FPGA的性能以及体验单句语音识别效果。

深鉴科技于国内领先公有云服务商华为云发布语音识别加速引擎DDESE——DeePhi Descartes Efficient Speech Recognition Engine,即深鉴科技笛卡尔架构高效语音识别引擎。该方案在亚马逊AWS发布之后,迅速移植上线国内公有云市场。以语音识别为应用载体,对AI类应用推理计算进行全面加速。成为目前国内公有云市场上,首款基于FPGA平台的原创深度学习语音识别加速解决方案。

近年来,云端业务发展日新月异,市场对底层硬件架构提出更高性能的要求,而FPGA的可定制化和多功能的灵活特性,与云端灵活、复杂、多变的需求“不谋而合”,继而在全球云端业务中广泛加快布局。而国内著名公有云服务商华为云顺应趋势,开发FPGA加速服务,应用场景覆盖基因分析、视频/图片处理、深度学习、加解密、大数据等多个领域,于2018年4月30日正式商用。聚焦基因测序、视频处理和图像处理三大场景,为企业提供极致、易用、专业的FPGA加速云服务。

随着通用处理器的规模由于“暗硅 (Dark Silicon)”的局限性而不断缩减,定制化的硬件加速器 (如 FPGA,CGRA 和 ASIC) 在现代数据中心得到了越来越多的关注,因为它们的功耗更低,性能更高而延迟时间更短,能效更高。微软在其数据中心部署 FPGA,亚马逊、阿里巴巴、百度、华为和腾讯支持 FPGA 公有云的发布,以及 Google 的 TPU 云的部署,所有的这些都在证明,将定制硬件加速器集成到数据中心被认为是维持未来数据中心增长的最有前景的方法之一。

在数据中心部署硬件加速器仍处于初期阶段,并且面临许多亟需研究的挑战。例如,什么样的应用和工作负载可以从加速器中受益,如何编程和管理数据中心中的这些加速器,以及如何对这些加速器体系结构进行建模和优化?在本次研讨会中,我们将联合学术和行业专家分享他们的经验,讨论他们面临的挑战以及该领域潜在需要关注的领域。以下是计划将涉及的研讨会内容。欢迎报名参加!以下是计划将涉及的研讨会内容。

研讨会主题

华为云FPGA加速云服务器正式商用

作者:艾斯

华为云FPGA加速云服务器公测半年以来,数百家客户积极参与公测试用,应用场景覆盖基因分析、视频/图片处理、深度学习、加解密、大数据等多个领域。

在广泛聆听客户声音及建议之后不断优化与完善,于2018年4月30日正式商用,聚焦基因测序、视频处理和图像处理三大场景,为企业提供极致、易用、专业的FPGA加速云服务。

1. 基因测序
GATK标准分析流程,测序性能提升5X

在基因测序领域,华为云联合合作伙伴峰科(Falcon)共同推出基因加速解决方案,该方案采用GATK标准分析流程,将基因测序时间从传统模式下的30个小时降低到5~6个小时,性能提升5X,同时测序精度与标准流程保持一致。对客户来说在大幅缩短测序时间的同时实现TCO的大幅降低。

为了能更好的发挥FPGA在基因领域的优势,华为云还定制了一款32核 224G内存的高规格FP1实例,该实例集成了峰科的加速IP,能够为客户提供最优的解决方案。同时峰科基因加速解决方案也正式上线华为云市场,为企业提供更多选择!

2. 视频处理
H.264编码路数提升6X

在视频领域,高清直播、高清视频游戏、VR/AR等需要实时在线转播,因此对性能和时延有着极高的要求。

商汤科技联合北京大学等提出一种基于 FPGA 的快速 Winograd 算法,可以大幅降低算法复杂度,改善 FPGA 上的 CNN 性能。论文中的实验使用当前最优的多种 CNN 架构,从而实现了 FPGA 加速之下的最优性能和能耗。

1. 引言
深度卷积神经网络(CNN)在多个计算机视觉任务上取得了优秀的性能,包括图像分类、目标检测和语义分割 [1, 2]。CNN 的高准确率是以极大的计算复杂度为代价的,因为它需要对特征图中的所有区域进行综合评估 [3, 4]。为了解决如此巨大的计算压力,研究者使用 GPU、FPGA 和 ASIC 等硬件加速器来加速 CNN [5–17]。其中,FPGA 因其高性能、低能耗和可重配置性成为有效解决方案。更重要的是,使用 C 或 C++的高级综合(High Level Synthesis,HLS)大幅降低了 FPGA 的编程障碍,并提高了生产效率 [18–20]。

作者:北楼

阿里妹导读:X-Engine 是集团数据库事业部研发的新一代存储引擎,也是新一代分布式数据库X-DB的根基。在线事务处理的数据库存储引擎中,如何有效率的回收多版本的旧数据一直是一个难题,尤其在write intensive的应用中,事务处理无可避免受到后台任务的干扰(compaction or vacuum),引入异构计算设备来offloading这些任务的想法由来已久,但是真正想要应用起来确有难度。

今天,我们将为大家详细介绍带有FPGA加速的X-Engine存储引擎。这篇文章不仅仅讲述如何设计并实现出更高效的FPGA逻辑,还有如何提升I/O,做好混合负载调度、容错等。"平稳"二字,看似波澜不惊,实则暗藏巨浪。

前言

华为 Craig Davies 于 2018 年 1 月 9 日在法兰克福举办的 XDF 2018 Cloud Track 上分享了一个用例演示。Craig 介绍了华为公共云服务及其优势。

rENIAC 可通过 AWS F1 实例实现数据存储加速即服务,无需重新构建或重新编译应用代码,便可解决客户数据中心的低效率问题。

2017年12月23日,星期六, 华为云FPGA 异构计算技术私享会在上海3W咖啡成功举办。原定150人的活动一经发布, 近600人报名参加, 虽经多方筛选, 会场依然一下子迎来了230多名参会者!在那么一个寒冷的冬天的周末,来自行业用户的热情既是对华为技术实力的信任,也是用户对应用上云的热切期望, 同时也是行业对赛灵思FPGA云加速的高度认同。为推动FPGA加速云服务, 赛灵思在此次活动中从用户邀请以及演讲主题等方面提供了强大支持。

本期私享会,既有华为云异构计算FPGA技术团队四位技术大咖激情演讲, 从华为FPGA的发展历程,FPGA的开发流程、FPGA应用场景等多个维度为大家深度诠释了华为云FPGA服务;同时还有复旦大学范益波教授介绍了在高校如何利用FPGA来做H.265视频编解码,更有华为云合作伙伴赛灵思、依元素科技的精彩演讲为FPGA应用上云疯狂打call!

二十年探索和实践,华为云FPGA服务厚积薄发

从1988年电信领域的探索到2012年NFV领域的应用,再到2017年FPGA的云化,华为FPGA经历了3个重要阶段的改革:

同步内容