异构计算

【扫盲帖】人工智能的计算力基石--异构计算

本文将带领入门读者了解CPU,GPU,FPGA,ASIC和异构计算的一些基本概念和优缺点,希望帮助入门者和爱好者建立基本的芯片概念。

人工智能有三要素:算法,计算力,数据。我们今天主要来讲讲计算力。

计算力归根结底由底层芯片提供。按照计算芯片的组成方式,可以分成:
同构计算:使用相同类型指令集和体系架构的计算单元组成系统的计算方式。
异构计算:使用不同类型指令集和体系架构的计算单元组成系统的计算方式。常见的计算单元类别包括CPU、GPU、ASIC、FPGA等。

我们从CPU开始,讲一个小故事来帮助你理解一切。

异构厨房系统:
有一个大厨(CPU),能做各种菜(兼容性好),但是某些大量重复的动作(例如切菜)明显减慢了他做菜的速度。原来客人都点炒青菜,拌黄瓜之类的,大厨自己还算能胜任,但是最近(大数据时代到来),客人要求高了很多,开始点各种大菜(大量数据复杂处理)。

作者:chaningwang,andybzhang

本文重点介绍:

1、各种处理器的特点:简要对比各种处理器的特点

2、图片处理算法的特点:介绍图片处理算法的特点3、FPGA加速性能的主要因素:分析FPGA能够加速图片处理的原因4、HEVC算法之FPGA和CPU实现差异:介绍HEVC FPGA实现和CPU实现差异5、图片业务在互联网中的实际应用:介绍当前图片业务中使用的性能对比6、HEVC图片编码算法介绍

一各种处理器的特点

通用处理器(CPU)可提供高度的灵活性和易用性,可以低廉的价格生产,并且适用于多种用途和重复使用。但性能相对缺乏效率。

专用集成电路(ASIC)可提供高性能,但代价是不够灵活且生产难度更大。这些电路专用于某特定的应用程序,并且生产起来价格昂贵且耗时。

从灵活性而言,介于CPU和ASIC两者之间的处理器,使用比较多的异构处理器目前有两个,一个是GPU,一个是FPGA。

FPGA属于一类更通用的可编程逻辑设备(PLD), FPGA既能提供集成电路的性能优势,又具备CPU可重新配置的灵活性。简单来说,FPGA是一种可重新配置的“通用集成电路”。

作者:北楼

阿里妹导读:X-Engine 是集团数据库事业部研发的新一代存储引擎,也是新一代分布式数据库X-DB的根基。在线事务处理的数据库存储引擎中,如何有效率的回收多版本的旧数据一直是一个难题,尤其在write intensive的应用中,事务处理无可避免受到后台任务的干扰(compaction or vacuum),引入异构计算设备来offloading这些任务的想法由来已久,但是真正想要应用起来确有难度。

今天,我们将为大家详细介绍带有FPGA加速的X-Engine存储引擎。这篇文章不仅仅讲述如何设计并实现出更高效的FPGA逻辑,还有如何提升I/O,做好混合负载调度、容错等。"平稳"二字,看似波澜不惊,实则暗藏巨浪。

前言

2017年12月23日,星期六, 华为云FPGA 异构计算技术私享会在上海3W咖啡成功举办。原定150人的活动一经发布, 近600人报名参加, 虽经多方筛选, 会场依然一下子迎来了230多名参会者!在那么一个寒冷的冬天的周末,来自行业用户的热情既是对华为技术实力的信任,也是用户对应用上云的热切期望, 同时也是行业对赛灵思FPGA云加速的高度认同。为推动FPGA加速云服务, 赛灵思在此次活动中从用户邀请以及演讲主题等方面提供了强大支持。

本期私享会,既有华为云异构计算FPGA技术团队四位技术大咖激情演讲, 从华为FPGA的发展历程,FPGA的开发流程、FPGA应用场景等多个维度为大家深度诠释了华为云FPGA服务;同时还有复旦大学范益波教授介绍了在高校如何利用FPGA来做H.265视频编解码,更有华为云合作伙伴赛灵思、依元素科技的精彩演讲为FPGA应用上云疯狂打call!

二十年探索和实践,华为云FPGA服务厚积薄发

从1988年电信领域的探索到2012年NFV领域的应用,再到2017年FPGA的云化,华为FPGA经历了3个重要阶段的改革:

给 AI 换个“大动力小心脏”之通用 CNN 加速设计

作者:王玉伟

导语

基于FPGA的通用CNN加速设计,可以大大缩短FPGA开发周期,支持业务深度学习算法快速迭代;提供与GPU相媲美的计算性能,但拥有相较于GPU数量级的延时优势,为业务构建最强劲的实时AI服务能力。

WHEN?深度学习异构计算现状

随着互联网用户的快速增长,数据体量的急剧膨胀,数据中心对计算的需求也在迅猛上涨。同时,人工智能、高性能数据分析和金融分析等计算密集型领域的兴起,对计算能力的需求已远远超出了传统CPU处理器的能力所及。

阿里云宣布推出全新一代异构加速平台,这是阿里云首次发布一整套异构计算家族,其涵盖GPU、FPGA在内等6款异构实例,可满足从图形渲染到高性能计算及人工智能等复杂应用的计算需求。

  其中,适用于深度学习在线推理(Inference)的 GPU 实例 GN5i,采用了英伟达 Pascal 架构 P4 图形处理器,提供最大 45Tops INT8 整型计算能力和 11TFlops FP32 单精度浮点计算能力。可根据深度学习计算力的要求,进行 GPU 实例的“Scale-out”水平扩容或“Scale-up”垂直变配。分钟级即可完成实例的创建。

  阿里云高级技术专家龙欣介绍,在面向 AI 深度学习在线推理场景时,GN5i 实例依托专有推理型 GPU 和阿里云高性能 SSD 云存储和 OSS 存储服务,在满足数据处理 IO 的基础上,时延最低可达微秒级。此外,GN5i 可一键部署 TensorFlow、Caffe 等主流深度学习框架,提供智能调度、自动运维、实时扩容等服务,有效降低人工智能在线服务成本 50%以上。

作者:jonsonxp

1. 背景

历经近5个月的邀请内测,Amazon AWS于4月20日宣布FPGA EC2实例F1正式上线。就在F1内测公布后这短短几个月时间,国内互联网巨头BAT加华为纷纷借势宣布开展FPGA云加速器业务,这一波异构计算之风势头之猛可见一斑。

其实,FPGA以其高能效和可重编程的优势,在大型互联网企业内部早有应用并逐渐成为常态。例如媒体压缩,加解密,AI,大数据处理等领域,FPGA方案较传统CPU和GPGPU,往往可达到几倍甚至几十倍的能效提升。然而过高的开发门槛和开发成本,却让中小型企业对FPGA技术可望而不可及。即便是大企业,力量也只够集中开发有数的几种加速器难以全面铺开。

FPGA结合云计算形成新的FPGA-as-a-Service或者Accelerator-as-a-Service平台,则可以整合多方资源解决上述问题。平台厂商与FPGA硬件厂商合作,在云端提供统一硬件平台与中间件,可大大降低加速器的开发与部署成本。加速器开发商的加速器上传到云,可以形成服务销售给加速器用户,消除加速技术与最终用户的硬件壁垒。而加速器用户则能够在无需了解底层硬件的情况下,直接按需购买和使用加速服务,较传统方案更快更省地完成数据处理。

深入理解CPU和异构计算芯片GPU/FPGA/ASIC

注:本文仅代表个人观点不代表本网观点

作者:王玉伟 腾讯TEG架构平台部平台开发中心基础研发组资深工程师,专注于为数据中心提供高效的异构加速云解决方案。目前,FPGA已在腾讯海量图片处理以及检测领域已规模上线。

随着互联网用户的快速增长,数据体量的急剧膨胀,数据中心对计算的需求也在迅猛上涨。诸如深度学习在线预测、直播中的视频转码、图片压缩解压缩以及HTTPS加密等各类应用对计算的需求已远远超出了传统CPU处理器的能力所及。摩尔定律失效的今天,关注“新“成员(GPU\FPGA\ASIC)为数据中心带来的体系架构变革,为业务配上一台动力十足的发动机。

1 异构计算:WHY
明明CPU用的好好的,为什么我们要考虑异构计算芯片呢?

随着互联网用户的快速增长,数据体量的急剧膨胀,数据中心对计算的需求也在迅猛上涨。诸如深度学习在线预测、直播中的视频转码、图片压缩解压缩以及HTTPS加密等各类应用对计算的需求已远远超出了传统CPU处理器的能力所及。

作者: infoQ薛梁

FPGA(Field Programmable Gate Array)现场可编程门阵列,作为ASIC领域中的一种半定制电路而出现已有30年的历史了,它既解决了定制电路的无法改变功能的不足,又克服了原有可编程器件门电路数有限的缺点,可应用的场景也很广泛。

1月20日,腾讯云推出国内首款高性能异构计算基础设施——FPGA云服务,利用云服务的方式将只有大型公司才能长期支付使用的FPGA服务推广到了更多企业。企业可以通过FPGA云服务器进行FPGA硬件编程,可将性能提升至通用CPU服务器的30倍以上。同时,与已经深入人心的高性能计算的代表GPU相比,FPGA具有硬件可编程、低功耗、低延时的特性,代表了高性能计算的未来发展趋势。

而在人工智能(AI)里面火热的深度学习领域,企业同样可以将FPGA用于深度学习的检测阶段,与主要用于训练阶段的GPU互为补充,FPGA还可应用于金融分析、图像视频处理、基因组学等需要高性能计算的领域,是这类对效率要求高的行业应用的最佳选择。

基于此,我们特邀InfoQ采访了由腾讯云基础产品中心、腾讯架构平台部组成的腾讯云FPGA联合团队,向读者介绍FPGA的基本原理和设计初衷、应用场景以及它给行业带来的价值。

结合16nm UltraScale+可编程逻辑与高带宽显存(HBM) 存储器和新型加速器互联技术,满足异构计算要求

赛灵思公司 (Xilinx, Inc. (NASDAQ:XLNX))今天宣布扩展其16nm UltraScale+™ 产品路线图,面向数据中心新增加速强化技术。其成品将可以提供赛灵思业界领先的16nmFinFET+ FPGA与集成式高带宽存储器 (HBA) 的强大组合优势,并支持最近刚刚宣布推出的加速缓存一致性互联 (CCIX) 技术。CCIX由7家业界龙头企业联合推出,旨在实现与多处理器架构协同使用的加速架构。增强型加速技术将支持高效的异构计算,致力于满足数据中心工作负载最苛刻的要求。新产品在许多其他需要高内存带宽的高计算强度应用中也将得到很好的应用。

基于台积 (TSMC)公司业经验证的 CoWoS 工艺而打造的赛灵思HBMFPGA,可通过提供比分离式存储器通道高达10倍的的存储器带宽大幅提升加速能力。HBM技术支持封装集成的多Tb存储器带宽,能最大限度地降低时延。为进一步优化数据中心工作负载,新型CCIX技术通过让采用不同指令集架构的处理器与赛灵思 HBM FPGA等加速器协同分享数据,推动高效异构计算。

同步内容