又一款7nm惊世产品发布!Xilinx发布颠覆性AI推理产品VersaL!

作者:张国斌

在今天举行的赛灵思2018开发者大会(XDF)上,赛灵思CEO Victor Peng发布了业界又一款7nm惊世产品! 它就是赛灵思最新基于7nm工艺的ACAP平台首款产品Versal--Versal 这个词代表多样性和通用性,这是一款号称针对任何应用做AI加速应用的平台级产品,首先推出AI核心版和基础版,后续会推出旗舰版、AI RF版、边缘计算版、HBM版等,这是继华为麒麟980,苹果A12之后,又一堪称惊世之作的7nm产品。

Victor 在演讲中指出,放眼全球,人工智能技术发展迅速,芯片技术已经赶不上AI的发展,新的算法新的框架新的场景应用层出不穷,要应对这样的变化,就需要有灵活多变的架构去是适应这样的变化,早在四年前,赛灵思启动“珠穆朗玛”技术,就是打造一个具有自适应、和可以灵活实现计算加速的平台,这就是ACAP平台。

“随着 AI 和大数据的爆炸性发展以及摩尔定律的放缓,行业已经走到了一个关键的转折点。芯片设计的周期已经无法跟上创新的脚步。Versal 是历经 4 年的开发的业界首款 ACAP产品。我们对其进行了独特设计,支持所有类型的开发者通过优化的软硬件来为他们的整体应用提速,同时具备即时的灵活应变能力,从而能够跟上科技快速发展的步伐。在业界需求最迫切的时刻 ACAP 可谓雪中送炭。”他强调。

“现在中国人工智能技术非常火爆,有大量人工智能初创企业,我认为他们其实不一定要去开发AI芯片,他们可以采用我们的Versal平台开发具体应用,可以在算法和框架方面深入研究,这样不用从头做起,可以加速AI应用。”他指出,“就像深鉴科技,他们两年前就在基于赛灵思的产品做AI方面的开发,因此在被我们收购后其成果可以迅速应用到Versal平台上,当然,这也说明了我们产品的灵活性很好。”

他强调从其他平台迁移到Versal平台非常方便,强调赛灵思开个了简单易用的开发工具和环境,确保AI的应用可以快速移植。他也透露赛灵思也在研发训练用FPGA方案,不排除进入这个市场的可能性,要知道,在上任之始他就怼过NV,详见《火药味浓!FPGA老大赛灵思新CEO刚上任就“怼”Nvidia》。

Versal深度揭秘
赛灵思产品及技术营销高级技术总监Kirk Saban在随后的演讲中详解介绍了这款可能改变人工智能应用格局的产品。

他在专访中指出,我们处于一个杂乱无序的数据堆积如山的时代,一种架构无法独自完成数据处理,需要异构计算。

而从过去40年半导体发展历史来看,计算引擎CPU单纯采用"工艺缩放scaling"技术发展的道路遇到了很大的挑战,难以通过等量的计算提升换取等量的性能提升,半导体工艺的变化迫使计算引擎变成并行趋势。

“摩尔定律终结后,CPU、GPU已经不适应未来趋势,NV的新品只有最高的计算值,例如最新的T4号称是P4强l6倍,但实际性能提升只有2.5倍左右,所以我们需要新的架构。”Kirk指出。

所以,目前半导体行业在探索能替代的架构,包括一些原先在特殊领域的架构,但是这些架构各有优缺点,谁是最好的呢?

1、标量处理(例如,CPU)在具有不同决策树和大量库的复杂算法中非常有效 - 但在性能缩放方面受到限制。

2、矢量处理元件(例如,DSP,GPU)在较窄的可并行化计算功能集上更有效 - 但由于不灵活的存储器层次结构,造成延时和功耗增加,

3、可编程逻辑(例如,FPGA)可以针对特定计算功能进行精确定制,使其在延迟敏感的实时应用(例如,汽车驾驶员辅助)和不规则数据结构(例如,基因组测序)方面表现最佳 - 但其算法=需要花费数小时来编译,时间太长了!

Kirk表示赛灵思推出的新型异构计算架构,即自适应计算加速平台(ACAP)是把各个架构的优势融合起来,它提供了与下一代可编程逻辑紧密耦合的最好的世界级矢量和标量处理元件( PL),全部与高带宽片上网络(NoC)融合在一起,可以提供对所有三种处理类型的存储器映射访问。,与任何单独的一个架构相比,这种紧密耦合的混合架构可以实现惊人的定制和性能提升!

“当今开发者需要软件的可编程能力、满足广泛应用的性能和适应快速创新的灵活应变能力。我们的产品可以满足开发者这三个要求。”他指出。“通过软件可编程实现对个各种负载的灵活支持,实现性能的大幅度提升。”

赛灵思ACAP框图

赛灵思ACAP框图

据介绍,Versal是完全软件可编程,可以实现高达20倍的性能显著提升,比当今最快的FPGA还要快100倍!Versal产品组合包括 Versal 基础系列( Versal Prime),Versal 旗舰系列 (Versal Premium旗舰)系列和 HBM 系列,能针对要求最严格的应用提供业界领先的性能、连接性、带宽和集成功能。此外,该产品组合还包括 AI 核心系列(AI Core),AI 边缘系列 ( AI Edge) 和 AI 射频系列(AI RF),采用突破性的 AI 引擎。

AI 引擎是一种新型硬件模块,专为解决各种应用低时延 AI 推断的新需求而设计,同时支持高级 DSP 实现方案,满足无线和雷达等应用要求。它与 Versal 自适应硬件引擎紧密结合,支持整体应用加速,也就是说软硬件都能调节,从而确保最高性能和效率。

今天发布的是Versal Prime 系列和 Versal AI Core 系列,相对于业界领先的 GPU,AI 推断性能预计能提升 8 倍。

VERSAL AI 核心系列
Versal AI 核心系列提供该系列最高计算性能和最低时延,实现突破性的 AI 推断吞吐量和性能。该系列针对云端、网络和自动驾驶技术进行了优化,提供业界最广泛的 AI 和工作负载加速功能。Versal AI 核心系列 有 5 款产品,提供 128 到 400 个 AI 引擎。该系列包括双核 Arm® Cortex™-A72 应用处理器、双核 Arm® Cortex™-R5 实时处理器、256KB 片上 ECC 存储器、超过 1900 个专为高精度低时延浮点运算而优化的 DSP 引擎。此外,它还包括 190 多万个系统逻辑单元以及超过 130Mb 的 UltraRAM、高达 34Mb 的块 RAM 和 28Mb 分布式 RAM 和 32Mb 新加速器 RAM 块,任何引擎都能直接访问,这也是 Versal AI 系列的独特之处,而且都能支持定制存储器架构。该系列还包括 PCIe® Gen4 8 信道和 16 信道以及 CCIX 主机接口、功耗优化型 32G SerDes、多达 4 个集成型 DDR4 存储器控制器、多达 4 个多速率以太网 MAC、650 个高性能 I/O(用于 MIPI D-PHY)、NAND、存储级内存接口和 LVDS、78 个多路复用 I/O(连接外部组件)和超过 40 个 HD I/O(3.3V 接口)。以上所有器件均通过业界一流的片上网络 (NoC) 实现互联,具有多达 28 个主/从端口,以低时延提供每秒多 Tb 带宽,而且提供高功率效率和原生软件的可编程性。完整的产品列表现已发布。

THE VERSAL PRIME 系列
Versal Prime 系列经过精心设计,适用于多个市场的广泛应用,并针对各种工作负载的连接性和在线加速进行了优化。这款中端系列包括 9 款产品,每款产品都采用双核 Arm® Cortex-A72 应用处理器、双核 Arm® Cortex-R5 实时处理器、256KB 片上存储器(带 ECC)、超过 4000 个专为低时延高精度浮点运算优化的 DSP 引擎。此外,它还包括 200 多万个系统逻辑单元,结合 200Mb 以上 UltraRAM、超过 90Mb 的块 RAM 以及 30Mb 分布式 RAM,能支持定制存储器架构。该系列还包括 PCIe® Gen4 8信道和 16 信道以及 CCIX 主机接口、功耗优化型 32Gb 每秒的 SerDes 和主流 58Gb 每秒的 PAM4 SerDes、多达 6 个集成型 DDR4 存储器控制器、多达 4 个多速率以太网 MAC、700 个高性能 I/O(支持 MIPI D-PHY)、NAND、存储级内存接口和 LVDS、78 个多路复用 I/O(连接外部组件)和超过 40 个 HD I/O(3.3V 接口)。以上均通过业界一流的片上网络 (NoC) 实现互联,具有多达 28 个主/从端口,以低时延提供每秒多 Tb 带宽,而且提供高功率效率和原生的软件可编程性。完整的产品列表现已发布。

Kirk 表示赛灵思未来的目标就是让机器学习更简单,用软件可编程让Versal在毫秒内实现可重配置,完成功能的切换,实现对负载场景的计算加速。“我们的AI引擎也有优化,AI核心版本针对不同AI应用有不同的AI引擎可以实现不同场景的支持。”而Victor也表示,赛灵思的ACAP平台是不断变化和进步的平台,因为AI技术还在发展初期还有更多算法更多框架出现,只有不断变化的架构才可以适应不断变化的需求。

他还指出他认为通用AI芯片不是正确的方向,ASIC是固定功能针对某个CNN、DNN来优化,一旦有新的算法或者框架就需要新的,但此时不可能用新芯片来设计,在目前发展态势下,ASIC很快会过时,实际上连谷歌的TPU也都会过时,“对于变化量少的行业ASIC适用,如果变化快则不适用。”他强调。

据悉,赛灵思目前正通过早期试用计划与多家关键客户合作。Versal Prime 系列和 Versal AI Core 系列将于 2019 年下半年上市。

深鉴科技的启示
目前,中国已经成为全球人工智能应用最热门的国度,当然这其中不乏浑水摸鱼靠此谋财者,Victor 在专访含蓄地指出本土AI公司其实不一定要热衷于造芯,而要在算法和框架上都下功夫,然后通过赛灵思的Versal实现AI应用,而神剑科技就是很好的实例,详见《【重磅】Xilinx 收购深鉴科技!是什么打动了赛灵思?》。

上午赛灵思软件及 IP产品执行副总裁 Salil Raje的演讲中,我注意到深鉴科技的研究成果已经用于到赛灵思的Versal产品中了。他再次强调网络复杂性与日俱增,推理趋向低精度,硅片更新跟不上创新的速度因此只有灵活多变的硬件才可以适应推理面临的挑战。



这个ACAP内部的基于灵活银边平台面向领域优化的架构简称DSAs,赛灵思收购深鉴科技就是把其主要的成果用在这个部分,让平台可以适应不同精度不同位宽。



这样的灵活性可以大大提升AI的时延,“时延在机器学习中非常重要,以自动驾驶为例,时延关乎人命。”他指出。

而采用了深鉴科技成果的ACAP平台,其时延可以大大降低,相比CPU和GPU可以实现数量级的性能提升!


实际上,赛灵思的平台还可以加速整体应用,提升能效比。

Xilinx 推出全球最快的数据中心和AI加速器卡
在今天的大会上,赛灵思还推出了功能强大的加速器卡——Alveo,用来大幅提升云端和本地数据中心中业界标准服务器的性能。利用 Alveo,客户在运行实时机器学习推断以及视频处理、基因组学、数据分析等关键的数据中心应用时,有望以较低时延实现突破性的性能提升。

Alveo™ U200 和 Alveo U250 由 Xilinx® UltraScale+™ FPGA 提供强劲动力,现已开始接受量产订单。与所有赛灵思技术一样,客户能对硬件进行重配置,从而针对工作负载迁移、新标准和更新的算法进行优化,而且无需支付替代产品衍生的成本。

Alveo 加速器卡针对各种类型的应用提供显著的性能优势。就机器学习而言,Alveo U250实时推断吞吐量比高端 CPU高出20 倍,相对于高端 GPU 等固定功能的加速器,能让 2 毫秒以下的低时延应用性能提升 4 倍以上。此外,Alveo 加速器卡相对于 GPU 能将时延减少 3 倍,在运行实时推断应用时提供显著的性能优势。[2]数据库搜索等一些应用可从根本上得到加速,性能比 CPU 高90 倍以上。

Alveo 得到合作伙伴和 OEM 厂商生态系统的支持,OEM 厂商开发和认证的关键应用涵盖 AI/ML、视频转码、数据分析、金融风险建模、安全和基因组学等。14 家生态系统合作伙伴开发完成的应用可立即投入部署。这些生态系统合作伙伴包括以下公司:Algo-Logic Systems Inc、Bigstream、BlackLynx Inc.、CTAccel、Falcon Computing、Maxeler Technologies、Mipsology、NGCodec、Skreens、SumUp Analytics、Titan IC、Vitesse Data、VYUsync 和 Xelera Technologies。此外,顶级 OEM 厂商也在同赛灵思合作,认证采用 Alveo 加速器卡的多个服务器 SKU,包括 Dell EMC、Fujitsu Limited 和 IBM 等,此外还有 OEM 厂商会加入进来。Victor 表示加速卡的推出可以方便客户加速机器学习开发,节省财力和人力。

我注意到一些服务器厂商也推出了基于赛灵思产品的加速卡,如浪潮就联合赛灵思宣布推出全球首款集成HBM2高速缓存的FPGA AI加速卡F37X,可在不到75W典型应用功耗提供28.1TOPS的INT8计算性能和460GB/s的超高数据带宽,适合于机器学习推理、视频转码、图像识别、语音识别、自然语言处理、基因组测序分析、NFV、大数据分析查询等各类应用场景,实现高性能、高带宽、低延迟、低功耗的AI计算加速。

F37X是浪潮专为AI极致性能设计的尖端FPGA加速卡,它采用Xilinx Virtex UltraScale+架构,提供285万个系统逻辑单元和9024个DSP单元,INT8计算性能达到了28.1TOPS,集成8GB HBM2高速缓存,带宽达460GB/s,相比单DDR4 DIMM提升20倍。当AI计算模型尺寸小于HBM2容量时,可全部预先载入高速缓存之中,消除了外部读写带来的数据传输延迟并提高处理速度,使AI计算完全放到片上成为可能。性能数据显示,浪潮F37X在AI图像识别实时推理场景,基于GoogLeNet深度学习网络模型,当BatchSize=1时性能高达8600 images/s,是CPU性能的40倍。F37X典型应用功耗仅为75瓦,性能功耗比高达375Gops/W。

华为云与赛灵思紧密合作,将20年的开发合作成果应用在云端,实现了线上线下协同的FPGA加速解决方案。

华为也有基于赛灵思FPGA的加速卡。

本次大会,赛灵思合作伙伴都来捧场,展示了大量基于赛灵思FPGA的智能应用,以及加速算法。





Victor 在主题演讲中指出:“我喜欢不断设定目标,然后实现。我已经跑过100多个赛事,48岁跑过超长马拉松,我非常喜欢不断设定目标,调整自己和转型。现在FPGA非常强大,但Xilinx现在已经不是FPGA公司,而是平台公司。市场不断变化,系统和基础设施在扩张,Xilinx的使命是打造灵活应变的世界。今年3月提出三个战略框架:数据中心优先,加速核心市场发展,驱动灵活应变的计算。”

从30年前的可编程逻辑厂家到今天的推动机器学习变革的领头羊,赛灵思与时俱进的精神值得我们学习!


推荐阅读