赛灵思微型化FPGA,GPU遇到敌手了

本文转载自:半导体行业观察微信公众号

近几年,边缘计算市场在快速增长,速度超过了数据中心。有统计显示,到2025年,边缘AI芯片的市场机遇是数据中心的3倍,规模将达到650亿美元。这样具有巨大发展潜力的市场,是所有能够参与到其中的芯片厂商特别关注的,无论是CPU、GPU,还是FPGA。作为FPGA行业龙头,赛灵思也已经准备好推出相应的器件,该公司已经推出了多款用于边缘端的产品,近期又发布了最新的可微型化的小尺寸方案Versal AI Edge。

据赛灵思Versal AI Edge系列高级产品线经理Rehan Tahir先生介绍,该公司在2018年引入了Versal ACAP,首先推出的是Versal Core和Prime系列,用于云端和网络,之后又推出了Versal Premium,用于高端的云和网络。在这基础上,又把这个架构带到了边缘端。

新一代的Versal AI Edge系列产品,是一种微型ACAP,能够在边缘端工作,实现优化的单位功耗性能,这很重要,因为在边缘应用中,有非常严格的热和功耗的限制,同时还要实现高性能。

同时,在边缘端应用,如智能视觉、无人机、协作机器人、ADAS与自动驾驶,还有医学成像,包括内窥镜和超声。这些对产品的微型化要求很高,这与FPGA在传统的数据中心和云计算应用场景有很大不同。

此外,越来越多的应用都得到了AI的支持,而且,有很多形式的AI可能都是我们之前没有想到的,比如无人机的导航和目标追踪,机器人和工人在工厂进行协作,还有半自动到全自动驾驶,AI在医学的应用,包括参与医学的诊断和分析。当下,AI应用随处可见。

AI Edge就可以满足以上应用需求,今年4月份,Versal AI的Core和Prime已经实现了7nm制程的量产。

优势

那么,Versal AI Edge ACAP的具体特点和优势有哪些呢?可以概括为以下三点:

1、借助AI引擎和存储器层级创新,AI单位功耗性能是GPU的四倍,而且这样的存储器层级创新是在业界首次推出的;

2、与之前的SoC产品相比,他能够实现十倍的计算密度,并且提供最高水平的安全与保密性;

3、能够为边缘和终端提供可扩展性且灵活应变的平台,实现很高的性能,这主要是在各个性能层级上有更多的器件,另外,ACAP的可编程性能提供更多的灵活性。

对比GPU,Versal AI Edge实现了四倍的AI单位功耗性能。据Rehan Tahir介绍,这主要是赛灵思推出了新的AI引擎,专门为机器学习做了优化,简称为AIEML。AI引擎是一个新生事物,也是一个非常好的技术突破。

Rehan Tahir表示:“AI引擎有一个阵列,这个阵列里面有一个计算核心,与现有的产品不同,我们把乘法器翻倍,使得INT8的性能翻倍,另外,还提供了原生支持INT4和BFLOAT 16。除此之外,我们还使数据内存翻倍,每一块内存从32kB提升到了64kB,实现了数据和存储的本地化。所有的本地化存储都能够和AI阵列和块进行分享,还增加了全新的存储器块,整个AI引擎的阵列最大是38MB,可顺利分享网络,在数据流通的过程当中不会出现内存的瓶颈。基于此,我们能够实现软件的可编程、硬件的灵活应变,还有非常低的时延和功耗。”

由于支持INT4和BFLOAT 16,还对乘法器进行了加倍处理,所以,这个产品在机器学习推断方面有非常出色的表现,能够支持CNN、RNN还有语言处理网络等。

另外一个创新是加速器RAM,他能够为大规模的带宽提供一个4MB的片上RAM,用于Versal AI Edge最小尺寸的器件。在机器学习推断过程中,有很多路径,比如可以使用DDR,但是DDR速度非常慢,有了加速器RAM之后,能够更快速地进行机器学习的处理。

Versal AI Edge全系列都能够推出车规级的产品,也能够遵守严格的ISO 26262标准要求。

赛灵思将在2021下半年提供Versal AI Edge工具,2022上半年提供早期试样和量产芯片,在2022下半年提供Versal AI Edge ACAP的评估套件。

灵活的软件支持

下面看一下支持应用的软件堆栈,据Rehan Tahir介绍,在汽车领域,Versal AI Edge支持Caffe、TensorFlow、PyTorch等平台,在机器人和工业领域也有很多,包括ROS、ROS2,还有发展势头很猛的GAZEBO。

另外,也可以用Versal AI对系统框架进行扩展,包括XRT,这是赛灵思的一个运行环境,包括很多底层库,如DSP和视觉库。

灵活性方面,主要体现在域架构,也就是DSA,还有动态的功能交换,叫做DFX。DSA就是对引擎进行区隔,来实施相应算法,在这样区隔的过程中能够确保不断适应未来一些技术的变化,能够实时更新,例如,激光雷达的更新换代非常迅速,有了DSA的支持,能够确保跟上最新的算法。

这个机制是通过算法实现的,无论是硬件还是软件,都可以通过在线下载的方式更新,不仅更新软件,还可以对芯片进行重新配置来优化性能,有点像特斯拉,可以对车辆里程和速度直接做软件的在线升级,如果可以对硬件做这样的在线升级,则可以迅速适应未来的需求,这是一个非常大的提升。

DFX方面,假设有很多逻辑器件在同时使用,通过DFX能够对解决方案进行优化,节约大量的成本和功耗,这点,ASSP、GPU和CPU都是做不到的。

竞品对比

与英伟达的Jetson对比,Versal AI Edge的优势体现在:前者只有低端和中端,没有高端产品,T4是一个数据中心的加速器卡,他仅仅关注高端,也没有低端产品。另外Orin是仅有高端和低端,而忽视了中间这一块的性能需求,也就是性能很高,但可以进行被动散热的这样一款产品,30瓦时,英伟达产品是需要主动散热的。

Rehan Tahir表示,英伟达给出的解决方案是同时使用两个器件来满足相应的标准,这当然是可以的,但是这样做会增加成本、功耗和系统设计的复杂性,如果用Versal AI Edge,只需要一个器件,在同样的软件生态系统,在同样的模式和同一个库的环境下均可使用,非常方便,而且更加经济。

Rehan Tahir还提到,英伟达的专长是在人工智能的机器学习推断,他并不能够涵盖整个应用,但是赛灵思的器件有一个灵活应变的引擎,能够实现传感器的融合。另外还能传导到智能引擎,智能引擎再产生推断,然后通过操作系统来采取行动,是非常灵活易变的,而且能够通过实时下载更新的方式,在软件和硬件层面都实现灵活应变,不断更新。所以,瓶颈不是在机器学习的计算方面,而是在于传感器输入的传导,图像处理,与车辆和驾驶员进行沟通等。在这些环节,赛灵思都是有优势的。

可扩展性方面,Rehan Tahir表示,包括英特尔、TI(德州仪器)、恩智浦、高通等公司的平台,他们要么只关注低端,要么只关注高端,没有哪一家可以做到低中高的全覆盖。

最新文章