FPGA视频加速的未来

本文整理自LiveVideoStack 线上交流分享,本次分享由赛灵思数据中心产品经理梁晓明介绍Xilinx的视频解决方案,由赛灵思高级策略应用工程师张吉帅以及赛灵思高级现场应用工程师赵春晓来负责答疑环节的问题。

文/梁晓明 张吉帅 赵春晓
整理/LiveVideoStack

大家好,我是赛灵思数据中心产品经理梁晓明,本次分享的主要内容是Xilinx的视频解决方案,Xilinx作为一家平台性的公司,会把硬件、硅片作为基础平台交付给业界有强大开发能力的合作伙伴,合作伙伴在Xilinx的硅片、器件和平台上堆叠他们的软件解决方案和服务。今天所介绍的合作厂商的方案都是基于Xilinx的平台。2019年7月1日,Xilinx收购了NGCodec,NGCodec能够提供非常好的基于FPGA的云上视频解决方案,同时Xilinx也提供包括ZYNQ里面内嵌的VCU硬件的H.264、H.265编码器和解码器,这部分功能会被Xilinx其他的合作伙伴V-Nova和Aupera都可以在硬件编码器的基础上做进一步集成和应用,这部分的工作都是基于Xilinx平台。同时Xilinx也会提供软件方面的堆栈,软件的堆栈会支持无缝的FFmpeg以及其他的实时视频Live Video的软件堆栈进行集成。DeePoly和CTAccel这两家都可以提供非常高性能的图片处理方案,以下将会对之前提到的解决方案做具体介绍。

1. Xilinx Acquires NGCodec for Cloud Video

Xilinx收购NGCodec目的在于发展云视频的市场,Xilinx作为一家主要的世界级FPGA和平台的厂商,主要的技术是Ultrascale+和Versal FPGAs,在这两个平台的基础上可以开发基于FPGA非常高性能的编码器和解码器,可以是H.264、H.265这样相对较成熟的,也可以是将来的AV1、H.266这些比较新的编码器,同时也可以在这个平台为已有的编码器附加类似AI的场景识别和全新的编解码标准,比如下面将会提到的V-Nova带来的新编码方式,这些技术都会堆叠在Xilinx的平台上,Xilinx的加速平台是构建在软件定义加速器SDAccel基础平台上,这是一套完整的工具链以及平台的支撑套件,同时Xilinx也提供Alveo Board Products,提供数据中心的标准卡,让各位在各类标卡的业界厂商,比如另戴尔,Inspur等认证过的标准版卡上部署自己的软件和加速器等等。Xilinx通过收购获得的H.264、H.265以及VP9这些基本编解码单元,从NGCodec收购中主要获得的是H.265和VP9,这两个都获得了业界的认可和工业界的应用,之后Xilinx很快也会提供AV1的解决方案。

1.1 New $10B Demand for Cloud Acceleration

Live Video在2016年大量的工作都是由CPU和GPU共同分担来完成的,随着云视频市场和视频市场迅速增长,GPU性能增长速度变缓,以及AI的能力变得更加普遍,所以大家会发现用Xilinx和NGCodec附带AI的解决方案,和Video+AI的集成方式对比,FPGA会是你理想的平台。预计FPGA带来的Video+AI市场增量会超过10 Billion。

1.2 “Live Video”consumes largest portion of compute

当讨论“Live Video”的时候,Xilinx想面对的宽度市场分类是那些需要实时处理的视频,而不是提前处理好放在文件服务器中拿去播放的视频,如果是放在文件服务器中从OBS中调出来不需要转码就可以通过时间轴放出去的视频叫做File based,也是现在存量比较大的部分。提到Live的部分一般是指体育频道转播、游戏实况或者主播直播互动性比较高的场景,这些场景的特点目前已经很普遍了,视频的质量、互动的程度和投放情况都非常受限。Xilinx的解决方案是帮助你把这部分Live Video,在工作量可能会使CPU、GPU在短时间内无法消化时帮你做的更好。Xilinx在未来会更关注Live Video部分,因为这部分会在新公司、新竞争力和新生产力方面得到极大丰富。

1.3 Xilinx vs CPU:20x faster@same quality

Xilinx的平台和合作伙伴开发的新解决方案,在保证质量的前提下与CPU相比速度提升了20倍。在谈性能时,比如在游戏直播场景中大家会要求60帧每秒的速率,同时要求latency足够的小,这样才能带来更好的用户体验。这类应用可以发现用户体验、latency和源端产生的图像被分发的过程里latency都是关键的指标,这部分工作任务里Xilinx这种定型处理的结构可以把各种图片源分成1080P、720P甚至480P的分辨率,同时在保证图片质量的前提推送出去,这样的工作特别适合FPGA来完成,因为Xilinx有定制的数据通道和硬件编解码能力,而且还可以用AI做场景识别,Video+AI可以帮助客户在保持速度的同时保证质量,同时可以在后续的质量相关环节做相应的调校。

1.4 VMAF

谈到图像质量就需要强调VMAF评价指标,在最新的用户评价方法中,VMAF评价指标是比较被认可的,原因是节目源在后期处理或重新编码时会被有意的过一些特别的滤波器,这些滤波器有助于图像增强,或者是在图像识别之后把背景或者一些不重要的部分进行码率降低,把码率更多的分配在关键对象上,这些所有码率调节手段以及新的编解码工具,在某种意义上都会对PSNR产生一些负面影响,但在某些情况处理好的话,会对VMAF主观评价指标有正向影响。在同样的VMAF情况下,通常可以利用更多的工具在同样的码率上做到更好的图像质量,或者在同样的图像质量上把码率降下来。

2. V-Nova

2.1 HD video services over any network

V-Nova提供的Perseus+IP完成的工作是将较高分辨率图像通过特殊算法把码率降到特别低,在播放端把码率降低的数据进行恢复,在图像质量相当的情况下极大的降低码率。

2.2 Why PERSEUS Plus Xilinx?

通过新工具和技巧会带来很多的好处,比如在密度方面可能会增加四倍,相对于软件来说同样的Bandwidth savings情况下会提升50倍,同时在带宽节省或者其他的技术会不会依赖特定的编码器,实际上对编解码算法不太敏感,这个在编码器外面叠加的Perseus+IP会帮助达成上述的额外好处。

2.3 PERSEUS:a new approach

Perseus+IP可以叠加,且这种叠加方式很快会变成标准,可以看到在即将到来的SMPTE标准组织和MPEG标准组织等都会考虑类似的工具和算法。

3. DeePoly

3.1 About DeePoly

DeePoly深维科技在2016年成立,方案成熟度非常高,而且有规模部署的能力,在视频和图像处理领域做得还不错。

3.2 DeePolyLeadership Product - ThunderImage

现场生产环境有用到比较重任务的内容,比如转码、缩放和各种格式之间的转化,只要生产环境中用的是ImageMagick图片转化服务器用到一定的数量,都可以使用DeePoly深维科技的方案进行进一步的评估。

3.3 Benefits od ThunderImage

DeePoly深维科技做的东西很简单,简单到可以理解为是做图片转码和图片缩放,甚至是在人工智能的AI流程里做图片预处理和图片截取,或者是在手机调用比较大的图像和网页时可以自适应的将图像和网页适配到手机的屏幕上去,这些工作都需要低延时、高性能的图片转码。在测评的过程中会发现DeePoly深维科技相较于一个比较不错的CPU服务器来说可以做到20倍的TPS性能提升,在QoS有五倍的延时降低,在图片质量及软件无缝集成方面成熟度都很高。

4. Aupera

另外一家利用Xilinx平台做到产业化的公司傲睿智存(Aupera),他们的口号是要创新,让Video变得更加生动,将Video+AI带到一个新的高度。这家公司的产品成熟度很高,随时可以安排进行POC或者批量化部署。

4.1 Core Value

傲睿智存的核心价值一个是成本,另一个是快速部署,这两个核心价值都基于产品的高成熟度以及高度集成,Aupera产品是在Xilinx ZYNQ器件上面的硬件编码器和硬件解码器做进一步的创新,他们的创新包括在成本控制以及利用AI来改善画质,同时还用Video+后期的YOLO模型或者图片检测的其他模型做进一步的处理,然后生成感兴趣部分的图片跟踪,这些已经是相当成熟的应用场景。

4.2 Transcoding Solution Advantage

具体来看,Aupera做了一个3U尺寸的服务器大小的盒子,里面包含48个硬件编解码器,48个ZYNQ一起配合可以做到大约30台Intel E5 Server的工作任务,这个工作任务会在ZINK平台的基础上高密度的提供类似的功能,还可以提供AI的能力,我们会认为在AI的辅助下可以用Aupera的技术方案,在实时编解码方面做到比X264 Medium的图像质量还要好,同时成本、能源消耗都降到原来纯软件方案的10%。

4.3 Aupera Video + AI Solution Advantage

Aupera Video+AI的解决方案可以带来显著的好处,这些好处集中表现在以下几个方面,比如之前在场地受限的地方部署基架(服务器+CPU+独立设备做视频分析),用Aupera 的方案可以在一个3U的盒子里完成整个处理流程,而且通道数在高密度场景可以达到384个实时处理通道,在低密度场景可以减少处理单元形成更小规模的部署,这样低成本、高密度、部署弹性非常大的处理方案,在国内很受欢迎。

4.4 Video + AI Applications

Video+AI的解决方案可以提供非常先进的平台,同时在平台的基础上Xilinx利用深鉴科技(Deephi)的剪枝、压缩以及整个平台的能力,在不降低mAP和不损失精度的情况下可以把YOLOv3放在里面,而且能够做到64帧每个节点,相当于实时。另外在行人脸部检测方面都可以做到实时的视频处理,换句话来说就是每一个ZYNQ做8路,同时配套相关的AI检测。

本文转载自: LiveVideoStack 

最新文章

最新文章