AI 观察室(三) | 顶会推荐!获选 CVPR oral paper 的 Xilinx AI 研发团队最新成果揭秘

本期导读
在 AI 领域,图像理解是一个重要分支,而图像语义分割,是计算机视觉技术中关于图像理解的重要环节。《用于语义分割的双重超分辨率学习》这篇论文针对的就是计算机视觉中的语义分割算法进行的创新研究。此次研究中的工作主要集中在语义分割领域,我们希望通过提出新的算法思路,促进语义分割领域的研究发展,启发语义分割乃至其他领域的后续研究。

在6月14日-19日举行的 2020 年 CVPR 年度大会上,赛灵思人工智能研发团队的一篇名为《Dual Super-Resolution Learning for Semantic Segmentation(用于语义分割的双重超分辨率学习)》的学术论文成功入选 Oral Paper!此次“语义分割” 研究成果获得 CVPR 这样顶会的支持,再次证明了赛灵思 AI 研发团队在全球计算机视觉与人工智能研究领域的前沿地位。

为更好地理解此次论文发布的背景,并了解赛灵思通过该论文提供了什么样前沿的研究和观点,本期“AI 观察室项目”特意安排了对话第一作者 – 赛灵思资深 AI 算法工程师王莉,同时该访问也获得了 AI 研发高级总监单羿博士的支持。

局限

探寻新算法打破语义分割局限

在 AI 领域,图像理解是一个重要分支,而图像语义分割,是计算机视觉技术中关于图像理解的重要环节。《用于语义分割的双重超分辨率学习》这篇论文针对的就是计算机视觉中的语义分割算法进行的创新研究。

王莉表示:我们的团队在赛灵思主要从事算法相关工作。日前我们在对基于深度学习的语义分割算法进行分析时,发现其中存在一些问题。目前 State-of-the-art 的语义分割算法通常依赖大网络来提取特征图进行语义预测,这些高性能的算法往往需要较大的算力,限制了其在资源受限的硬件上的应用(比如手机和 FPGA)。另外,有一些已有工作通过设计轻量级的网络结构来减少算力,但是这类方法在降低计算量的同时,精度往往也损失严重。我们研究发现,对于基于大网络高性能的方法以及基于轻量级网络的方法都需要高分辨率的输入来提取同样高分辨的特征图来保障精度。然而,如果使用高分辨率输入,就不可避免地会带来巨大的算力需求,其结果就是限制了算法在资源受限的硬件平台上的应用;另一方面,一旦减少输入分辨率,语义分割的精度就会严重受损。

为了有效缓解大网络高性能算法和轻量级网络算法的局限性,我们团队从特征分辨率的角度来探究其对不同语义分割算法精度和算力的影响,希望能够实现一个新的学习算法框架,使其既能有效提高分割精度,又不增加额外的推断计算成本。

诞生

双重超分辨率学习算法的诞生

算法研究不同于软硬件研究。软硬件研究可以借助软件或硬件本身的优势,开发针对于特定操作或模型的优化策略,进而提升模型的硬件性能(例如减少FPGA 延迟,提高并行度等),而算法研究侧重于在算法层面提出创新方案,例如通过优化训练算法提高模型的精度,优化模型算子或设计网络结构减少模型算力。

王莉介绍说,在正式进行研究之前,团队的小伙伴们做了大量的文献调研和算法分析工作;研究过程中,不断进行算法思路的头脑风暴,并结合充分的实验,我们不断思考、调整、验证。最终成型算法不仅涉及语义分割任务本身的方法和框架,同时也涉及超分辨率学习领域的算法知识。如何借助超分辨率学习的任务来提升语义分割性能,如何让二者有效结合,相辅相成,成为了王莉及相关团队成员面临的最大挑战。经过不断的探索和实验,王莉最终提出了一个简单且灵活的双流框架,称为双重超分辨率学习(Dual Super Resolution Learning, DSRL)的算法思路。

具体来说,所提出的方法包括三个算法模块:语义分割超分辨率(SSSR),单图像超分辨率(SISR)和特征相似性(FA)模块。语义分割超分辨率(SSSR)分支模块目的在于学习超分辨率的特征表示进行语义分割预测,也就是相对于输入分辨率来说,最终学习到特征图具有更高分辨率的特征表示。单图像超分辨率(SISR)分支模块用来提取图像精细的结构信息,辅助另一分支的语义分割任务,SISR模块另一个特点是不需要额外的数据标注。特征相似性(FA)模块旨在学习 SSSR 和 SISR 模块之间的相似性,通过约束二者对齐以达到更好的知识迁移目的。我们所提出的 DSRL 算法可以保持低分辨率图像输入下学习得到的高分辨率特征表示,在相同计算复杂度下提升模型精度。而且,该算法可以很容易地推广到其他同样依赖高分辨率特征表示的任务,如人体姿态估计(Human Pose Estimation)。我们的实验体现这种简单而有效的算法在语义分割和人体姿势估计方面都有良好的表现,具有良好的代表性和通用性,对于不同算法框架和不同分辨率情况下都能获得性能提升。比如,对于在 CityScapes benchmark 上的语义分割任务,可以在不增加算力情况下将 mIoU 提高至少 2 个点,或者只消耗 70% 的算力就能达到和基线方法相似的精度。对于人体姿势估计任务,我们同样可以在相同 FLOPs 情况下获得不少于 2 个点的 mAP 提升,或者在保持 mAP 精度不损失情况下减少 30% 的 FLOPs。

论文核心思想
介绍这种双重超分辨率学习算法,及其如何提升语义分割和其他相关任务的性能。
其带来的价值优势显而易见:在不增加推断算力的情况下,以不同的输入分辨率为不同的基线方法带来可观的精度提升。

强大

获选 CVPR 背后的赛灵思 AI 研发团队

VPR 是计算机视觉领域的顶级学术会议。对于所有从事计算机视觉领域的工程师来说,能够入围 CVPR 无疑是一项巨大的肯定。

CVPR 论文评审团会从投稿论文的创新性、实验效果及论文表述等维度进行评判。我们的研究的主要创新点在于,提出一种双重超分辨率学习算法,学习高分辨率的特征表示以提升语义分割的性能,特别对于低分辨率输入情况有明显改善。我们的算法思路简单,超分学习不需要额外的数据标注,且具有一定的通用性,对于人体姿态估计任务同样有效。也正是由于我们的团队在图像视觉算法及语义分割领域提出了独立、创新的观点,我们才能最终入围 CVPR。

成功投稿 CVPR 的背后蕴藏着团队的不懈努力和对研发方向的合理把握。团队负责人单羿博士为此次获选 Oral Paper 感到高兴。他介绍说,赛灵思 AI 团队基于深鉴科技研发部门原班人马打造,围绕赛灵思 FPGA 芯片,形成从 AI 算法、软件工具链到硬件 DSA 的完整解决方案。在近两年的时间里,深鉴研发团队高效地整合到赛灵思研发体系当中,从创业公司时为客户定制设计、转为通用的产品研发思路,打造了 Vitis AI 工具链,覆盖云端到嵌入式等不同规格 FPGA 芯片,已经服务于国内外众多数据中心、辅助驾驶、智能安防等领域的重要客户。作为一家灵活可编程的 FPGA 芯片公司,我们始终认为对客户应用的理解、敏捷高效地适配客户需求至关重要,在 AI 领域我们拥有 20 余位算法工程师,他们不仅关注模型量化及 DSA 的映射,更关心面对客户产品规划如何开发真正高效、硬件友好的算法模型。学术文章的发表并不是我们主要的工作内容,我们更在意基于赛灵思 FPGA 的 Vitis AI model zoo,它针对视觉、语言等领域的不同任务发布了优化的深度学习模型,以加快赛灵思 FPGA 平台上深度学习推理的部署。通过采用量化、剪枝、多任务学习、自动网络搜索等技术,我们面向医疗、安防和驾驶等领域发布接近实际应用的深度学习模型,欢迎大家下载试用。

图:赛灵思 AI 研发高级总监单羿博士

这篇论文已经正式在CVPR 平台发布,感兴趣的朋友可以点击下载论文。另外,欢迎有实习意向的同学,通过 webmarketing_apac@xilinx.com 投递深度学习/机器学习算法实习生岗位

ABOUT
论文的第一作者是赛灵思人工智能及软件研发团队的资深算法工程师王莉,此外参与研究的还有 AI 算法研发经理李栋博士,AI 算法研发总监田露博士,以及 AI 研发高级总监单羿博士和中科院自动化研究所模式识别实验室助理研究员朱优松。

推荐阅读