AMD 两篇论文入选 CVPR:算法研究与产业应用“相辅相成”

6 月 19 日,CVPR 2022 即将举行。在今年的会议上,来自北京的 AMD AI 研发团队再次入选两篇论文——《动态稀疏 R-CNN》和《用于细粒度视觉分类和目标重识别的双重交叉注意力学习》(文末附论文下载链接)。

这是该团队连续第三年有论文入选 CVPR 这一顶级学术会议。凭借在计算机视觉算法领域的前沿研究,AMD AI 研发团队持续为自动驾驶、智慧城市、智慧安防、智慧零售等行业提供创新应用价值,助力团队所服务的众多客户打造领先的 Vitis AI 全栈式解决方案。

AI算法研发和产业应用是相辅相成的。一直以来,我们为客户提供AI处理器IP、编译器和软件工具链,助力数据中心、自动驾驶、机器人等客户AI应用的落地。在此工程中,我们也积累了丰富的算法模型和参考方案。在创新研究和客户需求双重驱动下,团队在AI算法领域不懈探索,通过前沿研发更好地提升了产品内核竞争力,也助力客户打造更卓越的解决方案。

“AI算法研发和产业应用是相辅相成的。一直以来,我们为客户提供AI处理器IP、编译器和软件工具链,助力数据中心、自动驾驶、机器人等客户AI应用的落地。在此工程中,我们也积累了丰富的算法模型和参考方案。在创新研究和客户需求双重驱动下,团队在AI算法领域不懈探索,通过前沿研发更好地提升了产品内核竞争力,也助力客户打造更卓越的解决方案。”——单羿博士,AMD公司副总裁(Corporate Vice President)

动态稀疏 R-CNN

洪清杭,AMD 算法实习生(左),刘丰铭,AMD 算法实习生(右)

Sparse R-CNN 是近期一个高性能目标检测器,它通过对可学习的稀疏候选框和候选特征进行预测,无需 anchor 或参考点。在论文中,团队提出两种动态策略来改进 Sparse R-CNN。

• 首先,Sparse R-CNN 采用一对一的标签分配方案,即利用匈牙利算法为每个GT分配一个正样本,为此我们提出一种动态标签分配算法,基于最优传输理论为每个GT分配多个正样本,且在级联结构中逐渐增加正样本的数量。

• 其次,在推理过程中,Sparse R-CNN 对于不同输入图像,初始候选框和特征保持不变。受动态卷积启发,本论文提出一种动态候选框生成算法,通过动态组合多个生成器来优化初始候选框。

实验表明,团队提出的 Dynamic Sparse R-CNN 检测器能够进一步提升 Sparse R-CNN 的性能,采用 ResNet-50 作为主干网络,Dynamic Sparse R-CNN 在 COCO 验证集上获得 47.2% AP,大幅超越 Sparse R-CNN 2.2 个百分点。



这种创新的方法具备众多优势:

•能够继承 Sparse R-CNN 的优点,例如采用可学习的稀疏候选框、自注意力机制关联不同候选框等;

• 主流Transformer based detector大多采用一对一的标签分配方案,即利用匈牙利算法为每个GT分配一个正样本,这对优化检测器来说可能不够高效。本论文的方法受最优传输理论启发,为每个GT分配多个正样本,且在级联结构中逐渐增加正样本的数量。实验表明,这种动态标签分配算法能够带来显著的精度提升。

• Sparse R-CNN 学习得到的候选框集合表示的是训练集目标可能出现位置的统计信息,对于具体的测试图像来说是固定的。这种方法受动态卷积的启发,通过动态组合多个生成器来优化初始候选框,使得对于不同输入图像来说候选框是自适应的,从而进一步提升了检测精度。

众所周知,目标检测作为计算机视觉中的基础任务,在自动驾驶、智慧城市等领域中有着重要的应用。本论文提出的算法在仅使用单个ResNet50作为backbone的检测器中获得了世界领先的精度,在COCO 验证集上获得47.2% AP,超越Sparse R-CNN 基线模型2.2个百分点,并且超越其他CNN-based和Transformer-based的主流检测器。

用于细粒度视觉分类和目标重识别的双重交叉注意力学习

朱浩崴,AMD 算法实习生(左),柯文静,AMD 算法工程师(右)

细粒度识别和目标重识别是智慧城市中的重要任务。细粒度识别的目的是区分同一类别下的不同子类别物体,而目标重识别任务需要在跨摄像头中识别同一个行人或车辆目标身份。由于不同子类之间仅存在细微的视觉差异,细粒度识别和目标重识别比一般的图像分类任务更具挑战性。

近来,基于自注意机制(Self-Attention)的Transformer 模型在各种NLP和CV任务中表现出优越的性能。自注意力能够捕获序列特征并获得全局信息。在这项工作中,我们针对细粒度识别和目标重识别任务设计了一种双重交叉注意力学习(Dual Cross-Attention Learning)方法,以更好地学习细微的特征来识别细粒度目标,例如不同的鸟类物种或行人ID。

本论文提出的双重交叉注意力包括全局-局部交叉注意力和成对交叉注意力。

• 全局-局部交叉注意力通过全局特征和局部显著性特征之间的交互:在定位显著性区域后学习局部显著性特征,有助于增强对空间中辨别性特征的学习能力。

• 成对交叉注意力建立了图像对之间特征的交互:通过干扰图片的特征混入到目标图像特征的学习中,起到正则化的作用,可以有效缓解过拟合。

本论文的方法在细粒度分类和目标重识别的主流数据集上均有明显的精度提升,例如,在MSMT17数据集上相比于Deit-Tiny和ViT-Base基线方法提升了2.8%和2.4% mAP。




该论文研究的独特价值在于:

• 所提出方法在主流的细粒度识别和目标重识别数据集上,基于不同的基线方法进行了大量的有效性验证实验。所提出方法在不同的基线方法上均有提升,相比于已有方法取得了最佳性能。

• 相较于传统的自注意力方法,这种方法创新性地提出了两种交叉注意力模块,在训练过程中通过全局-局部、成对图像间的特征交互,帮助模型挖掘图像中的辨别性和补足性特征。

• 所提出的交叉注意力模块易于实现,且能与现有的视觉Transformer基线方法兼容。

除此之外,本论文提出的方法能够应用到细粒度分类、行人重识别、车辆重识别等任务,对智慧城市、智慧安防、智慧零售等领域具有应用价值。成对交叉注意力模块是应用在Transformer训练过程中即插即用的方法,可以在不改变模型推理的前提下帮助模型进一步提升精度,这有助于快速进行模型更新。

如果您希望进一步了解两篇论文,可以通过点击名称下载全文。

Dynamic Sparse R-CNN
Dual Cross-Attention Learning for Fine-Grained Visual Categorization and Object Re-Identification

关于 CVPR

CVPR(国际计算机视觉与模式识别会议)是IEEE举办的一年一度的学术性会议,与ICCV、ECCV并称计算机视觉领域三大世界顶级会议。CVPR覆盖计算机视觉和模式识别相关的广泛主题,包括对象识别、图像分割、动态预测、3D 重建和深度学习等。CVPR论文的接收标准相当严格,评审团从论文创新性、实验效果、表述等维度进行评判。

今年,提交 CVPR 组委会的论文数量达到了创纪录的 8,161 篇,最终共有 2,067 篇被接收,接收率为 25.33%。

最新文章