Xilinx AI团队在“英特尔创新大师杯”深度学习挑战赛中荣获冠军

judy 在周二, 12/14/2021 - 09:58 提交

2021年12月5日，Xilinx AI团队核心成员严丹在首届“英特尔创新大师杯”深度学习挑战赛比赛通用场景中文OCR（Optical Character Recognition，光学字符识别）文本识别任务中，通过两阶段网络结构，融合基于分割和基于Mask RCNN的检测模型预测结果，在复赛测试集上获得75.34的高分, 取得冠军。

首届“英特尔创新大师杯”深度学习挑战赛是由阿里云联手英特尔主办，联合计算平台机器学习PAI以及达摩院、中文信息协会等组织机构联合承办，聚焦计算机视觉OCR领域以及自然语言处理方向的经典技术方向，通过三个实用场景向社会各界的开发者征集解决方案，其中“通用场景中文OCR文本识别任务”为该挑战赛赛道一，旨在通过一种通用的OCR算法，将不同现实场景和应用场景下的文字信息，转化为电子设备可以处理的文本信息。本次比赛，阿里云计算平台事业部的PAI团队提供了多个场景下的OCR数据集，包括：文本书籍、票据、广告信息等，均已存在标注信息。

在复赛阶段，训练数据集跟初赛的训练数据集保持一致，复赛测试数据集则在初始数据集的基础上新增了媒体数据(海报，手机广告等类型数据)，以考验模型的泛化性。该任务涉及到对中英文以及数字的检测和识别，面临文本紧凑，字符模糊，形状不确定，文本多朝向，环境噪声较多等问题。

Xilinx AI团队采用了两阶段的OCR网络结构，先通过检测网络预测出文本区域，然后通过文本朝向分类网络对文本区域进行朝向矫正，最后将矫正后的文本框输入识别网络中进行字符识别，从而得到文本框坐标和对应文本。

在文本检测方面，为了应对不规则形状文本和环境噪声较多等问题，团队尝试使用基于分割的单阶段检测网络和基于Mask RCNN结构的双阶段检测网络。这两个网络分别能在预赛测试集上可以获得13个点的精度提升，在复赛数据集上分别获得了72.69和73.92的测试分数。为了进一步提高精度，团队将两个检测网络输出的预测分数和对应识别分数相乘，作为NMS的输入评分，从而获得融合输出结果，该方案在复赛测试集上可以获得75.34的分数。

在文本识别方面，通用的中英文识别CRNN网络对于本次比赛数据集的识别精度较差，因此团队利用比赛数据集提供的文本框坐标，截取出文本区域，构成识别数据集，从而对通用CRNN网络进行微调，微调后的网络识别能力会有明显提升。最终团队在复赛和决赛中都取得了第一的成绩。

Xilinx AI团队服务于全球数据中心、自动驾驶、智能工业以及智慧医疗等近百家头部企业，打造了Vitis AI全栈式解决方案，覆盖AI处理器IP、编译器和软件工具链，通过服务客户落地项目，积累了基于Xilinx FPGA平台的百余重要算法模型及参考方案。与此同时，团队始终坚持前沿研究和客户需求双驱动，在AI算法方向保持原创动能，在面向云端和边缘端应用场景的目标检测、分割、识别、语音，及自然语言处理研发中投入大量资源，进而更好提升产品内核竞争力。

Xilinx致力为客户提供端到端的全流程极致优化方案，助力客户实现突破性的AI推断，给客户创造更出色的智能方案，获得客户和业内的高度认可。

Xilinx® Vitis™ AI 是Xilinx硬件平台上对边缘设备、Alveo卡及Versal卡上AI推理的全栈式解决方案。它包括优化的IP、工具、库、模型和示例设计，它的设计考虑了模型的高效率和易用性，充分发挥了Xilinx FPGA和ACAP上AI加速的潜力。

欢迎大家访问以下链接，尝试使用：

Vitis AI: https://github.com/Xilinx/Vitis-AI

AI Model Zoo: https://github.com/Xilinx/Vitis-AI/tree/master/models/AI-Model-Zoo/

AI

深度学习

英特尔创新大师杯

AMD Solutions Day以AI创新与永续布局并重发展全方位方案	AI Tech 2019:崂山论“智”，Xilinx秀独家“秘笈”	AMD发布锐龙嵌入式8000处理器第一次有了真正的AI
想用 FPGA 或 SoC 却不知道如何开始？从 Xilinx 开发的入门级开发平台开始吧！	宜鼎国际最新肺部X光片侦测自动化边缘 AI 解决方案加速医疗诊断	AI 时代引领创新的正确“姿势”

Xilinx AI团队在“英特尔创新大师杯”深度学习挑战赛中荣获冠军

最新文章

最新文章