本文转载自: XILINX开发者社区微信公众号
2021年12月5日,Xilinx AI团队核心成员严丹在首届“英特尔创新大师杯”深度学习挑战赛比赛通用场景中文OCR(Optical Character Recognition,光学字符识别)文本识别任务中,通过两阶段网络结构,融合基于分割和基于Mask RCNN的检测模型预测结果,在复赛测试集上获得75.34的高分, 取得冠军。
首届“英特尔创新大师杯”深度学习挑战赛是由阿里云联手英特尔主办,联合计算平台机器学习PAI以及达摩院、中文信息协会等组织机构联合承办,聚焦计算机视觉OCR领域以及自然语言处理方向的经典技术方向,通过三个实用场景向社会各界的开发者征集解决方案,其中“通用场景中文OCR文本识别任务”为该挑战赛赛道一,旨在通过一种通用的OCR算法,将不同现实场景和应用场景下的文字信息,转化为电子设备可以处理的文本信息。本次比赛,阿里云计算平台事业部的PAI团队提供了多个场景下的OCR数据集,包括:文本书籍、票据、广告信息等,均已存在标注信息。
在复赛阶段,训练数据集跟初赛的训练数据集保持一致,复赛测试数据集则在初始数据集的基础上新增了媒体数据(海报,手机广告等类型数据),以考验模型的泛化性。该任务涉及到对中英文以及数字的检测和识别,面临文本紧凑,字符模糊,形状不确定,文本多朝向,环境噪声较多等问题。
Xilinx AI团队采用了两阶段的OCR网络结构,先通过检测网络预测出文本区域,然后通过文本朝向分类网络对文本区域进行朝向矫正,最后将矫正后的文本框输入识别网络中进行字符识别,从而得到文本框坐标和对应文本。
在文本检测方面,为了应对不规则形状文本和环境噪声较多等问题,团队尝试使用基于分割的单阶段检测网络和基于Mask RCNN结构的双阶段检测网络。这两个网络分别能在预赛测试集上可以获得13个点的精度提升,在复赛数据集上分别获得了72.69和73.92的测试分数。为了进一步提高精度,团队将两个检测网络输出的预测分数和对应识别分数相乘,作为NMS的输入评分,从而获得融合输出结果,该方案在复赛测试集上可以获得75.34的分数。
在文本识别方面,通用的中英文识别CRNN网络对于本次比赛数据集的识别精度较差,因此团队利用比赛数据集提供的文本框坐标,截取出文本区域,构成识别数据集,从而对通用CRNN网络进行微调,微调后的网络识别能力会有明显提升。最终团队在复赛和决赛中都取得了第一的成绩。
Xilinx AI团队服务于全球数据中心、自动驾驶、智能工业以及智慧医疗等近百家头部企业,打造了Vitis AI全栈式解决方案,覆盖AI处理器IP、编译器和软件工具链,通过服务客户落地项目,积累了基于Xilinx FPGA平台的百余重要算法模型及参考方案。与此同时,团队始终坚持前沿研究和客户需求双驱动,在AI算法方向保持原创动能,在面向云端和边缘端应用场景的目标检测、分割、识别、语音,及自然语言处理研发中投入大量资源,进而更好提升产品内核竞争力。
Xilinx致力为客户提供端到端的全流程极致优化方案,助力客户实现突破性的AI推断,给客户创造更出色的智能方案,获得客户和业内的高度认可。
Xilinx® Vitis™ AI 是Xilinx硬件平台上对边缘设备、Alveo卡及Versal卡上AI推理的全栈式解决方案。它包括优化的IP、工具、库、模型和示例设计,它的设计考虑了模型的高效率和易用性,充分发挥了Xilinx FPGA和ACAP上AI加速的潜力。
欢迎大家访问以下链接,尝试使用:
Vitis AI: https://github.com/Xilinx/Vitis-AI
AI Model Zoo: https://github.com/Xilinx/Vitis-AI/tree/master/models/AI-Model-Zoo/