博文

基于单字符注意力的全品类鲁棒车牌识别

已有 1435 次阅读 2023-1-18 11:17 |系统分类:博客资讯

引用本文

穆世义, 徐树公. 基于单字符注意力的全品类鲁棒车牌识别. 自动化学报, 2023, 49(1): 122−134 doi: 10.16383/j.aas.c211210

Mu Shi-Yi, Xu Shu-Gong. Full-category robust license plate recognition based on character attention. Acta Automatica Sinica, 2023, 49(1): 122−134 doi: 10.16383/j.aas.c211210

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c211210

关键词

车牌识别，注意力机制，字符分割，字符分类

摘要

复杂场景下的高精度车牌识别仍然存在着许多挑战, 除了光照、分辨率不可控和运动模糊等因素导致的车牌图像质量低之外, 还包括车牌品类多样产生的行数不一和字数不一等困难, 以及因拍摄角度多样出现的大倾角等问题. 针对这些挑战, 提出了一种基于单字符注意力的场景鲁棒的高精度车牌识别算法, 在无单字符位置标签信息的情况下, 使用注意力机制对车牌全局特征图进行单字符级特征分割, 以处理多品类车牌和倾斜车牌中的二维字符布局问题. 另外, 该算法通过使用共享参数的多分支结构代替现有算法的串行解码结构, 降低了分类头参数量并实现了并行化推理. 实验结果表明, 该算法在公开车牌数据集上实现了超越现有算法的精度, 同时具有较快的识别速度.

文章导读

机动车车牌作为机动车重要的身份标识, 对车牌的精准识别具有较高的应用价值. 车牌识别技术已经广泛应用在交通监控、门禁管理、智慧交通等场景中. 然而大部分现有算法仅在光照、拍摄距离和拍摄角度等相对固定的受限场景中达到实用的准确度,甚至有些识别系统只能识别单品类的车牌.

本文主要研究车牌识别中多品类车牌兼容和复杂场景下的大角度倾斜的两大挑战.

多品类兼容的难点在于不同品类的车牌的字符布局不同. 除字符个数不同外, 字符空间布局差异较大, 尤其是单行文本车牌的一维布局和双行文本车牌的二维布局之间的差异难以兼容.

角度倾斜的车牌和角度水平的车牌之间不同之处也在于其空间布局方式的不同. 水平的车牌图像中字符序列沿水平方向从左到右依次排列. 倾斜车牌图像中的字符布局存在高度差, 呈现出一种二维的对角线布局状态.

针对不同长度的单行文本车牌, 通常可采用基于连接时序分类(Connectionist temporal classification, CTC)的算法进行识别. Li等[1]提出了基于卷积神经网络与CTC结合的算法. Wu等[2]提出了DenseNet[3]结合CTC的算法. Yang等[4]提出了基于卷积、全连接分类头和CTC的HomoNet算法. He等[5]采用了场景文本识别领域中广泛应用的卷积神经网络结合循环神经网络(Recurrent neural network, RNN)的组合方式, 利用循环神经网络对前后语义信息进行建模. Lee等[6]、Cheng等[7]和Zou等[8]提出了一些基于一维注意力的算法用于提高识别准确率. 此类针对一维水平布局的单行字符而设计的算法无法很好地解决二维布局的倾斜车牌和双行车牌.

可兼容一维和二维布局的方法有四种: 基于多个分类头的算法、基于单字符检测分割的方法、基于空间矫正的方法和基于二维注意力的方法.

基于多个分类头的算法对单双行车牌设计不同的分类头以实现分而治之. 依据车牌品类分类结果选择对应品类的分类头进行字符分类. Qin等[9]在识别器中设计分支结构预测车牌品类后选择对应的字符分类头. 此类方法解决了单双行的兼容问题, 但是无法应对大角度倾斜导致的二维空间布局问题.

基于单字符检测分割的算法[10-14]对车牌图像中的单字符进行逐一检测定位, 并逐一进行分割分类, 根据空间位置关系对多个分类结果进行排序重组即组成所预测的车牌字符序列. 该种算法可有效地解决倾斜导致的二维布局问题, 同时可兼容单双行的车牌识别. 但是存在不足之处, 训练阶段需要每个单字符的位置和类别标签进行监督训练.

基于空间矫正的算法将倾斜的车牌图像整体矫正为水平状态再进行车牌识别. Luo等[15]提出了基于空间变换网络[16]的车牌识别算法, 周晓君等[17]提出了相似的算法用于车牌图像的空间矫正. 此类算法可将倾斜单行文本的二维布局矫正为一维布局, 但是无法将双行文本矫正为单行文本.

基于二维注意力的算法则无需对输入图像进行空间矫正, 而是利用二维注意力在特征提取过程中更加关注单字符区域特征从而依次对单字符进行识别. Li等[18]提出基于长短时记忆网络的二维注意力机制用于场景文本识别, Xu等[19]和Zhang等[20]将该注意力机制应用在复杂场景的车牌识别, 提高了倾斜车牌的识别鲁棒性. Hu等[21]提出了采用图卷积网络(Graph convolutional nueral network, GCN)代替基于长短时记忆网络的二维注意力结构应用于文本识别, 加快了网络推理速度. Yan等[22]引入GCN增强了单字符特征的表达能力, 有效地提升了场景文本识别的鲁棒性.

上述算法中基于单字符检测分割的算法和基于二维注意力的算法可用于解决双行字符和倾斜车牌的二维布局识别问题. 前者需要大量的单字符位置标签, 后者无需单字符位置标签. 然而后者结构中的串行解码器耗时较大, 并且无法实现并行化. 在实际应用中, 部署车牌识别算法的嵌入式设备计算能力较弱, 因此需要较小的计算复杂度和较少的参数量才能够满足车牌识别应用部署阶段的实时性需求.

本文提出基于字符注意力的识别网络(Character attention based recognition network, CARNet), 采用二维注意力的机制对全局特征图进行单字符特征分割, 提出可并行化的多分支结构代替现有的串行解码结构, 提高了算法推理速度. 并在多个分类头之间进行参数共享, 有效降低网络参数量. 本文的主要贡献包括:

1)采用了单字符注意力解决单双行布局不同的兼容难题.

2)设计了参数共享的多字符分类头网络, 实现多字符的并行化预测.

3)在中国城市停车场数据集(Chinese city parking dataset, CCPD)和中国车牌数据集(China license plate dataset, CLPD)上实现了超越现有公开算法的车牌识别准确率

图 1 注意力机制改进

图 2 CARNet算法结构图

图 3 轻量化特征提取

针对多品类车牌和复杂场景下的倾斜车牌识别难题, 本文提出一种基于单字符注意力的二维特征分割方案, 将车牌识别这个序列识别任务简化为多分支单字符分类任务. 在不需要单字符位置标签监督训练的情况下, 充分发挥二维注意力的优势实现并行化的单字符特征分割. 基于深度可分离卷积设计出更加轻量化的特征提取主干网络, 并且设计了共享参数的多分支结构代替了基于循环神经网络的串行解码器结构, 提升了车牌识别算法的速度, 降低了模型参数量.

本文提出的CARNet算法同时兼容国内绝大多数品类常规和特种车牌识别, 实现对不同字数和行数车牌的兼容识别. 但是稀有品类的车牌在实验中仅使用合成数据集进行监督训练, 所合成的训练样本与真实车牌图像样本仍然存在一定的域差异, 识别准确率低于常规蓝色车牌准确率. 未来可通过采集更多训练样本或通过域迁移的方法来提高稀有品类车牌识别效果.

作者简介

穆世义

上海大学通信与信息工程学院硕士研究生. 主要研究方向为深度学习, 计算机视觉和光学字符识别. E-mail: mushiyishu@shu.edu.cn

徐树公

上海大学通信与信息工程学院教授. 主要研究方向为无线通信和模式识别. 本文通信作者. E-mail: shugong@shu.edu.cn

转载本文请联系原作者获取授权，同时请注明本文来自欧彦科学网博客。
链接地址：https://m.sciencenet.cn/blog-3291369-1372461.html

上一篇：基于拓扑一致性对抗互学习的知识蒸馏
下一篇：弱对齐的跨光谱人脸检测

收藏分享

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

欧彦

扫一扫，分享此博文

全部作者的精选博文

• 2023年度自动化领域国家自然科学基金申请与资助情况

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于单字符注意力的全品类鲁棒车牌识别

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于单字符注意力的全品类鲁棒车牌识别

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)