1.1引言
传统光学字符识别主要面向高质量的文档图像,此类技术假设输入图像背景干净、字体简单且文字排布整齐,在符合要求的情况下能够达到很高的识别水平。
与文档文字识别不同,自然场景中的文字识别 -----图像背景复杂、分辨率低下、字体多样、分布随意等,传统光学字符识别在此类情况下无法应用。
图像理解:仅利用一般的视觉元素(如太阳、大海、山、天空等)及其相互关系,容易缺乏足够的上下文信息约束,难以准确推导出图像所代表的含义,与一般的 视觉元素不同,文字包含了丰富的高层语义信息。
1.2 相关技术及研究现状
1.2.1 自然场景文字处理流程
主要包括文字检测与文字识别。
文字检测的主要功能为:从图像中找到文字区域,并将文字区域从原始图像中分离出来
文字识别的主要功能为:从分离出来的图像上,进行文字识别
文字识别流程:
1)预处理:去噪(滤波算法)、图像增强、缩放,其目的是去除背景或者噪点,突出文字部分,并缩放图片为适于处理的大小
2)特征抽取:常用特征:边缘特征、笔画特征、结构特征
3)识别:分类器,随机森林 、SVM、NN
1.2.2 自然场景文字识别的困难与挑战
文字背景异常复杂、文字类型丰富、分布随意、字符分割困难、噪音严重
1.2.3 自然场景文字识别的研究现状
基于字符的识别和基于整个单词的识别

本文探讨了自然场景文字识别的挑战,包括复杂背景、多样化字体和分布,以及现有方法的局限性。重点介绍了基于深度学习的识别框架,涉及到CNN和BiRNN的图像编码以及ARSG的文字解码。深度学习方法在解决传统方法依赖人工特征、字符分割问题和上下文理解方面展现出优势。

1万+

被折叠的 条评论
为什么被折叠?



