基于paddleocr的版面分析

文章介绍了DocTr技术,一种用于文档图像的几何矫正和光照恢复方法,利用Transformer和卷积网络。同时提及了版面分析模型PP-PicoDet,以及文本检测、识别的DBNet和SVTR_LCNet技术,以及表格检测和识别的SLANet模型,都与PaddleOCR库相关。

前处理

DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction

(1)几何矫正

给定一张存在几何和光照畸变的文档图像,我们首先用一个包含六个卷积模块的特征提取器对其进行特征提取,并降低特征图分辨率至输入图像的1/8尺度,以保证网络的推理效率。然后,我们将提取的特征图展平后,输入至Transformer编码器,解码器,以及我们设计的可学习的上采样模块,得到坐标位移矩阵。最后,我们用对坐标位移矩阵对输入的图像进行几何矫正(即基于双线性插值的在输入图像上按坐标进行像素重采样)。

(2)光照恢复

给定一张几何矫正输出的高分辨率图像,我们首先将其切分成相互之间有1/8重叠的图像块。然后,我们将每一个图像块输入至卷积特征提取器,Transformer编码器,解码器,以及卷积输出头,从而输出光照恢复的图像块。最后,我们将每一个恢复的图像块进行空间上的拼接,完成文档图像的光照恢复。

1、版面分析

使用轻量模型PP-PicoDet检测模型实现版面各种类别的检测。

注意

版面分析模型的结果导出时不需要有后处理,可以在configs/runtimes.yml中设置benchmark

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值