基于paddleocr的版面分析

原创

已于 2024-01-27 16:49:04 修改 · 2.6k 阅读

·

1

·

标签

#ocr

于 2023-08-23 20:27:53 首次发布

文章介绍了DocTr技术，一种用于文档图像的几何矫正和光照恢复方法，利用Transformer和卷积网络。同时提及了版面分析模型PP-PicoDet，以及文本检测、识别的DBNet和SVTR_LCNet技术，以及表格检测和识别的SLANet模型，都与PaddleOCR库相关。

前处理：

DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction

（1）几何矫正

给定一张存在几何和光照畸变的文档图像，我们首先用一个包含六个卷积模块的特征提取器对其进行特征提取，并降低特征图分辨率至输入图像的1/8尺度，以保证网络的推理效率。然后，我们将提取的特征图展平后，输入至Transformer编码器，解码器，以及我们设计的可学习的上采样模块，得到坐标位移矩阵。最后，我们用对坐标位移矩阵对输入的图像进行几何矫正（即基于双线性插值的在输入图像上按坐标进行像素重采样）。

（2）光照恢复

给定一张几何矫正输出的高分辨率图像，我们首先将其切分成相互之间有1/8重叠的图像块。然后，我们将每一个图像块输入至卷积特征提取器，Transformer编码器，解码器，以及卷积输出头，从而输出光照恢复的图像块。最后，我们将每一个恢复的图像块进行空间上的拼接，完成文档图像的光照恢复。

1、版面分析

使用轻量模型PP-PicoDet检测模型实现版面各种类别的检测。

注意

版面分析模型的结果导出时不需要有后处理，可以在configs/runtimes.yml中设置benchmark

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。