PDF文件文字复制权限被加密,但是需要PDF里的所有文字,解决方案:Python + FineReaderOCR

本文讲述了作者在遇到PDF文字被加密的情况下,如何通过购买并利用FineReaderOCR软件,配合Python脚本将PDF拆分为图片,再合并为无加密状态的PDF,展示了OCR技术和Python在处理此类问题中的应用。

这次真的找到了一个强大的OCR来帮我解决问题

1、通常的情况

平时如果需要提取PDF中的文字,第一个想到的软件是格式工厂,
利用它的"PDF→Text"功能就行,优点是软件运行快,处理的时间短,
跟执行一个Python脚本做这件事情消耗的时间差不多。

2、本次问题的特殊性

然而,在这个PDF中,文字复制权限被加密了,
格式工厂软件面对这个问题比较疲软,
它会直接返回PDFEncryptionError报错,意思是无法解码加密内容。

3、相关工作

之后,我去淘宝上搜索"PDF转文字",
尝试找一个合适的服务,
来解决我的问题(最好是永久解决这种问题),
然后我买了这个:

可能随着时间的变化
这个店铺可能有更新
原来的商品可能找不到了
不过没有关系
看我后文给出的软件名称和公司名称也可以找到软件

很快,我得到了安装包的链接:

https://www.123pan.com/s/cUqKVv-hkpvd.html
提取码:5waF

下载,安装,运行安装目录下的FineReaderOCR.exe
软件的界面是这样的:

打开PDF文件,然后,它还是要我输入密码,

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值