
这次真的找到了一个强大的OCR来帮我解决问题
1、通常的情况
平时如果需要提取PDF中的文字,第一个想到的软件是格式工厂,
利用它的"PDF→Text"功能就行,优点是软件运行快,处理的时间短,
跟执行一个Python脚本做这件事情消耗的时间差不多。

2、本次问题的特殊性
然而,在这个PDF中,文字复制权限被加密了,
格式工厂软件面对这个问题比较疲软,
它会直接返回PDFEncryptionError报错,意思是无法解码加密内容。

3、相关工作
之后,我去淘宝上搜索"PDF转文字",
尝试找一个合适的服务,
来解决我的问题(最好是永久解决这种问题),
然后我买了这个:

可能随着时间的变化
这个店铺可能有更新
原来的商品可能找不到了
不过没有关系
看我后文给出的软件名称和公司名称也可以找到软件
很快,我得到了安装包的链接:
https://www.123pan.com/s/cUqKVv-hkpvd.html
提取码:5waF
下载,安装,运行安装目录下的FineReaderOCR.exe
软件的界面是这样的:

打开PDF文件,然后,它还是要我输入密码,

本文讲述了作者在遇到PDF文字被加密的情况下,如何通过购买并利用FineReaderOCR软件,配合Python脚本将PDF拆分为图片,再合并为无加密状态的PDF,展示了OCR技术和Python在处理此类问题中的应用。

2253

被折叠的 条评论
为什么被折叠?



