PDF目录的自动生成

背景:之前利用爬虫爬了一堆电子书的图片,所以这次想把他们合并一下做成PDF,然后再添加上目录。

步骤:

1、图片转PDF工具

这一步很简单,网上有很多在线处理PDF的网站。比如:

金山pdf:金山WPS系列,其中pdf处理功能是在线的。虽然部分功能需要付费,但是处理效果相当好,也算是值得的。

speedpdf:这个网站上有很多功能,JPG to PDF Converter是免费的而且没有水印,JPG to Word Converter需要升级成会员才能用,所以后面需要OCR的时候,不得不换别的工具了。

pdfdo:这个也不错,加密解密的功能效果比较好。

smallpdf:这个也挺好,随便挑一个试试吧。

不想上传图片到别人网站上去的话,可以试试离线的软件:

FreePic2Pdf:知乎上有这个软件的下载链接(如何用FreePic2Pdf和PdgCntEditor制作目录

2、添加目录

上面那篇知乎的文章正是我用来参考制作目录的,不过里面推荐的一篇CSDN博客需要VIP,对于我这样天天啃树皮的人肯定不会去买VIP啦,所以只能根据提供的软件自己来DIY了。

主要用到的工具是PdgCntEditor。这个软件上面也有提供链接,而且网上也很容易搜到,关键是软件的用法不是很容易找到。简单来说主要分为三步:

1)用PdgCntEditor打开上面生成的PDF,因为目前pdf还不带目录,所以打开操作看上去什么反应都没有。注意软件底部的状态栏,如果显示了打开的pdf文件路径就说明打开成功了。

2)将目录复制到软件中的那块空白区域。目录可以根据书名在网上去找,一般百度百科、豆瓣、淘宝上很容易找到。注意这里的目录最好是带页码的。如果不带页码的话,可以复制出来后在PdgCntEditor上编辑添加页码,也可以利用OCR识别电子书里面自带的目录,这个一般都是有页码的。识别的方法很简单,用截图软件把目录部分截图,然后OCR识别一下。如果电子书里也没有目录并且网上也找不到的话,那就参照网上的那些目录自己做一个吧。

OCR文字识别的功能网上也有很多在线免费的,上面提到的在线处理PDF网站上就有,不过有的效果不好,有的识别不了页码,还有的需要收费。可以先试试看,只要能识别出带页码的目录就行。这里还提供一个网站(迅捷PDF转换器),我在做目录的时候用这个网站的识别效果还可以。注意选默认的docx转换格式,txt格式有可能导致页码不识别,doc格式没试过,应该跟docx差不多。

3)最重要的是第三步了,首先全选软件中的目录,点击“选定区域自动缩进”()进行各个章节的识别,识别错的可以手动调整一下。然后点击“自动切分页码”(),没有切分出来的页码可以手动添加tab制表符。最后是对齐页码,点击“pdf目录选项”(),调整基准页的数值,就是看看目录上的第一页对应的是pdf里面的第几页,因为pdf里面的封面、前言之类的是会占页数的,需要去掉。

最后保存一下就欧啦,注意保存的时候要在其他pdf阅读器里关掉这个正在添加目录的pdf。

总结:整个方法很简单,其中核心步骤是用PdgCntEditor自动识别目录的那部分。我在编辑目录的时候是直接在软件里编辑的,其实还可以用文本编辑器(notepad或者word),借助字符替换之类的功能可以做得更好,这部分可以看下面的参考文章。

参考文章:

如何用FreePic2Pdf和PdgCntEditor制作目录

PDF 能一键生成书签,PdgCntEditor了解一下~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

applefl

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值