PDF目录的自动生成

原创已于 2022-02-08 09:03:22 修改 · 7.2k 阅读

3 ·

本内容遵循CC 4.0 BY-SA版权协议

收录于

常用工具

于 2020-04-18 17:19:31 首次发布

背景：之前利用爬虫爬了一堆电子书的图片，所以这次想把他们合并一下做成PDF，然后再添加上目录。

步骤：

1、图片转PDF工具

这一步很简单，网上有很多在线处理PDF的网站。比如：

金山pdf：金山WPS系列，其中pdf处理功能是在线的。虽然部分功能需要付费，但是处理效果相当好，也算是值得的。

speedpdf：这个网站上有很多功能，JPG to PDF Converter是免费的而且没有水印，JPG to Word Converter需要升级成会员才能用，所以后面需要OCR的时候，不得不换别的工具了。

pdfdo：这个也不错，加密解密的功能效果比较好。

smallpdf：这个也挺好，随便挑一个试试吧。

不想上传图片到别人网站上去的话，可以试试离线的软件：

FreePic2Pdf：知乎上有这个软件的下载链接（如何用FreePic2Pdf和PdgCntEditor制作目录）

2、添加目录

上面那篇知乎的文章正是我用来参考制作目录的，不过里面推荐的一篇CSDN博客需要VIP，对于我这样天天啃树皮的人肯定不会去买VIP啦，所以只能根据提供的软件自己来DIY了。

主要用到的工具是PdgCntEditor。这个软件上面也有提供链接，而且网上也很容易搜到，关键是软件的用法不是很容易找到。简单来说主要分为三步：

1）用PdgCntEditor打开上面生成的PDF，因为目前pdf还不带目录，所以打开操作看上去什么反应都没有。注意软件底部的状态栏，如果显示了打开的pdf文件路径就说明打开成功了。

2）将目录复制到软件中的那块空白区域。目录可以根据书名在网上去找，一般百度百科、豆瓣、淘宝上很容易找到。注意这里的目录最好是带页码的。如果不带页码的话，可以复制出来后在PdgCntEditor上编辑添加页码，也可以利用OCR识别电子书里面自带的目录，这个一般都是有页码的。识别的方法很简单，用截图软件把目录部分截图，然后OCR识别一下。如果电子书里也没有目录并且网上也找不到的话，那就参照网上的那些目录自己做一个吧。

OCR文字识别的功能网上也有很多在线免费的，上面提到的在线处理PDF网站上就有，不过有的效果不好，有的识别不了页码，还有的需要收费。可以先试试看，只要能识别出带页码的目录就行。这里还提供一个网站（迅捷PDF转换器），我在做目录的时候用这个网站的识别效果还可以。注意选默认的docx转换格式，txt格式有可能导致页码不识别，doc格式没试过，应该跟docx差不多。

3）最重要的是第三步了，首先全选软件中的目录，点击“选定区域自动缩进”（）进行各个章节的识别，识别错的可以手动调整一下。然后点击“自动切分页码”（），没有切分出来的页码可以手动添加tab制表符。最后是对齐页码，点击“pdf目录选项”（），调整基准页的数值，就是看看目录上的第一页对应的是pdf里面的第几页，因为pdf里面的封面、前言之类的是会占页数的，需要去掉。