背景:之前利用爬虫爬了一堆电子书的图片,所以这次想把他们合并一下做成PDF,然后再添加上目录。
步骤:
1、图片转PDF工具
这一步很简单,网上有很多在线处理PDF的网站。比如:
金山pdf:金山WPS系列,其中pdf处理功能是在线的。虽然部分功能需要付费,但是处理效果相当好,也算是值得的。
speedpdf:这个网站上有很多功能,JPG to PDF Converter是免费的而且没有水印,JPG to Word Converter需要升级成会员才能用,所以后面需要OCR的时候,不得不换别的工具了。
pdfdo:这个也不错,加密解密的功能效果比较好。
smallpdf:这个也挺好,随便挑一个试试吧。
不想上传图片到别人网站上去的话,可以试试离线的软件:
FreePic2Pdf:知乎上有这个软件的下载链接(如何用FreePic2Pdf和PdgCntEditor制作目录)
2、添加目录
上面那篇知乎的文章正是我用来参考制作目录的,不过里面推荐的一篇CSDN博客需要VIP,对于我这样天天啃树皮的人肯定不会去买VIP啦,所以只能根据提供的软件自己来DIY了。
主要用到的工具是PdgCntEditor。这个软件上面也有提供链接,而且网上也很容易搜到,关键是软件的用法不是很容易找到。简单来说主要分为三步:
1)用PdgCntEditor打开上面生成的PDF,因为目前pdf还不带目录,所以打开操作看上去什么反应都没有。注意软件底部的状态栏,如果显示了打开的pdf文件路径就说明打开成功了。
2)将目录复制到软件中的那块空白区域。目录可以根据书名在网上去找,一般百度百科、豆瓣、淘宝上很容易找到。注意这里的目录最好是带页码的。如果不带页码的话,可以复制出来后在PdgCntEditor上编辑添加页码,也可以利用OCR识别电子书里面自带的目录,这个一般都是有页码的。识别的方法很简单,用截图软件把目录部分截图,然后OCR识别一下。如果电子书里也没有目录并且网上也找不到的话,那就参照网上的那些目录自己做一个吧。
OCR文字识别的功能网上也有很多在线免费的,上面提到的在线处理PDF网站上就有,不过有的效果不好,有的识别不了页码,还有的需要收费。可以先试试看,只要能识别出带页码的目录就行。这里还提供一个网站(迅捷PDF转换器),我在做目录的时候用这个网站的识别效果还可以。注意选默认的docx转换格式,txt格式有可能导致页码不识别,doc格式没试过,应该跟docx差不多。
3)最重要的是第三步了,首先全选软件中的目录,点击“选定区域自动缩进”(
)进行各个章节的识别,识别错的可以手动调整一下。然后点击“自动切分页码”(
),没有切分出来的页码可以手动添加tab制表符。最后是对齐页码,点击“pdf目录选项”(
),调整基准页的数值,就是看看目录上的第一页对应的是pdf里面的第几页,因为pdf里面的封面、前言之类的是会占页数的,需要去掉。
最后保存一下就欧啦,注意保存的时候要在其他pdf阅读器里关掉这个正在添加目录的pdf。
总结:整个方法很简单,其中核心步骤是用PdgCntEditor自动识别目录的那部分。我在编辑目录的时候是直接在软件里编辑的,其实还可以用文本编辑器(notepad或者word),借助字符替换之类的功能可以做得更好,这部分可以看下面的参考文章。
参考文章:

3129

被折叠的 条评论
为什么被折叠?



