网上找资源得的书籍往往不带目录,而有的目录又全是乱码,为解决此问题而写下这篇教程。
大致可以分为以下情况:
1、没有目录书签
2、目录书签只有页码
3、目录书签乱码
大致来说,目录的添加可分为以下三步:1、查找目录;2、录入目录文字;3、插入目录书签。
以下教程仅针对 pdf 文件使用。
一、查找目录#
有的书籍自带目录,这部分可以直接跳到第二步,但部分书籍不带目录。
1、我们首先可以登录全国图书馆参考咨询联盟,查询书籍。
以翦商为例说明:
注意右上角的目录页
注意:如果能够在图书馆参考咨询联盟找到书籍,且此书并非新出版的书籍。可以搭配 ss 号迅速获取目录,见第二部分
2、可以到豆瓣、淘宝、京东等地方查找。
孔夫子旧书网
豆瓣
淘宝
京东
3、你还可以在百度百科、维基百科之类的地方碰碰运气,或者找找京东、淘宝有没有人在评价上传了目录页。
如果还是找不到,只能建议手打,这样的话需要和第二步结合起来看。
二、录入目录文字#
1、手打,你永远可以信任的手段,就像十一路公交车。
2、ss 号获取,搭配图书馆参考咨询联盟使用,下载书签获取小工具(https://wwgz.lanzoue.com/i74lM1cs6qx 密码:73bp),输入 ss 号,全选复制。大多数情况,目录已经整理好了,有时需要微调。
ss 号可进入书籍目录页查询,即 base 后面的数字。
15190286 即 ss 号
补:书签工具可能会被报告为病毒。
不足:部分书籍无图书概览则无法使用,新出不久的书籍无法使用 ss 号
3、复制粘贴,若 pdf 文档可复制,直接将文档内容复制 word 上。
4、OCR 录入,在图片或者文档的基础上使用,个人并没有找到特别适合的软件,这里只推荐 Quicker 软件上的截图 OCR 动作,可以在设置里调整接口,百度 api 和腾讯 api 都可以。
补:可以在 quicker 的文本框内进行整理,借助正则表达式完成整理。
不足:截图 OCR 动作在识别目录时,总是将目录末尾的数字识别到下一行,需要手动进行调整。
5、pdf 转换,这个复杂一点、要求也更多。
(1)首先对 pdf 进行拆分,将目录(有的话)另存为一个 pdf,有三种方法。
A、quicker 动作拆分,使用pdf 处理,直接拆分原件。
B、进入Split PDF,选择 Extract pages 选项,选中目录页,然后点击 Extract,最后下载。(注:pdf 文件不能超过 100MB,需要搭配 IDM 进行下载)
B、下载PDFPatcher,一个开源的 pdf 工具箱,下载完成后,打开 pdf 文件,点击工具箱,点击提取文档内容,选择拆分文档,将 pdf 路径和输出路径选好,填上恰当的页码范围(如图),最后提取即可。
注意页码范围以实际页面为准
(2)对 pdf 进行转换,将 pdf 文件通过 ABBYY Fine reader(推荐 16 版,15 版精度不够)进行转换,将其转换为可搜索的文件。
全选后复制
(3)获取后的目录粘贴在 word 上,通过通配符完成整理,删除空白行、空白半角格、不必要的文字、页码符号等,整理后,每行格式按顺序是章节、目录标题、页码。
注意:(章节和标题之间需要增加空格,想要可展开的目录书签需要增加制表符)
范例 1
范例 2
三、插入目录书签(核心)#
1、下载软件 pdgcteditor,网盘内下载。
strnghrs - 博客园
老马的原创空间
2、打开 pdgcteditor.exe, 选取 pdf 文件,粘贴 word 上整理过的内容并全选,点击自动切分页码,修改基准页,点击保存。
顺序
切分过页码后的情况
基准码即为页码第一页的实际页面。(页面第一页视情况而定,可能是目录、序或正文)
3、实际效果展示:
特殊情况:
有时 pdf 不允许编辑
应对方法:下载pdfdir并打开,选取 pdf,将 word 的内容粘贴上去,点击写入,会得到一个 *_new.pdf 文件,再重新由 pdgcnteditor 编辑目录书签,原理不明,猜测可能是强行写入。
小结:写完之后真的好累,不是很熟练,见谅。一开始时不时会出现鼠标失灵,鼠标指针漂移,删除键总是退两格,这导致我在写博客的过程中一直很恼火,后来关了扩展才没问题,这个问题我以前以前在知乎、豆瓣写东西总会出现,一直以为是平台的问题,刚才才发现是扩展的问题,心累。