網上找資源得的書籍往往不帶目錄,而有的目錄又全是亂碼,為解決此問題而寫下這篇教程。
大致可以分為以下情況:
1、沒有目錄書籤
2、目錄書籤只有頁碼
3、目錄書籤亂碼
大致來說,目錄的添加可分為以下三步:1、查找目錄;2、錄入目錄文字;3、插入目錄書籤。
以下教程僅針對 pdf 文件使用。
一、查找目錄#
有的書籍自帶目錄,這部分可以直接跳到第二步,但部分書籍不帶目錄。
1、我們首先可以登錄全國圖書館參考諮詢聯盟,查詢書籍。
以翦商為例說明:
注意右上角的目錄頁
注意:如果能夠在圖書館參考諮詢聯盟找到書籍,且此書並非新出版的書籍。可以搭配 ss 號迅速獲取目錄,見第二部分
2、可以到豆瓣、淘寶、京東等地方查找。
孔夫子舊書網
豆瓣
淘寶
京東
3、你還可以在百度百科、維基百科之類的地方碰碰運氣,或者找找京東、淘寶有沒有人在評價上傳了目錄頁。
如果還是找不到,只能建議手打,這樣的話需要和第二步結合起來看。
二、錄入目錄文字#
1、手打,你永遠可以信任的手段,就像十一路公交車。
2、ss 號獲取,搭配圖書館參考諮詢聯盟使用,下載書籤獲取小工具(https://wwgz.lanzoue.com/i74lM1cs6qx 密碼:73bp),輸入 ss 號,全選複製。大多數情況,目錄已經整理好了,有時需要微調。
ss 號可進入書籍目錄頁查詢,即 base 後面的數字。
15190286 即 ss 號
補:書籤工具可能會被報告為病毒。
不足:部分書籍無圖書概覽則無法使用,新出不久的書籍無法使用 ss 號
3、複製粘貼,若 pdf 文檔可複製,直接將文檔內容複製 word 上。
4、OCR 錄入,在圖片或者文檔的基礎上使用,個人並沒有找到特別適合的軟件,這裡只推薦 Quicker 軟件上的截圖 OCR 動作,可以在設置裡調整接口,百度 api 和騰訊 api 都可以。
補:可以在 quicker 的文本框內進行整理,借助正則表達式完成整理。
不足:截圖 OCR 動作在識別目錄時,總是將目錄末尾的數字識別到下一行,需要手動進行調整。
5、pdf 轉換,這個複雜一點、要求也更多。
(1)首先對 pdf 進行拆分,將目錄(有的話)另存為一個 pdf,有三種方法。
A、quicker 動作拆分,使用pdf 處理,直接拆分原件。
B、進入Split PDF,選擇 Extract pages 選項,選中目錄頁,然後點擊 Extract,最後下載。(注:pdf 文件不能超過 100MB,需要搭配 IDM 進行下載)
B、下載PDFPatcher,一個開源的 pdf 工具箱,下載完成後,打開 pdf 文件,點擊工具箱,點擊提取文檔內容,選擇拆分文檔,將 pdf 路徑和輸出路徑選好,填上恰當的頁碼範圍(如圖),最後提取即可。
注意頁碼範圍以實際頁面為準
(2)對 pdf 進行轉換,將 pdf 文件通過 ABBYY Fine reader(推薦 16 版,15 版精度不夠)進行轉換,將其轉換為可搜索的文件。
全選後複製
(3)獲取後的目錄粘貼在 word 上,通過通配符完成整理,刪除空白行、空白半角格、不必要的文字、頁碼符號等,整理後,每行格式按順序是章節、目錄標題、頁碼。
注意:(章節和標題之間需要增加空格,想要可展開的目錄書籤需要增加制表符)
範例 1
範例 2
三、插入目錄書籤(核心)#
1、下載軟件 pdgcteditor,網盤內下載。
strnghrs - 博客園
老馬的原創空間
2、打開 pdgcteditor.exe, 選取 pdf 文件,粘貼 word 上整理過的內容並全選,點擊自動切分頁碼,修改基準頁,點擊保存。
順序
切分過頁碼後的情況
基準碼即為頁碼第一页的實際頁面。(頁面第一页視情況而定,可能是目錄、序或正文)
3、實際效果展示:
特殊情況:
有時 pdf 不允許編輯
應對方法:下載pdfdir並打開,選取 pdf,將 word 的內容粘貼上去,點擊寫入,會得到一個 *_new.pdf 文件,再重新由 pdgcnteditor 編輯目錄書籤,原理不明,猜測可能是強行寫入。
小結:寫完之後真的好累,不是很熟練,見諒。一開始時不時會出現鼠標失靈,鼠標指針漂移,刪除鍵總是退兩格,這導致我在寫博客的過程中一直很惱火,後來關了擴展才沒問題,這個問題我以前在知乎、豆瓣寫東西總會出現,一直以為是平台的問題,剛才才發現是擴展的問題,心累。