那天,在上完保哥的NotebookLM 錦囊妙計:掌握九大應用場景的創意用法
課程後,我深刻感受到 NotebookLM 擁有成為高級助教的潛力。看著書櫃上堆積如山的實體書,我決定將這些實體書轉成電子書,讓 NotebookLM 管理,於是展開了將實體書掃描成電子書(以下簡稱:自炊)的研究之旅。
目前要將實體書自炊成電子書的方式大概有兩個方向:
- 拆書掃描:將書籍裝訂拆開,使用高速掃描器批次掃描頁面。這種方法速度快且掃描品質高,但會損壞原書。
- 非拆書掃描:使用非接觸式掃描器,不需要拆書即可掃描書頁,適合珍藏的書籍或不希望破壞的書籍,缺點是掃描速度較慢,需要逐頁進行操作。
關於第一個方向「拆書掃描」,一來我沒有安全有效的拆書工具,二來我實在不忍破壞書籍,所以我朝向第二個方向「非拆書掃描」前進,經過比較之後,最終我選擇了 RICOH ScanSnap SV600
安裝掃瞄器
紙箱拆開後,裡面有主機、線材、布墊、固定器及說明書,就這樣,沒了。組裝完成後的樣子如下:
安裝軟體
首先,前往 RICOH 的官網連結下載 ScanSnap Home 軟體,安裝檔不小,高達 1.4GB,請確保有足夠的儲存空間。
完成下載後,依照安裝步驟將軟體安裝起來,安裝完成後,按照軟體的指示,一步一步完成 SV600 的設定。
開始掃瞄
在軟體的主視窗中,按下 Scan
。
會另外開啟一個掃瞄工作的視窗
這時候別急著按下中間那個大的 Scan 按鈕,我們回到掃瞄器,用手指將書頁壓平之後,按下掃瞄器上面的實體掃瞄鍵,它就會開始掃瞄。
翻頁之後,再次按下實體掃瞄鍵它就會接續掃瞄。
檢查/校正
如果我們已經掃瞄完畢,就回到軟體畫面,按下「掃瞄結束
」。
然後,我們選擇「校正並儲存對頁文件影像(書籍/雜誌)
」,點擊「檢查/校正
」。
進入「書籍影像檢視器
」後,開始校正工作。
分割書頁
我們在掃瞄時,書頁是對開的狀態,如果想要拆成單一書頁,可以點選右上角拆分書頁的圖示,然後點擊「套用
」。
修補頁緣
掃瞄的過程中,我們有用到手指去壓平書頁,而這個我們可以使用軟體中的「修補頁緣
」進行校正。點選「修補頁緣」的圖示,接著點選手指,再按下「套用」。
都校正完畢後,我們點擊「儲存並結束
」儲檔。
OCR(文字辨識)
我們這樣掃瞄出來的文件只是單純的圖片,拿來當成 NotebookLM 的來源還不夠。為了解決這個問題,我們需要透過 OCR,將圖片中的文字辨識出來。
我在之前保哥開的團,購買了一款 PDF-XChange Editor Plus,裡面有提供對 PDF 檔案進行文字辨識的功能。
將 PDF 打開,切換到「轉換
」頁籤,點擊「識別頁面
」。
經過辨識之後,PDF 中的文字就可以選取複製了,而且辨識的準確度非常高。
注意事項
書本的厚度
書本的厚度會影響 OCR 的辨識品質。一開始,我注意到掃描結果中,某些區域的影像呈現深淺不一。雖然這些差異對人眼辨識影響不大,但在進行 OCR 辨識時,準確度卻明顯下降。經過一系列測試後,我發現書頁離鏡頭越近,掃描的亮度越高,導致文字變得較淺,書頁最佳的放置位置是切齊掃瞄器的底部,所以遇到較厚的書本,適當墊高掃瞄器,OCR 的辨識品質就會提高。
法規
將實體書掃瞄成電子書是「重製行為」,會有觸犯著作權法的疑慮,所以在自炊之前,一定要了解相關法規,Google「自坎+著作權」關鍵字,就有相關的法律討論可以參考,這點務必要注意。
而 NotebookLM 也有跟我們保證 NotebookLM will never train on any of your data.
(應該啦),所以我們應該可以放心把電子書交給 NotebookLM,不會被公開。
參考資料
- Frequently Asked Questions - NotebookLM Help
- Learn how NotebookLM protects your data
- 掃描新利器,翻拍更便利Fujitsu ScanSnap SV600掃描器