[料理佳餚] 使用 RICOH ScanSnap SV600 將實體書掃瞄(自炊)成電子書

那天,在上完保哥的NotebookLM 錦囊妙計:掌握九大應用場景的創意用法課程後,我深刻感受到 NotebookLM 擁有成為高級助教的潛力。看著書櫃上堆積如山的實體書,我決定將這些實體書轉成電子書,讓 NotebookLM 管理,於是展開了將實體書掃描成電子書(以下簡稱:自炊)的研究之旅。

目前要將實體書自炊成電子書的方式大概有兩個方向:

  1. 拆書掃描:將書籍裝訂拆開,使用高速掃描器批次掃描頁面。這種方法速度快且掃描品質高,但會損壞原書。
  2. 非拆書掃描:使用非接觸式掃描器,不需要拆書即可掃描書頁,適合珍藏的書籍或不希望破壞的書籍,缺點是掃描速度較慢,需要逐頁進行操作。

關於第一個方向「拆書掃描」,一來我沒有安全有效的拆書工具,二來我實在不忍破壞書籍,所以我朝向第二個方向「非拆書掃描」前進,經過比較之後,最終我選擇了 RICOH ScanSnap SV600

安裝掃瞄器

紙箱拆開後,裡面有主機、線材、布墊、固定器及說明書,就這樣,沒了。組裝完成後的樣子如下:

安裝軟體

首先,前往 RICOH 的官網連結下載 ScanSnap Home 軟體,安裝檔不小,高達 1.4GB,請確保有足夠的儲存空間。

完成下載後,依照安裝步驟將軟體安裝起來,安裝完成後,按照軟體的指示,一步一步完成 SV600 的設定。

開始掃瞄

在軟體的主視窗中,按下 Scan

會另外開啟一個掃瞄工作的視窗

這時候別急著按下中間那個大的 Scan 按鈕,我們回到掃瞄器,用手指將書頁壓平之後,按下掃瞄器上面的實體掃瞄鍵,它就會開始掃瞄。

翻頁之後,再次按下實體掃瞄鍵它就會接續掃瞄。

檢查/校正

如果我們已經掃瞄完畢,就回到軟體畫面,按下「掃瞄結束」。

然後,我們選擇「校正並儲存對頁文件影像(書籍/雜誌)」,點擊「檢查/校正」。

進入「書籍影像檢視器」後,開始校正工作。

分割書頁

我們在掃瞄時,書頁是對開的狀態,如果想要拆成單一書頁,可以點選右上角拆分書頁的圖示,然後點擊「套用」。

修補頁緣

掃瞄的過程中,我們有用到手指去壓平書頁,而這個我們可以使用軟體中的「修補頁緣」進行校正。點選「修補頁緣」的圖示,接著點選手指,再按下「套用」。

都校正完畢後,我們點擊「儲存並結束」儲檔。

OCR(文字辨識)

我們這樣掃瞄出來的文件只是單純的圖片,拿來當成 NotebookLM 的來源還不夠。為了解決這個問題,我們需要透過 OCR,將圖片中的文字辨識出來。

我在之前保哥開的團,購買了一款 PDF-XChange Editor Plus,裡面有提供對 PDF 檔案進行文字辨識的功能。

將 PDF 打開,切換到「轉換」頁籤,點擊「識別頁面」。

經過辨識之後,PDF 中的文字就可以選取複製了,而且辨識的準確度非常高。

注意事項

書本的厚度

書本的厚度會影響 OCR 的辨識品質。一開始,我注意到掃描結果中,某些區域的影像呈現深淺不一。雖然這些差異對人眼辨識影響不大,但在進行 OCR 辨識時,準確度卻明顯下降。經過一系列測試後,我發現書頁離鏡頭越近,掃描的亮度越高,導致文字變得較淺,書頁最佳的放置位置是切齊掃瞄器的底部,所以遇到較厚的書本,適當墊高掃瞄器,OCR 的辨識品質就會提高。

法規

將實體書掃瞄成電子書是「重製行為」,會有觸犯著作權法的疑慮,所以在自炊之前,一定要了解相關法規,Google「自坎+著作權」關鍵字,就有相關的法律討論可以參考,這點務必要注意。

而 NotebookLM 也有跟我們保證 NotebookLM will never train on any of your data.(應該啦),所以我們應該可以放心把電子書交給 NotebookLM,不會被公開。

參考資料

相關資源

C# 指南
ASP.NET 教學
ASP.NET MVC 指引
Azure SQL Database 教學
SQL Server 教學
Xamarin.Forms 教學