OpenAI : Whisper,近期 OpenAI 釋出的一個 "通用型語音識別模型" (General-purpose speech recognition model)。
簡單的說 OpenAI : Whisper 能完成兩大目標:
- 各種語音的語音識別成文字。
- 各種語言的語音翻譯成英文。
有興趣的朋友可以到 OpenAI 的網站上查閱相關的研究資料:
https://openai.com/research/whisper
當然,如果想直接試用的朋友,可以到 OpenAI 放在 Github 上的 Whisper 存放庫查看:
https://github.com/openai/whisper
其實語音識別模型在 AI 發展的歷程上有如過江之鯽(基本上其實就是 Cognitive Services 的一種),但這次的 Whisper 的表現卻著實令人稱讚。
所以,自 OpenAI 推出 Whisper 以來其實已經受到很多人的推薦與分享,但由於若要使用 Whisper 還有不少哩哩叩叩的前置作業要處理(有興趣的朋友可以看以下連結),所以說實在的一直都提不起勁來研究。
https://github.com/openai/whisper#setup
而在 Whisper 推出之後過沒多久, Buzz 這套懶人工具也在 GitHub 上順勢推出:
https://github.com/chidiwilliams/buzz
對個人而言,時常做一些社群的直播或是錄一些 YouTube 影片 進行分享,最大的痛點是講完後影片沒有字幕(就會常常發生空耳),而台灣人看影片都會習慣有字幕(而有字幕就可以彌補前面說的影片咬字不清的地方),但要自己配字幕又太浪費時間,所以就這樣放著了…😓
當知道 Buzz 這個懶人工具的時候,就大大降低了上述的問題的解決門檻,可以很有效率的處理這個問題了,而在本篇文章當中就稱這配字幕的問題為撰寫 "逐字稿"。
Buzz 的介面很簡單:(以下使用 Windows 環境介紹)
再來如果要測試既有的語音或影片檔案,直接在 "File" → "Import Media File…" 直接選取後開啟:
接著就會讓你選取:
1. 執行的任務型態: 逐字稿(預設) 或 翻譯(翻譯成英文)。
2. 語言(聲音檔或影片檔的語音所講的語言)。
3. 模型(目前測試選擇的模型都用 Whisper 居多)。
4. 等級(目前測試選擇 Medium)。
3 跟 4 的選項在個人選擇是用這樣,尤其是 4 的選項,不是不建議使用 Large。
但 Large 所使用的參數值是 Medium 的兩倍,所以要確定捏…你要可以接受這個分析的時間,當然是沒問題。
只是個人測試的結果是,分析時間大概比 Medium 多了三~五倍,但是分析的結果並沒有比 Medium 好上多少。
而分析後的文檔可以匯出Txt、Srt、Vtt 三種格式:
當然這個 "Whisper" 跑完 "逐字稿" 的時候,並不是說就 100% 正確,個人沒有太精細分析,如果有興趣的人可以去網路上找分析文章。
而如果要評論正確率…可能還可以細分 "斷字的時間"、"文字有無正確"、"中英夾雜切分"…等評比標準,但如果給個粗略的正確比,個人覺得大約落 85%~90% 左右,但這對於這個結果來說,個人已經覺得很棒了…可以大幅降低完成 "逐字稿" 所要花掉的時間。
如果有興趣,可以看看 "Xamarin Asia Developers 社群 2023 #01 小聚活動" 的直播影片,其字幕就是靠 Buzz 生成的(當然產出之後有進行大約 30~40 分鐘的人工修正,但若要跟幫影片從頭配字幕來比較,已經是少很多功夫了)。
另外,幾個額外紀錄一下的事情。
- Buzz 的安裝路徑在(Windows 環境):
C:\Users\<username>\AppData\Local\Programs\Buzz
- Buzz 是用到 OpenAI 的模型 Whisper(會下載到 Windows 的資料夾路徑):
C:\Users\<username>\.cache\whisper
以上,給有需要的人作為一些參考。
註: 雖然這樣配影片字幕很方便,但就可能會少了一些趣味性跟可以惡搞的機會(如中央眼球電視台的字幕),哈~~~
I'm a Microsoft MVP - Developer Technologies (From 2015 ~).
I focus on the following topics: Xamarin Technology, Azure, Mobile DevOps, and Microsoft EM+S.
If you want to know more about them, welcome to my website:
https://jamestsai.tw
本部落格文章之圖片相關後製處理皆透過 Techsmith 公司 所贊助其授權使用之 "Snagit" 與 "Snagit Editor" 軟體製作。