[創意菜色] 如何利用 Google Docs 的語音輸入製作視訊會議的逐字稿?

要不是最近開了大量的視訊會議,不然我應該沒啥機會去研究這篇文章的主題,有一天我發現 Google Docs 有一個「語音輸入」的功能,加上以前我有嘗試著把音樂直接轉成輸入的音源,透過網路播放出去,原則上應該可以把視訊會議上講話的內容,丟給 Google Docs 讓它輸出成文字,我們就來看看行不行得通?

Google Docs 語音輸入

Google Docs 的語音輸入功能,就在「工具」->「語音輸入」的選項。

點下去就會出現一個麥克風的圖示,按下去之後,就可以開始講話,Google Docs 就會即時進行語音辨識,將語音輸出成文字。

立體聲混音

立體聲混音」是一個輸入設備,但不是每一張音效卡都有支援,就我看大部分 Realtek 的音效卡都有,如果有的話,我們在「聲音」的控制台當中,「錄製」的頁籤裡面就可以找到立體聲混音。

這個設備在做什麼的? 它最主要的功能是將我們喇叭輸出的聲音,轉成輸入的音源,這樣我們可以把喇叭播放出來的聲音做重新錄製,或者是丟給語音辨識的服務去處理,我就示範從 YouTube 播放一段新聞片段,把主播播報的內容丟給 Google Docs 讓它去輸出成文字。

首先,我們先將立體聲混音「設為預設值」。

接著,打開 Google 文件,把語音輸入叫出來之後,隨便在 YouTube 選擇一則新聞片段,按下播放之後再切換到 Google 文件開始進行語音輸入。

雖然這樣可以把視訊會議的發言內容就透過 Google Docs 做成逐字稿了,但是立體聲混音的解決方案有一個缺點,那就是我自己的發言是不會被側錄進去的,而且如果我們用的是外接的麥克風,以及藍芽耳機,這就行不通了,因為這些輸出入設備已經脫離了 Realtek 音效卡的掌控,所以接下來我要介紹另一種方式 - 虛擬音效裝置

VB-CABLE Virtual Audio Device

我選用的是 VB-CABLE Virtual Audio Device 這一套軟體,基本上斗內版本內建兩組 In/Out 線路,對於我們一般的使用者來說已經很夠用了。

首先,我們就從上面 VB-CABLE Virtual Audio Device 的連結裡面,下載最新版本,並且安裝起來,安裝的過程需要重新開機,安裝完之後我們就能從聲音控制台當中,在播放頁籤看到 CABLE Input(VB-Audio Virtual Cable),以及在錄製頁籤看到 CABLE Output(VB-Audio Virtual Cable)

它的運作原理是這樣的,CABLE Input 是虛擬喇叭,CABLE Output 是虛擬麥克風,聲音透過 CABLE Input 直接轉進 CABLE Output。

接下來,我們選擇其中一組 In/Out 線路「設為預設值」。

一樣,打開 Google Docs 的語音輸入,播放一段新聞片段來測試。

接下來我們要解決兩個問題:

  1. 如何將聲音同步輸出到喇叭或耳機?
  2. 如何將自己講話的聲音也傳送到 Google Docs?

將聲音同步輸出到喇叭或耳機

我們要到聲音控制台裡面的錄製頁籤中,選擇剛剛我們設為預設值的 CABLE Output(VB-Audio Virtual Cable),點選「內容」。

視窗打開後,切換到「接聽」頁籤,將「聆聽此裝置」打勾,在「透過此裝置播放」的選項中,選擇我們的喇叭或耳機,這樣就能將聲音同步輸出到喇叭或耳機。

將自己講話的聲音也傳送到 Google Docs

我們一樣到聲音控制台裡面的錄製頁籤中,選擇我們的麥克風,點選「內容」,切換到「接聽」頁籤,將「聆聽此裝置」打勾,在「透過此裝置播放」的選項中,選擇 CABLE Input(VB-Audio Virtual Cable),意思就是說將麥克風的聲音同步輸出到虛擬喇叭中。

我們不管是用 LineZoomGoogle MeetMicrosoft Teams,應該都可以選擇我們用來說話的輸入裝置,這樣我們就可以將自己的發言也給輸出成逐字稿。

需要注意的地方

最後我們來看看有什麼需要注意地方? 第一個當然就是辨識率了,會議當中不同人有不同的咬字、發音,每個人待的環境也會有背景音,網路不夠力斷斷續續的,這些都會影響辨識率,這個也只能透過人工即時或事後去做修正。

第二個是 Google Docs 的語音輸入功能沒辦法在背景執行,語音輸入的視窗必須一直保持在前景,即使已經一直保持在前景了,它遇到無法辨識的時候會停頓下來,得把它停止之後再開始。

第三個是建議,我建議要用耳機,如果聲音是輸出到喇叭,它會一直產生回音,這個也會影響辨識率。

綜合以上,如果是有專門安排時間製作會議記錄逐字稿的話,我是建議把會議內容錄下來,事後再用本文章介紹的方式丟到 Google Docs 去輔助我們產生逐字稿,這樣應該會輕鬆很多,沒有的話,那就多找一兩個人即時地對語音輸入的內容去做修正,以上就分享給大家,希望對大家有點幫助。

相關資源

C# 指南
ASP.NET 教學
ASP.NET MVC 指引
Azure SQL Database 教學
SQL Server 教學
Xamarin.Forms 教學