[專業涵養] 語音即時轉錄字幕 App 比較:不該忽略的功能細節

語音即時轉錄字幕的行動應用程式對於聽障者是非常重要的輔具,尤其在防疫考量下,許多沒有明顯聽力損失的人也成為(廣義的)聽障者,使這類輔具的適用對象人數暴增。在這類輔具的市場中,仍以英語產品為大宗,華語產品相當稀少,台灣的使用者其實沒什麼選擇,偶見產品比較主要著重於辨識正確率的主觀印象,忽略這類 App 其他功能或規格的重要性。

如果重要的功能沒人討論,國內廠商或研究機構開發這類產品時很容易忽略,久而久之使用者也會被迫養成忽略這些需求,產生負面循環。本文目的是在非常有限的產品選擇內,說明有哪些功能細節其實很重要、為什麼重要,並且列舉在該功能「做得較好」的產品,一方面希望大家可以持續關注這些功能細節,另一方面也鼓勵國內團隊在未來研發規劃中可以納入,讓國內使用者有更成熟的選擇。

行動應用程式

本文納入的語音即時轉錄字幕 App(依名稱排序)包括:

BeAware d/Deaf Assistant
由 BeAware 推出的應用程式,以 iOS/iPadOS 版本較完整且穩定,使用作業系統內建的語音辨識引擎,Android 版本尚為雛形階段。
榖歌即時轉錄 (Google Live Transcribe)
由 Google 推出並整合至 Android 作業系統的親和力功能。
Health Scribe by BeAware
由 BeAware 推出的 iOS/iPadOS 應用程式,各項功能係針對醫療情境來設計及調整,使用作業系統內建的語音辨識引擎。
微軟翻譯工具 (Microsoft Translator)
由 Microsoft 推出的應用程式。請注意:目前這個行動應用程式無法持續辨識轉錄字幕。
NALscribe
由澳洲國家聲學實驗室 (NAL) 推出的 iPad 應用程式。請注意:目前這個行動應用程式只支援(澳洲使用的)簡體中文,無法提供台灣華語字幕。
小歐聽打
由台灣廠商洞見未來 (Otoadd) 推出的應用程式,採訂閱制服務模式。
XRAI Glass
由 XRAI 推出的應用程式,可在 iOS/iPadOS 及 Android 12 以上版本作業系統執行,雖然主要用來搭配該公司的擴增實境眼鏡產品,但其實可以單獨在行動設備上使用。使用介面的翻譯還不完整,甚至可以看到翻譯錯誤的簡體中文、還沒翻譯到的訊息字串等,但語音辨識及字幕已經支援台灣華語。
雅婷逐字稿
由台灣廠商雅婷智慧股份有限公司(台灣人工智慧實驗室)推出的應用程式。

請注意:本文不做 App 綜合推薦比較,不是各 App 的完整功能分析,也不會討論不同 App 的辨識正確率。我希望各產品都能更成熟,大家可以更有彈性地選擇,而不是期待多數人只使用特定某一套行動應用程式。

重要功能

離線辨識

離線辨識指的是可以在沒有網路連線的情況下,辨識現場語音並且轉錄為文字字幕的功能。這個功能有三個優勢:穩定性、連網成本、隱私與機密性。

如果語音辨識需要連接網路、在雲端完成,那麼在網路連線不穩定或頻寬受限的地區,將無法順利使用 App;網路連線也會造成直接或間接的費用成本,影響使用者是否能夠負擔使用 App。

身心障礙者屬於脆弱族群,尤其當溝通交談的內容涉及身體情況/疾病、法律權益、財務,或者涉及業務機密等,一般性的資料去識別化處理還不足夠,唯有任何資訊都不離開終端設備(使用者的行動裝置)才能保障充分的隱私與機密性。

本功能推薦參考:

  1. NALscribe 提供離線模式開關,讓使用者自己決定是否犧牲一些辨識正確率來換取離線辨識。
  2. BeAwareHealth Scribe 均支援離線使用,且使用者無需(也無法)手動切換。

註:榖歌即時轉錄支援部分語言的離線辨識功能,包括英文、日文等,但目前還不支援華語離線辨識。

自動消除畫面

自動消除畫面功能是應用程式偵測無對話達一段時間後,把畫面上顯示的字幕清空。這個功能的主要考量是隱私。

語音即時轉錄字幕 App 的基礎功能是以容易辨認的文字,把交談對話內容以字幕型態呈現在行動裝置的螢幕上;這個基礎功能使得這類 App 特別容易受到越肩窺視攻擊:其他人只要路過使用者身後,一眼就能得知剛剛先前發生的交談內容。尤其當交談內容涉及個人隱私或其他敏感主題,這類 App 產生的隱私性風險不可輕視。

本功能推薦參考:

  1. NALscribe 可以設定是否自動消除畫面,以及自動消除的等待時間(20 秒或 60 秒)。
  2. Health Scribe 強制自動消除畫面,每次辨識到新的一句話,前一句就會自動消除(無法切換開關,也無法調整自動消除的等待時間)。

支援行動設備無障礙功能

語音即時轉錄字幕 App 的使用者可能同時遭遇多種挑戰,需要用到行動裝置提供的多種無障礙功能。舉例來說,併有視覺障礙的使用者需要能夠調整字體尺寸、顯示配色對比(深色底淺色字、淺色底深色字);併有肢體障礙的使用者經常以支架固定行動設備,因此 App 要能配合行動設備的擺放方向(直擺、橫擺)調整畫面布局。

本功能推薦參考:

  1. XRAI Glass 可以自動根據行動設備擺放方向調整畫面布局,可以讓使用者指定配色或依照作業系統層級的偏好自動調整,也可以讓使用者調整字幕字體尺寸、粗細、左右對齊、字母間距、字詞間距、行列間距、行列寬度、字幕寬度等,以及自定收音麥克風及收音的噪音消除功能。
  2. 榖歌即時轉錄可以自動根據行動設備擺放方向調整畫面布局,可以讓使用者指定配色或依照作業系統層級的偏好自動調整,也可以讓使用者調整字幕字體尺寸。
  3. BeAwareHealth Scribe 都可以自動根據行動設備擺放方向調整畫面布局,依照作業系統層級的偏好自動調整配色,也可以讓使用者調整字幕字體尺寸。
  4. NALscribe 可以自動根據行動設備擺放方向調整畫面布局,可以讓使用者指定配色,也可以讓使用者調整字幕字體尺寸。

環境聲音辨識

環境聲音辨識指的是辨識環境中非語音的其他聲音內容,以文字標示的方式呈現在畫面上,以利使用者增加環境察覺感知。

在自然的有機交談情境中,往往因為環境中發生某些事件,導致交談主題瞬間改變;如果參與交談的其中一方無法察覺周遭環境的變化,就無法跟上交談內容。

本功能推薦參考:

  1. 榖歌即時轉錄可以讓使用者決定是否要啟動環境聲音辨識功能,啟動後會以文字標籤即時顯示應用程式偵測到的各種聲響類型。
  2. BeAware 提供獨立的聲音警報偵測功能,可以設定警報聲臨界值(噪聲臨界值)並透過作業系統的警示功能提供警示。

多人發言及多設備發言

多人發言指的是可以對三人或更多人的對話進行語音轉錄字幕。

多設備發言指的是可以把多個行動設備透過網路串接在一起,讓不同發言者透過不同設備來收音,達到最佳辨識效能。

人際交談的情境多樣,除了一對一的交談,也可能是一對多、多對一、多對多等交談情境,這些複雜的交談情境對於語音即時轉錄字幕 App 帶來更多挑戰:能不能持續辨認不同人的說話內容?能不能協助使用者分辨說話者改變?能不能讓不同位置發言者的話語達到同樣好的辨識效能?

本類功能推薦參考:

  1. 雅婷逐字稿可以持續辨識不同人說話,也能利用事後分析比對的方式,產生能區辨說話者的逐字稿。
  2. XRAI Glass 選擇「深度格拉姆」類型的口語辨識引擎,即可持續辨識不同發言者,並在字幕旁標示。
  3. 微軟翻譯工具可以讓不同發言者使用自己的行動設備來發言,彼此透過網路加入到同一場交談對話,因此可以確保收音訊噪比理想、辨識效能佳,也能夠即時標示不同發言者正在說話。
  4. BeAware 公司另外有一個稱為 FamilyTalk 的 iOS/iPadOS 行動應用程式,可以讓不同發言者使用自己的行動設備來發言,彼此透過網路加入到同一場交談對話,因此可以確保收音訊噪比理想、辨識效能佳,也能夠即時標示不同發言者正在說話。

多語言混用

多語言混用指的是能夠辨識多種語言組成的對話內容,包括不同語言的語句互相來回,以及同一個語句內混用多種語言等情況。

本功能推薦參考:

  1. 榖歌即時轉錄可以設定一個主要語言及一個次要語言,自動辨識這兩種語言混用的情形。
  2. 雅婷逐字稿可以在進行辨識前,先指定以華語跟台語混合,或者以華語跟英語混合等模式,自動辨識兩種語言混用的情形。
  3. XRAI Glass 選擇「微軟」的口語辨識引擎,即可設定最多達 10 種不同語言混用的辨識功能;即使只選擇台灣華語,也能支援口語中混用英文的辨識。
  4. BeAwareHealth Scribe 雖然無法手動選擇辨識語言,但仍能支援台灣華語混用英文的辨識。

其他相關議題與未來發展

如本文開頭所述,市場上能夠支援華語的產品已不多,台灣又是多語言多文化國家,依照最近一份國家語言發展報告,除了華語之外,成熟的產品還應該涵蓋原住民族語、平埔族群語言、客語、台語、馬祖語、閩東語等口語。目前市面上僅有雅婷逐字稿支援台語,其他的國家語言仍全然闕如,有待相當多努力。

即使是華語及台語,前述提到的幾個 App 也還有許多挑戰:說話者的口音、腔調可能影響辨識率。如果說話者本身是言語障礙者,辨識率可能低到無法接受的程度。

榖歌在 2019 年及 2021 年先後啟動了 Project EuphoniaProject Relate,這兩個計畫都是針對非典型言語者改善辨識率。今年(2022 年)10 月,亞馬遜 (Amazon)、蘋果 (Apple)、榖歌 (Google)、Meta、微軟 (Microsoft) 等五家科技公司共同加入伊利諾大學厄巴納-香檳分校 (University of Illinois Urbana-Champaign, UIUC) 的 Speech Accessibility Project,想要合作改善對言語障礙者的語音辨識技術;不過,上述這些計畫目前仍然只有針對英語進行,對於華語及台灣各種國家語言,恐怕不能慢慢等這些外國企業發展。

jedi.org: