在過去十年中,人工智能支持的語音識別系統逐漸成為我們日常生活的一部分,從語音搜索到聯絡中心、汽車、醫院和餐館的虛擬助手。這些語音識別的發展得益于深度學習的進步。
許多行業的開發人員現在使用自動語音識別( ASR )來提高業務生產率、應用程序效率,甚至數字訪問能力。
什么是自動語音識別
語音識別技術能夠將口語(音頻信號)轉換為通常用作命令的書面文本。
當今最先進的軟件可以準確地處理各種語言方言和口音。例如, ASR 通常出現在面向用戶的應用程序中,如虛擬代理、實時字幕和臨床筆記。準確的語音轉錄對于這些用例至關重要。
語音 AI 領域的開發者也使用 替代術語 描述語音識別,如 ASR 、語音到文本( STT )和語音識別。
ASR 是系統的關鍵組成部分 語音 AI ,這是一套旨在幫助人類通過語音與計算機對話的技術。
為什么在語音識別中使用自然語言處理
開發人員通常不清楚自然語言處理( NLP )模型在 ASR 管道中的作用。除了應用于語言模型之外, NLP 還用于在 ASR 管道的末尾添加標點和大寫字母來增強生成的轉錄本。
在用 NLP 對轉錄本進行后處理后,文本用于下游語言建模任務,包括:
情緒分析
文本分析
文本摘要
語音識別算法
語音識別算法可以通過使用統計算法的傳統方式實現,或者通過使用深度學習技術(如神經網絡)將語音轉換為文本。
傳統的 ASR 算法
隱馬爾可夫模型( HMM )和動態時間扭曲( DTW )是用于執行語音識別的傳統統計技術的兩個示例。
使用一組轉錄的音頻樣本,通過改變模型參數來訓練 HMM 以預測單詞序列,從而最大化觀察到的音頻序列的可能性。
DTW 是一種動態規劃算法,通過計算時間序列之間的距離來尋找最佳可能的單詞序列:一個代表未知語音,另一個代表已知單詞。
深度學習 ASR 算法
在過去幾年中,開發人員一直對語音識別的深度學習感興趣,因為統計算法不太準確。事實上,深度學習算法能更好地理解方言、口音、上下文和多種語言,即使在嘈雜的環境中也能準確地轉錄。
一些最流行的最先進的語音識別聲學模型有: Quartznet, Citrinet 和 Conformer 在典型的語音識別管道中,您可以根據您的用例和性能選擇和切換任何聲學模型。
深度學習模型的實現工具
有幾種工具可用于開發深度學習語音識別模型和管道,包括: Kaldi Mozilla DeepSpeech , NVIDIA NeMo, Riva, TAO Toolkit ,以及來自谷歌、亞馬遜和微軟的服務。
Kaldi 、 DeepSpeech 和 NeMo 是幫助您構建語音識別模型的開源工具包。 TAO 工具包和 Riva 是封閉源代碼 SDK ,可幫助您開發可在生產中部署的可定制管道。
谷歌、 AWS 和微軟等云服務提供商提供通用服務,您可以輕松地即插即用。
深度學習語音識別流水線
如圖 1 所示, ASR 管道由以下組件組成:將原始音頻轉換為頻譜圖的頻譜圖生成器、將頻譜圖作為輸入并輸出隨時間變化的字符概率矩陣的聲學模型、從概率矩陣生成可能句子的解碼器(可選地與語言模型耦合),最后,一種標點符號和大寫模式,用于格式化生成的文本,以便于人類使用。
用于語音識別的典型深度學習管道包括:
數據預處理
神經聲學模型
解碼器(可選地與 n-gram 語言模型耦合)
標點和大寫模式。
圖 1 顯示了深度學習語音識別管道的示例:
圖 1.深度學習語音識別管道的示例
數據集在任何深度學習應用中都是必不可少的。神經網絡的功能類似于人腦。你用來教授模型的數據越多,它學習的越多。語音識別管道也是如此。
一些流行的 語音識別數據集 是 LibriSpeech , Fisher 英語培訓演講, Mozilla 通用語音 ( MCV )、 VoxPopuli 、 2000 HUB 5 英語評估演講、 AN4 (包括人們拼寫地址和姓名的錄音)和 Aisell-1 / Aisell-2 漢語語音語料庫。除了您自己的專有數據集之外,還可以使用一些開源數據集。
數據處理是第一步。它包括數據預處理/增強技術,如速度/時間/噪聲/脈沖擾動和時間拉伸增強、使用窗口的快速傅立葉變換( FFT )和歸一化技術。
例如,在下圖 2 中,使用加窗技術應用 FFT 后,從原始音頻波形生成 mel 譜圖。
圖 2.音頻記錄原始音頻波形(左)和 mel 頻譜圖(右)
我們還可以使用擾動技術來擴充訓練數據集。圖 3 和圖 4 顯示了噪聲擾動和掩蔽等技術,用于增加訓練數據集的大小,以避免過擬合等問題。
圖 3.噪聲增強音頻波形到噪聲增強 mel 頻譜圖圖像
圖 4.噪聲增強的 mel 頻譜圖到噪聲增強的掩蔽 mel 頻譜圖像
數據預處理階段的輸出是頻譜圖/ mel 頻譜圖,它是音頻信號強度隨時間變化的視覺表示。
然后將 Mel 光譜圖送入下一階段: 神經聲學模型 QuartzNet 、 CitriNet 、 ContextNet 、 Conformer CTC 和 Conformer-Transducer 是尖端神經聲學模型的示例。存在多個 ASR 模型有幾個原因,例如需要實時性能、更高的精度、內存大小和用例的計算成本。
然而,基于構象的模型由于其提高的準確性和理解能力而變得越來越流行。聲學模型返回每個時間戳的字符/單詞概率。
圖 5 顯示了聲學模型的輸出,帶有時間戳。
圖 5. 聲學模型的輸出包括每個時間步詞匯字符的概率分布
聲學模型的輸出與語言模型一起輸入解碼器。解碼器包括波束搜索和貪婪解碼器,語言模型包括 n-gram 語言、 KenLM 和神經評分。當涉及到解碼器時,它有助于生成頂部單詞,然后將其傳遞給語言模型以預測正確的句子。
在下圖中,解碼器根據概率得分選擇下一個最佳單詞。根據最終的最高分數,選擇正確的單詞或句子,并將其發送到標點符號和大小寫模型。
圖 6.解碼器工作流程示例
ASR 管道生成沒有標點或大寫的文本。
最后,使用標點符號和大寫字母模型來提高文本質量,以提高可讀性。來自變換器( BERT )模型的雙向編碼器表示通常用于生成標點文本。
圖 7 展示了標點符號前后和大小寫模型的一個簡單示例:
圖 7.標點符號和大小寫模型的示例輸出
語音識別行業影響
語音識別可以幫助金融、電信和統一通信即服務( UCaaS )等行業改善客戶體驗、運營效率和投資回報率( ROI )。
金融
語音識別應用于金融行業,例如: 呼叫中心代理協助 和交易記錄。 ASR 用于轉錄客戶與呼叫中心代理/交易大廳代理之間的對話。然后可以分析生成的轉錄,并將其用于向代理提供實時建議。這將使通話后時間減少 80% 。
此外,生成的轉錄本用于下游任務,包括:
情緒分析
文本摘要
問答
意圖和實體識別
電信
聯絡中心是電信行業的重要組成部分。通過呼叫中心技術,您可以重新想象電信客戶中心,語音識別可以幫助您實現這一點。正如前面在財務呼叫中心用例中所討論的, ASR 用于電信聯絡中心轉錄客戶和聯絡中心代理之間的對話,以便實時分析客戶和推薦呼叫中心代理。 T-Mobile 使用 ASR 快速解決客戶問題 例如
統一通信及時服務( UCaaS )
新冠肺炎增加了對統一通信即服務( UCaaS )解決方案的需求,該領域的供應商開始專注于使用語音人工智能技術,如 ASR ,以創造更具吸引力的會議體驗。
例如, ASR 可用于生成 視頻會議中的實時字幕。 然后,生成的標題可用于后續任務,如會議摘要和識別筆記中的行動項目。
ASR 技術的未來
語音識別并不像聽起來那么容易。開發語音識別充滿了挑戰,從準確性到用例定制,再到實時性能。另一方面,企業和學術機構正在競相克服其中一些挑戰,并推進語音識別能力的使用。
ASR 挑戰
在生產中開發和部署語音識別管道的一些挑戰包括:
由于缺乏提供最先進( SOTA ) ASR 模型的工具和 SDK ,開發人員很難利用最好的語音識別技術。
有限的自定義功能,使開發人員能夠微調特定于域和上下文的行話、多種語言、方言和口音,以便讓您的應用程序像您一樣理解和說話
限制部署支持;例如,根據用例的不同,軟件應該能夠部署在任何云中、 prem 、 edge 和嵌入式上。
實時語音識別流水線;例如,在呼叫中心代理輔助用例中,在使用會話授權代理之前,我們不能等待幾秒鐘才能轉錄會話。
ASR 進展
語音識別在研究和軟件開發方面都取得了許多進展。首先,研究結果開發了幾種新的尖端 ASR 體系結構、 E2E 語音識別模型和自監督或無監督訓練技術。
在軟件方面,有一些工具可以快速訪問 SOTA 模型,還有一些不同的工具可以將模型部署為生產中的服務。
關鍵要點
由于語音識別在基于深度學習的算法方面的進步,語音識別的采用率持續增長,這使得語音識別與人類識別一樣準確。此外,多語言 ASR 等突破有助于公司在全球范圍內提供應用程序,將算法從云端移動到設備上可以節省資金、保護隱私并加快推理速度。
NVIDIA 提供 Riva ,一個語音 AI SDK ,以解決上面討論的幾個挑戰。通過 Riva ,您可以快速訪問為生產目的量身定制的最新 SOTA 研究模型。您可以根據您的領域和用例自定義這些模型,在任何云上、 prem 上、 edge 上或嵌入式上部署,并實時運行它們以進行自然交互。
關于作者
Sirisha Rella 是 NVIDIA 的技術產品營銷經理,專注于計算機視覺、語音和基于語言的深度學習應用。 Sirisha 獲得了密蘇里大學堪薩斯城分校的計算機科學碩士學位,是國家科學基金會大學習中心的研究生助理。
審核編輯:郭婷
-
AI
+關注
關注
87文章
30946瀏覽量
269190 -
語音識別
+關注
關注
38文章
1741瀏覽量
112673 -
人工智能
+關注
關注
1791文章
47314瀏覽量
238617 -
nlp
+關注
關注
1文章
488瀏覽量
22041
發布評論請先 登錄
相關推薦
評論