谷歌和Idiap研究所的研究人員訓練了兩個獨立的神經網絡,能夠顯著降低多說話者信號的語音識別詞錯誤率。
把一個人的聲音從嘈雜的人群中分離出來是大多數人潛意識里都會做的事情——這就是所謂的雞尾酒會效應。像谷歌Home和亞馬遜的Echo這樣的智能揚聲器實現分離人群中的聲音可能還要再經歷一段時間,但多虧了AI,它們或許有一天能夠像人類一樣過濾掉聲音。
谷歌和位于Switerzland的Idiap研究所的研究人員發表在Arxiv上的一篇論文中描述了一種新的解決方案。他們訓練了兩個獨立的神經網絡——說話者識別網絡(a speaker recognition network)和聲譜掩碼網絡(a spectrogram masking network)——這兩個網絡一起“顯著”降低了多說話者信號的語音識別詞錯誤率(WER)。
他們的工作建立在麻省理工學院計算機科學和人工智能實驗室今年早些時候發表的一篇論文的基礎上,該論文描述了一個名為PixelPlayer的系統,該系統能夠將單個樂器的聲音從YouTube視頻中分離出來。
論文:
VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking
論文地址:
https://arxiv.org/pdf/1810.04826.pdf
在最新的論文中,研究人員寫道:“我們的任務是將一部分感興趣的說話者的聲音與所有其他說話者和聲音的共性分離開來。例如,這樣的子集可以由一個目標揚聲器對個人移動設備發出語音查詢,或者由一個家庭成員對一個共享的家庭設備進行交談而形成。”
研究人員的語音過濾系統分為兩部分,包括LSTM模型和卷積神經網絡(只有一個LSTM層)。第一個采用預處理的語音采樣和輸出揚聲器嵌入(即矢量形式的聲音表示)作為輸入,而后者預測來自嵌入的軟掩模或濾波器以及根據噪聲音頻計算的幅度譜圖。掩模用于生成增強幅度譜圖,當與噪聲音頻的相位(聲波)組合并變換時,產生增強的波形。
AI系統被訓練以便最大限度地減少屏蔽幅度頻譜圖與從干凈音頻計算的目標幅度頻譜圖之間的差異。
該團隊為訓練樣本提供了兩個數據集:(1)來自13.8萬名演講者的大約3400萬個匿名語音查詢日志;(2)開源語音庫LibriSpeech、VoxCeleb和VoxCeleb2的匯編。VoiceFilter網絡對來自CSTR VCTK數據集(由愛丁堡大學維護的一組語音數據)和LibriSpeech的2338個貢獻者的語音樣本進行了訓練,并使用來自73名演講者的話語進行評估。
在測試中,VoiceFilter在雙揚聲器方案中將字錯誤率從55.9%降低到23.4%。
研究人員寫道:“我們已經證明了使用經過專門訓練的揚聲器編碼器來調整語音分離任務的有效性。這樣的系統更適用于真實場景,因為它不需要事先知道揚聲器的數量……我們的系統完全依賴于音頻信號,可以很容易地通過使用具有高度代表性的嵌入向量來推廣到未知的揚聲器。”
-
谷歌
+關注
關注
27文章
6192瀏覽量
105830 -
神經網絡
+關注
關注
42文章
4779瀏覽量
101053 -
語音識別
+關注
關注
38文章
1742瀏覽量
112831
原文標題:谷歌神經網絡人聲分離技術再突破!詞錯率低至23.4%
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論