隨著科學技術的發展,語音作為新一代人機交互方式,成為人和智能設備、語音助手交流的重要接口,然而在真實環境中,語音信號不可避免的被各種噪聲所干擾,除了各種環境噪聲,聲波在封閉空間中的衰減和延時反射所引起的混響等都會影響語音的感知質量,研究者將真實場景下影響語音質量的因素總結為三個方面:環境噪聲、房間混響和其他說話人干擾,語音增強的目的就是消除上述三個方面的影響。語音增強是指利用音頻信號處理的技術以及算法提高失真語音信號的整體感知質量或者可懂度。
語音去噪
深度學習在語音降噪中的應用廣泛,根據處理語音的通道數不同,可以分為單通道降噪和多通道降噪,其中單通道語音的去噪由俄亥俄州立大學的汪德亮團隊提出的基于DNN-SVM算法,后來又相繼提出CRNN、DP-SARNN和Transformer等算法,Zhang等人[1]人提出了雙分支神經網絡DBNet同時在時域和頻域上解決語音增強的問題。而深度學習在多通道語音增強中常常結合空間信息或者傳統算法例如波束形成等實現去噪,例如具有代表性算法的基于掩蔽的波束形成技術[2]。利用深度學習進行語音去的算法一般包括非端到端語音降噪方法和端到端語音降噪算法。其中非端到端語音降噪的算法常用的處理方式有基于掩膜的方法和基于特征映射的方法。
基于深度學習非端到端語音去噪方法框圖
基于深度學習端到端語音去噪算法框圖
基于掩膜的語音增強
基于時頻掩蔽的語音增強方法將描述純凈語音與噪聲之間相互關系的時頻掩蔽作為學習目標,該方法假設純凈語音信號與噪聲之間有一定的獨立性,理想二值掩蔽(Ideal Binary Mask,IBM)是最初被引入語音增強的時頻掩蔽方法,該掩蔽方法通過判斷某個時頻單元內語音與噪聲主導情況將連續的時頻單元離散化為0或1兩種狀態,IBM公式如下所示:
通過IBM的公式可以看出只有0、1兩種取值,可以一定程度提高語音質量,但這種方法對于帶噪語音的處理過于簡單粗暴,會在處理過程中引入較大的噪聲。
基于語音和噪聲獨立假設的情況下,基于比值掩蔽的方法刻畫了時頻單元內純凈語音能量和帶噪語音能量的比值,該類掩蔽方法中常用的有理想比值掩蔽(Ideal Ratio Mask,IRM)。IRM相較于IBM從離散的狀態值變為連續的狀態值,相較之下可以有效的提升語音的質量和可懂度,但是缺點是利用帶噪語音的相位信息對純凈語音進行了重構。
除了上述兩種掩蔽方法,仍然有許多的掩蔽方法,例如基于信號能量比值的理想幅度掩蔽(Ideal Amplitude Mask,IAM),考慮相位誤差的時頻掩蔽方法的相位敏感掩蔽(Phase Sensitive Mask,PSM),廣泛應用的復數域的復數理想比率掩蔽(Complex Ideal Ratio Mask,cIRM)以及最佳比例掩膜(Optimal Ratio Mask,ORM)等等。這些掩蔽根據語音以及噪聲的幅度譜或者功率譜計算獲得,通過網絡計算得到估計掩蔽后,將帶噪語音信號與時頻掩蔽相乘得到純凈語音信號,進而得到干凈語音的時域波形。
基于特征映射的方法
基于特征映射的語音增強方法是通過網絡完成帶噪語音特征和干凈語音特征之間的映射關系,常見的特征映射包括目標幅度譜(TMS)、短時傅里葉變換幅度譜(STFT)等,通過帶噪語音估計純凈語音特征,將得到的譜圖與帶噪語音相位結合,從而得到語音波形。另外聲學特征也可以被用作特征映射深度學習的目標,例如Chen等人[3]探索了低信噪比下已經被用作語音分離和語音增強的一系列特征的表現,包括了Mel域特征中的MFCC和DSCC,線性預測特征中的PLP特征和RASTA-PLP特征,gamma域中的GF特征、GFCC特征和GFMC特征,信號自相關域中的RAS-MFCC特征、AC-MFCC特征和PAC-MFCC特征,調制域中的GFB特征和AMS特征等。Wang等人[4]提出一種單聲道和多聲道語音增強的復數頻譜映射方法,利用DNN從帶噪信號中預測純凈語音的實部和虛部,并融合波束形成算法得到在 CHiME-4語音數據集上WER較好的性能提升。
基于端到端的方法
監督語音增強大部分是在時頻域進行的,端到端的語音增強對原始時域波形信號直接進行處理,由于不依賴于頻域表示,避免了語音相位信息的丟失以及重構增強語音時使用帶噪語音相位可能導致的性能下降問題,使得模型流程簡化。Ritwik Giri等人[5]提出了帶有注意力機制的U-Net應用于語音增強,在VCTK數據集上測試多信噪比情況下PESQ、SSNR等評價指標都得到了提升。
語音去混響
混響語音為信號和房間沖激響應(Room Impulse Response,RIR)的卷積,這會使得語音信號在時域和頻域都發生畸變,導致語音可懂度的下降。利用深度學習的混響消除算法包括三類算法,直接預測、間接預測和聯合傳統算法。
直接預測的方法為混響語音信號直接映射到純凈語音信號,間接預測的方法例如可以通過預測后期混響信號間接性得到目標語音信號,聯合傳統算法為將DNN與WPE等算法進行結合,通過網絡預測WPE算法中間參數從而去除迭代計算的操作。Han等人[6]在2014年首先提出了基于DNN的語音去混響方法,這種方法在耳蝸圖上使用譜映射,DNN被訓練成從混響語音幀映射到干凈語音幀。Zhao等人[7]通過LSTM預測語音信號晚期混響間接得到目標語音信號,Kinoshita K[8]通過LSTM網絡預測WPE算法中的中間參數進而實現混響消除。
語音增強作為語音識別中的一項核心關鍵技術,廣泛應用在各種場景之中,國內外研究人員針對語音增強提出了許多算法,深度學習的廣泛應用也為來研究領域帶來了新的突破,但是語音增強領域仍然有許多問題,例如泛化性能、相位失真問題和低信噪比下的應用效果不理想,未來的語音增強仍然充滿挑戰。
審核編輯:湯梓紅
-
人機交互
+關注
關注
12文章
1217瀏覽量
55469 -
噪聲
+關注
關注
13文章
1125瀏覽量
47487 -
SVM
+關注
關注
0文章
154瀏覽量
32513 -
語音增強
+關注
關注
0文章
12瀏覽量
8768 -
深度學習
+關注
關注
73文章
5512瀏覽量
121404
原文標題:深度學習在語音增強中的應用
文章出處:【微信號:硬件設計技術,微信公眾號:硬件設計技術】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論