概述
隨著手持語音通信設備越來越流行,它們應用在嘈吵環境的機會也越來越高,例如機場、交通繁忙的路段、人多嘈雜的酒吧等。在這種嘈吵的環境下,通話的雙方實在難以聽清對方所說的話。
此外,不少通信系統都是采用計算機運行的語音識別、指令及/或響應系統,這些系統均易受到背景噪聲的影響,假如噪聲過大,便會導致系統出現很大的偏差。因此,有必要改善語音信號對背景聲音噪聲的比率。
本文將解釋利用麥克風數組消除語音通信系統中背景噪聲的基本原理,并引用美國國家半導體的LMV1088麥克風數組放大器作為例子加以說明。
麥克風數組
麥克風數組是指將多個麥克風一個接一個地排列成一個特別的樣式,讓它們一起工作以產生出一個合成輸出信號或多組信號。
每一個麥克風都是一個傳感器或一個空間窗口(spatial window),用于接收(空間采樣)輸入信號。數組的整體響應是數組中每個麥克風的個別響應的迭加,并與所采用的算法相關。
數組中多組麥克風信號所采用的 “數組處理” 算法是根據幾個因素來決定的,包括麥克風的間隔距離及排列樣式、麥克風的數量及類型,以及聲音的傳播原則。
麥克風數組的基本任務是消除語音輸入信號的周圍噪聲,進而改善聽覺輔助系統、語音識別設備和電信產品的語音質量。此外,麥克風數組也可用于方向定位,以及計算聲源與數組之間的距離。
語音通信系統中的麥克風數組的主要功能是提供一個高質量的語音信號,同時降低現場及周圍環境的噪聲。這里所指的質量是指最終的語音信號非常自然真實,當中不存在任何的人工噪音例如是卡嗒聲和砰啪聲、非意愿靜音、頻率失真、回聲或因加強語音信號處理方法所引起的不定期信號電平變化。
基于上述的理由,信/噪比改進(SNRI)并不是選擇背景噪聲抑制解決方案時的唯一參數,而必須考慮其它問題。
聲音信息
聲壓級
聲壓級(SPL)會隨著聲源距離的增加而減少。圖1和圖2分別表示出SPL的消減,該數值以分貝(dB)作單位,并且是聲源距離 “x”的一個函數。當人們說話的時候,一般以距離嘴唇約1cm的位置作為基準參考點,并將該位置的SPL定為96 dB。在這條件下,SPL的公式應為:
dB=96-20 log(x/0.01)
或可寫成
dB=96+20 log(0.01/x)
公式中的 ( 或 )是0.01m的參考值距離,亦即以米作單位時相對于聲源的距離“x” 為1公分。
圖1
圖2
當距離“x” 增加一倍時,兩條曲線的SPL均下降6dB 。圖1距離聲源200公分,而圖2則是距離聲源50公分的局部放大圖,從圖中可見聲音壓力會因與聲源距離的增加而急速下降,即使距離很短的情況下也一樣。例如,當與聲源的距離為10公分時,SPL便減少了20 dB,即由96dB下降到約76dB。
近場對遠場聲音
聲源的近場是指該位置處于相關最低頻信號的一個波長范圍之內。假設相關語音的最低頻為300Hz,如此波長λ便等于c/f 或 331.1/300 ,又或是 1.104 米,其中c代表聲波于零度攝氏下的水平速度。當頻率為3500Hz時,λ便等于c/f或 331.1/3500,又或是 0.0946米 (9.46公分)。因此,語音信號的典型近場范圍即由聲源距離約9.5公分到1.1米。
超過1米的距離,語音信號便會被考慮成語音聲源的遠場。對于麥克風間隔較近的數組,近場聲源會呈現出一個圓球狀的波陣面,并擁有很強的信號振幅、壓力梯度,以及對應數組中各麥克風與聲源之間的距離而出現的頻率相關差別。
現在假設兩個麥克風的間隔距離為3公分,而最接近聲源的一個麥克風,其與聲源的距離為5公分。圖2表示出第一個麥克風(即最接近聲源的一個),其感受到一個SPL為82dB的音頻信號,而第二個麥克風(即與聲源相距8公分)所感受到的信號為78dB SPL。即使兩者間只有4 dB的差別,但相對于整體的信號級,這差別仍相當大。
從頻譜含量的角度看,麥克風數組內的所有近場語音信號均關系密切。與最接近聲源的麥克風比較,與聲源距離最遠的麥克風信號的振幅將會減少,并且會出現信號由最近麥克風傳送到最遠麥克風的時間延遲。然而,要恢復該個案中的語音信號并不困難。
在麥克風數組語音近場范圍以外的聲源將被看作是遠場聲源,并對數組中排列緊密的麥克風展現出實質平面的波陣面。數組中每一個麥克風均感受到幾乎一樣的聲波能量及隨機相位信號,但該些信號并沒有對應關系,除非麥克風之間的距離非常接近。假如這些信號與麥克風的距離較遠,那麥克風的絕對SPL值便會進一步下降。
現舉出另一個例子,假若將相同的麥克風數組放置到與聲源距離150公分(即1.5米)的位置,最近聲源的麥克風的SPL值便會下降到52.5 dB,而距離聲源153公分的最遠麥克風的SPL值則稍微下降到52.3dB。雖然兩者僅有0.2dB的差距,但從聲源到最近麥克風的整體信號級將出現30dB的下降。
麥克風輸出之間的不同信號,在進行了適當的處理及濾波后,可將遠場噪聲消除,使兩個麥克風的復合輸出及處理電路能提供高清晰度的語音信號。
聲音噪聲的特質
這里的噪聲場可分為三種,分別是相干噪聲、非相干噪聲及擴散噪聲。
相干噪聲是指當聲波傳到麥克風時,在該過程中沒有因環境中的障礙物而出現任何形式的反射、散射或衰減。
非相干噪聲是指某一位置的噪聲與其它位置的噪聲沒有任何關系,并且被看成空間白噪音。
擴散噪聲是指擁有相同能量的噪聲同時軸射到所有方向。例子包括辦公室內的噪音、機場候機樓及交通噪音等,換句話說就是指所有充滿噪音的環境。
這里所指的聲音噪聲有兩種,分別是穩態噪聲及非穩態噪聲。
穩態噪聲是指噪聲的能量相對地穩定,并具備已知及變化緩慢的頻譜含量,并且是可預知的。例子包括由引擎發出的噪音、空調風扇、隨機或 “白” 噪音等等。噪聲抑制算法能有效抑制這類噪音。
非穩態噪聲是指音量及聲音內容會在短時間內變化,例如高聲說話或叫喊、汽車經過的聲音或拍手等,其發生是不可預知的。假若出現這類噪音,它們可能在被辨識及抑制前便會自動地消失掉,非穩態噪聲一般都包含在穩態噪聲之內。
最麻煩的情況是當噪聲源與語音信號擁有相同的出現時間、頻譜及相干特性,這種情況當背景噪聲屬于非穩態,且旁邊有其它人說話時便會出現,如在餐館和酒吧,車站及派對上等。
第二部分
麥克風數組的解決方案
根據選用的方法,麥克風數組解決方案可以成為抑制穩態及非穩態噪聲的一項非常高效的技術。
配合適當的算法,數組中的個別麥克風信號經過濾波后再組合,以便達到波束成形或空間濾波的效果,進而產生一個復雜的麥克風數組極性響應模式,能夠指向或遠離某個聲音位置。因此,可以將某個位置的聲音隔離或加強,又或可將其抑制或拒絕。同樣地,麥克風聲道中的信號相關性可找出主要信號的方向及其正確位置。
視乎數組的復雜度及應用,該數組可經由一個配備了數字信號處理器的模擬電路,再加上適當的計算機軟件和一系列方法去控制。
波束成形
波束成形分為兩種技術:自適應及定向。
在自適應波束成形技術中,可通過數據相關濾波及改變對數據的時間響應去調節波束的方向,在自適應波束成形方面已有幾種方法被開發出來。雖然在信號的處理上比較繁復,但好處是設計靈活度更高,包括麥克風的數量、類型及間隔距離。自適應波束成形一般需要數字信號處理器或計算機軟件來實現。
至于定向波束成形方面,波束的行走方向會按照相關聲源的方位而優化,并且同時排除來自其它方向的噪聲。一般來說,排列緊密兼具備固有方向性的差分式麥克風端射數組都是依靠固定時間延遲或其它方法來改變波束的方向。對于這類應用,任何濾波及信號處理的方法均須對特別的機械設計加以優化。定向波束成形一般需要模擬電路、數字信號處理器或計算機軟件來實現。
對于語音應用來說,采用定向波束成形解決方案會比較好,尤其當應用牽涉到語音辨識。假如以模擬電路來實現,它們便應該:
● 對噪聲輸入有實時的響應
● 容易實現而且無需開發任何的算法程序
● 為抑制穩態及非穩態噪聲提供一個可接受的信/噪比改進(SNRI)值
● 在無語音時表現極低的失真,并且可改善語音質量測試(ITU-T P.835)的整體平均意見分數(mean opinion score)
● 運算復雜度低并具備低信號延遲
● 功耗比其它解決方案小
與定向方案比較,采用數字信號處理器或軟件實現的自適應波束成形的缺點為:
● 當實施及調節抑制算法時,需要時間去重復辨識及收斂噪聲
● 雖然可提供較佳的SNRI值,但通常也會為語音輸出信號帶來較多的問題,包括因噪聲收斂時間所引起的延遲、卡嗒聲和砰啪聲、非意愿靜音、頻率失真、回聲或與子頻帶頻率信號處理方法有關的不定期信號級變化
● 由于需要另行開發演算程序,因此在實現上比較困難
● 需要更大的功耗
所有波束成形解決方案都是采用很小的數組,它們對誤差都非常敏感,包括由麥克風增益與相位失配所引起的誤差,以及由于音頻信號路徑嵌入于產品內而非設于大氣中所導致的路徑偏差。因此,波束解決方案必須具備某種形式的補償,而這種補償可以設于波束成形系統之內,又或是在系統之外加設適合的麥克風和音頻信號路徑。
麥克風間隔
奈奎斯特空間采樣率為相關最高頻率的二分之一個波長(d=λ/2)。為了從空間取得相關頻率的一個波長樣品,兩個傳感器(即麥克風)必須相隔二分之一個波長。
然而,當傳感器的間隔少于二分之一個波長時(d 1/2λ),空間性欠采樣便會發生,這時第一個傳感器在完成一個波長的采樣后,會在第二個傳感器進行采樣之前再重新啟動??臻g性欠采樣可將較高頻的信號混迭到相關的頻帶,導致結果出現混亂。為了防止出現假頻,采樣器的頻寬必須限制在最高相關頻率以上。
不少研究指出假如能夠盡量縮少傳感器之間的距離便可打造出高效的麥克風數組,距離可以比奈奎斯特速率的最低要求小很多?,F再舉一個例子,其中傳感器的間隔為相關聲波的八分之一個波長。
在一個純語音系統中,頻率范圍為300Hz 到 3500Hz,而最大聲音能量可出現在500Hz 到 2500Hz之間。在此條件下,λ/8的間隔在3500Hz下為1.18公分,而于2500Hz下為1.65公分。
由于波長增加,在3500Hz 及2500Hz頻率以下的音頻信號仍然會被過采樣,因此1.18公分或1.65公分的間隔能有效地取得更多的信號樣品。
另一個計算方法將間隔定為兩公分,如此當頻率為2500Hz時,波長的間隔(λ)/(c/df)便為:λ/(331.1/0.02*2500)=λ/6.62
假如空間采樣率在最高相關頻率下仍然低于λ/2,則需要調節麥克風的間隔以滿足產品的應用要求。但隨著間隔越來越擠(空間采樣率越來越高),麥克風數組中的遠場信號之間的相干性變大,使得數組在各頻率下均可發揮更佳的整體背景噪聲抑制效能。相反地,假如間隔變得較寬闊,數組的整體抑制能力便會下降,變得難以對較低頻信號作出反應。
一旦決定了傳感器的間隔,便可對應頻率的需求將數組優化。假如采用的是定向波束成形方案,數組的響應模式也需同時被固定。
不論是任何的產品,在設計的過程中必須要作出一些折衷決定,包括在操作頻率范圍與所需噪聲抑制級之間、理論與實際麥克風間隔之間、以及整體的數組系統成本和復雜性之間等。
麥克風數組解決方案的例子
以下采用美國國家半導體的遠場抑制麥克風數組放大器LMV1088作為麥克風數組解決方案的一個例子,它可為語音應用提供高至20 dB的背景噪聲抑制。LMV1088是一個模擬定向波束成形解決方案,適用于采用全指向性麥克風的差分式雙麥克風端射數組。
圖中兩個麥克風分別位于兩條相距約1.5公分至2.5公分的線上,或保持等同的聲波路徑距離。說話者與手機或耳機的麥克風距離最好保持2公分至10公分,通過使用圖1和圖2便可計算出語音信號隨距離變化的損耗。
LMV1088不僅可為兩條聲道上的聲音、麥克風和放大器信號路徑之間的差別提供初始性補償,并且可執行修正濾波令語音輸出更加自然,還可提供頻寬限制濾波功能。
由于內部放大器增益可通過I2C指令調節,因此可使用不同靈敏度的麥克風,并促使LMV1088的輸出信號級能配合模擬輸入信道信號的要求,以針對各式各樣的通信處理器及設備。
LMV1088可支持四種運作模式,并通過I2C命令選擇:
● 預設模式 – 同時使用兩個麥克風進行噪聲抑制
● 獨立模式 – 獨立地使用麥克風1或2(無噪聲抑制)
● 總合模式 – 兩個麥克風的輸出被相加在一起,使麥克風信號得到6dB增益 (無噪聲抑制)
LMV1088的模擬特性可提供一些傳統DSP解決方案沒有的特質:
● 無需因遷就背景噪聲級及其類型而花費額外的時間去進行噪聲收斂運算,進而可為語音信號及背景噪聲提供實時反應,并且可消除令人煩厭的短暫語音消失;
● 由于不采用子頻帶頻率處理算法,因此不會在輸出產生頻率失真、卡嗒聲和砰啪聲或其它的人工假信;
● 可加強現行系統中的單聲道回聲消除處理
不同麥克風數組解決方案的比較和測試
為了準確比較及測量不同背景噪聲抑制方案的效果,所有的測試設置及條件必須一致,以便得到可信的結果。
基于以上理由,特別安排了幾個標準的測試,其中絕大部分采用的是國際電信聯合標準ITU-T Rec. 的P0056e、58e、64e、0830e和ITU-T P835。
ITU-T P835專門用于主觀性測試,能夠有效評估系統中的語音輸出質量包括噪聲抑制的效能。該規格標準清楚說明評估噪聲環境中語音主觀質量的方法,特別適合用來評估噪聲抑制算法。該方法采用獨立的等級標準將測試分為三個獨立部分,分別就單獨的語音信號的主觀質量、單獨的背景噪聲的主觀質量,以及有背景噪聲下的整體語音質量(平均意見分數)進行獨立的評估。
圖3 噪聲、遠場、語音、優化語音
至于IEEE標準方面,可以采用IEEE 1209-1994及IEEE 269_1992兩個標準的測試。前者是專門測量電話手機及耳機的傳送效果,而后者則針對模擬及數字電話機的傳送效果。兩個標準的文件均已被IEEE 269-2002文件所取代。
將上述的標準綜合在一起后便可實現客觀的數值測量,并且可準確地評估不同背景噪聲抑制解決方案的主觀語音質量和電子語音辨識效果。
一般來說,系統的噪聲抑制數據都是由制造商提供的,它們可能是系統所能達到的最佳水平,但對于某些要求高語音質量的應用而言,這些預設水平可能無法滿足應用需求。
因此,在解決方案數據表上標明噪聲抑制數值是很困難的,甚至有時會產生誤導,除非可以明確地說明所有的測試條件。在此方面,一般的數據表都不會提供很詳細的數據,即使提供了也不切實際,因為很難想象客戶應用的條件與數據表上的測試條件完全吻合。
評論
查看更多