本文介紹了壓擴主題——跨電話系統(tǒng)的人類語音的數(shù)字化、傳輸和轉(zhuǎn)換。
簡要背景
電話系統(tǒng)自發(fā)明以來一直處于高需求狀態(tài),并且已經(jīng)從公共交換電話網(wǎng)絡(luò) (PSTN) 發(fā)展為現(xiàn)代無線數(shù)字移動系統(tǒng)。基于模數(shù)轉(zhuǎn)換的脈沖編碼調(diào)制 (PCM) 系統(tǒng)已經(jīng)使用了六年。應該注意的是,無論使用哪種編碼,所有電話系統(tǒng)都是通過利用人類語音和聽覺機制背后的基本事實來工作的。
人類言語和聽覺機制
語音是人類之間的自然交流機制。單詞由不同的音素、幅度不同的單個聲音組成,安靜的音素比響亮的音素出現(xiàn)的頻率更高。一般來說,人類產(chǎn)生的語音信號的頻率范圍為 70Hz~400Hz,而人類聽覺的頻率范圍為20Hz~20kHz。我們的聽力具有選擇性,對300 Hz 至 10 kHz范圍內(nèi)產(chǎn)生的聲音提供最高靈敏度。
這些以實驗為依據(jù)的事實得出的結(jié)論是,當在 0.3 到 3.4 kHz 范圍內(nèi)記錄語音信號時,聽者很容易理解說話者所傳達的信息。
圖 1. “語音香蕉”顯示了音素及其在識別所需的各種幅度下的頻率。圖片由Clear Value Hearing提供。
當聽力能力以分貝等級表示時,它的范圍從 0 dB SPL(聽力閾值)到 130 dB SPL(疼痛閾值)。
較低幅度和較高幅度之間的 比率很大。在一般意義上,較低幅度的聲音被認為是耳語,而較高幅度的聲音被認為是喊叫。然而,即使是正常的會話語音也有相當大的幅度變化,因為它是由不同的音素組成的。此外,可以看出,更安靜的音素比響亮的音素攜帶更多的信息并且具有更多的熵。
無壓擴的基于 PCM 的電話系統(tǒng)
電話系統(tǒng)最初是作為模擬系統(tǒng)出現(xiàn)的,現(xiàn)在已經(jīng)變成了數(shù)字系統(tǒng)。因此,無論我們說什么都需要數(shù)字化然后傳輸——因此實際的模擬語音信號需要在接收端進行恢復。任何模擬信號到其數(shù)字形式的轉(zhuǎn)換都包括三個重要階段:采樣、量化和編碼。
語音信號的采樣
采樣是一個過程,通過該過程,我們可以將在所有時刻定義的原始信號轉(zhuǎn)換為僅在特定時刻定義的離散信號。
我們?nèi)绾螞Q定在哪些點定義信號?
我們首先考慮一個基本但非常重要的事實,即我們不僅對從發(fā)送方傳輸信號感興趣,而且對在接收方恢復信號感興趣。
與該過程相關(guān)的定理是著名的奈奎斯特定理,該定理指出,只有在至少以其中包含的最高頻率兩倍的速率對其進行采樣時,才能忠實地恢復傳輸信號。
因此,如果最高頻率是f,那么我們需要對信號進行采樣的頻率應該大于或等于 2 f。反過來,這意味著我們需要在距離小于或等于 1/2 f的時刻定義我們的信號 (由于頻率和時間彼此成反比)。
從上一節(jié)的討論中,我們知道我們對電話交談的興趣跨越了 0.3 到 3.4 kHz 的頻率范圍。并且任何成功的信號傳輸都需要存在保護頻帶,因此整個范圍變?yōu)? 到 4 kHz。因此,在我們的例子中,8 kHz (= 2 x 4 KHz) 的采樣率是一個不錯的選擇。
這表明,在采樣之后,我們的語音信號沿時間軸離散化,其中相鄰樣本之間的間距將為 18KHz=125微秒18KHz=125微秒。
語音信號的量化與編碼
請注意,采樣僅對時間軸上的信號進行數(shù)字化(參見圖 2 所示的典型示例,其中紅色正弦信號通過采樣轉(zhuǎn)換為藍色離散值信號)。然而,為了使語音信號在本質(zhì)上完全數(shù)字化,我們需要沿其幅度軸對其進行離散化,這被視為量化。
圖 2.正弦波采樣
現(xiàn)在,我們的下一個問題將與采樣的情況非常相似——我們?nèi)绾螞Q定何時沿其幅度軸定義我們的信號?換句話說,我們定義信號幅度的點之間的間距應該是多少(這在技術(shù)上稱為步長)?
即使在這種情況下,我們也需要選擇步長,記住我們需要在接收端有最小的失真信號。這么想,讓我們假設(shè)我們選擇一個非常小的步長來量化低幅度信號(正弦波在值 +1 和 -1 之間變化,在圖 3a 中以粉紅色顯示)。較小的步長意味著我們將沿其幅度軸以非常接近的間隔定義我們的信號(圖 3a),因此定義我們的信號所需的步數(shù)將非常大,這需要大量的比特來對其進行編碼,這需要很大的帶寬。
圖 3. (a) 小步長 (b) 大步長的低幅度正弦波量化
考慮到帶寬,讓我們假設(shè)我們使用太少的步驟來定義我們的信號。較少的步數(shù)意味著我們沿其幅度軸定義信號的點之間的間距較大。這使我們能夠非常粗略地定義我們的信號(圖 3b),當我們在接收端重構(gòu)信號時,這會導致問題,因為在量化過程中會丟失很多存在的信息。
接下來,我們分析在大振幅信號的情況下改變步長的影響。這在目前的情況下很重要,因為我們從關(guān)于人類言語和聽力機制部分的討論中知道,我們感興趣的信號(言語)包含廣泛的幅度。
圖 4 使用與圖 3 相同的步長來檢查量化的效果,當幅度增加四倍時(圖 4 中的原始正弦波的峰峰值幅度在 +4 到 -4 之間變化)。在這里,圖 4a 再次強調(diào)了這樣一個事實,即當我們需要復制原始信號時,較小的步長總是更好。
圖 4. (a) 小步長 (b) 大步長的大振幅正弦波量化
另一個需要注意的重點是,圖 4b 中的量化信號不像圖 3b 中所示的量化信號那樣失真。也就是說,當信號幅度較高時,使用大步長的量化仍然會產(chǎn)生可接受的結(jié)果。這意味著當涉及到大幅度信號時,被證明對于低幅度信號“非常大”的步長并不是“那么大”。換句話說,可以說信號的幅度越高,量化它的步長就越大,而不會產(chǎn)生太大的失真。
壓擴:簡介
每個研究人員都相信,任何系統(tǒng),無論多么好,都可以以某種方式進行改進。然而,為了找出最有效(或更好)的方法,必須仔細審查目前采用的概念和方法,并且必須從不同的角度進行審查。
為了在我們的案例中實現(xiàn)這一點,讓我們回顧文章的路徑,同時思考兩個重要點。
首先,請回想一下,就其中包含的信息而言,人類語言不是各向同性的。語音中較安靜的音素比大聲的音素出現(xiàn)得更頻繁并且包含更多的信息。其次,請注意,與較低幅度的信號相比,對于較高幅度的信號,選擇用于量化信號的步長可以更大(而不影響其質(zhì)量)。
如果是這樣,為什么我們不能使用較小的步長量化低幅度的語音信號,而對幅度較大的語音信號使用較大的步長呢?可以辦到。事實上,這種使用非均勻電平量化語音信號的技術(shù)被稱為“壓縮擴展”,是壓縮和擴展的組合。
壓縮擴展是使用不等量化級別對信號進行編碼的過程。在該技術(shù)中,大量的小電平用于對低幅度信號進行編碼,而較高幅度的信號使用少量的大電平進行編碼。這意味著通過使用壓擴,我們可以用更少的電平量化我們的語音信號,同時保持所需的保真度。此外,級別數(shù)越少意味著要編碼的比特越少,這意味著帶寬要求降低。
結(jié)論
本文介紹了與人類語音相關(guān)的概念及其在基于 PCM 的電話系統(tǒng)中的特征。我希望您已經(jīng)獲得了關(guān)于壓擴及其在電信領(lǐng)域的重要性的膚淺知識。
-
PCM
+關(guān)注
關(guān)注
1文章
195瀏覽量
53241 -
模數(shù)轉(zhuǎn)換
+關(guān)注
關(guān)注
1文章
216瀏覽量
36875
發(fā)布評論請先 登錄
相關(guān)推薦
評論