為什么要使用音頻壓縮技術
要算一個PCM音頻流的碼率是一件很輕松的事情,采樣率值×采樣大小值×聲道數bps。一個采樣率為44.1KHz,采樣大小為16bit,雙聲道 的PCM編碼的WAV文件,它的數據速率則為 44.1K×16×2=1411.2 Kbps。我們常說128K的MP3,對應的WAV的參數,就是這個1411.2Kbps,這個參數也被稱為數據帶寬,它和ADSL中的帶寬是一個概念。 將碼率除以8,就可以得到這個WAV的數據速率,即176.4KB/s。這表示存儲一秒鐘采樣率為44.1KHz,采樣大小為16bit,雙聲道的PCM 編碼的音頻信號,需要176.4KB的空間,1分鐘則約為10.34M,這對大部分用戶是不可接受的,尤其是喜歡在電腦上聽音樂的朋友,要降低磁盤占用, 只有2種方法,降低采樣指標或者壓縮。降低指標是不可取的,因此專家們研發了各種壓縮方案。由于用途和針對的目標市場不一樣,各種音頻壓縮編碼所達到的音 質和壓縮比都不一樣,在后面的文章中我們都會一一提到。有一點是可以肯定的,他們都壓縮過。
頻率與采樣率的關系
采樣率表示了每秒對原始信號采樣的次數,我們常見到的音頻文件采樣率多為44.1KHz,這意味著什么呢?假設我們有2段正弦波信號,分別為 20Hz和20KHz,長度均為一秒鐘,以對應我們能聽到的最低頻和最高頻,分別對這兩段信號進行40KHz的采樣,我們可以得到一個什么樣的結果呢?結果是:20Hz的信號每次振動被采樣了40K/20=2000次,而20K的信號每次振動只有2次采樣。顯然,在相同的采樣率下,記錄低頻的信息遠比高頻的詳細。這也是為什么有些音響發燒友指責CD有數碼聲不夠真實的原因,CD的44.1KHz采樣也無法保證高頻信號被較好記錄。要較好的記錄高頻信號,看來需要更高的采樣率,于是有些朋友在捕捉CD音軌的時候使用48KHz的采樣率,這是不可取的!這其實對音質沒有任何好處,對抓軌軟件來說,保持和CD提供的44.1KHz一樣的采樣率才是最佳音質的保證之一,而不是去提高它。較高的采樣率只有相對模擬信號的時候才有用,如果被采樣的信號是數字的,請不要 去嘗試提高采樣率。
PCM編碼
PCM脈沖編碼調制是Pulse CodeModulation的縮寫。前面的文字我們提到了PCM大致的工作流程,我們不需要關心PCM最終編碼采用的是什么計算方式,我們只需要知道 PCM編碼的音頻流的優點和缺點就可以了。PCM編碼的最大的優點就是音質好,最大的缺點就是體積大。我們常見的AudioCD就采用了PCM編碼,一張光盤的容量只能容納72分鐘的音樂信息。
WAVE
這是一種古老的音頻文件格式,由微軟開發。WAV是一種文件格式,符合 PIFF Resource Interchange FileFormat規范。所有的WAV都有一個文件頭,這個文件頭音頻流的編碼參數。WAV對音頻流的編碼沒有硬性規定,除了PCM之外,還有幾乎所有 支持ACM規范的編碼都可以為WAV的音頻流進行編碼。很多朋友沒有這個概念,我們拿AVI做個示范,因為AVI和WAV在文件結構上是非常相似的,不過 AVI多了一個視頻流而已。我們接觸到的AVI有很多種,因此我們經常需要安裝一些Decode才能觀看一些AVI,我們接觸到比較多的DivX就是一種 視頻編碼,AVI可以采用DivX編碼來壓縮視頻流,當然也可以使用其他的編碼壓縮。同樣,WAV也可以使用多種音頻編碼來壓縮其音頻流,不過我們常見的 都是音頻流被PCM編碼處理的WAV,但這不表示WAV只能使用PCM編碼,MP3編碼同樣也可以運用在WAV中,和AVI一樣,只要安裝好了相應的 Decode,就可以欣賞這些WAV了。
在Windows平臺下,基于PCM編碼的WAV是被支持得最好的音頻格式,所有音頻軟件都能完美支持, 由于本身可以達到較高的音質的要求,因此,WAV也是音樂編輯創作的首選格式,適合保存音樂素材。因此,基于PCM編碼的WAV被作為了一種中介的格式, 常常使用在其他編碼的相互轉換之中,例如MP3轉換成WMA。
MP3編碼
MP3作為目前最為普及的音頻壓縮格式,為大家所大量接受,各種與MP3相關的軟件產品層出不窮,而且更多的硬件產品也開始支持MP3,我們能夠買 到的VCD/DVD播放機都很多都能夠支持MP3,還有更多的便攜的MP3播放器等等,雖然幾大音樂商極其反感這種開放的格式,但也無法阻止這種音頻壓縮 的格式的生存與流傳。MP3發展已經有10個年頭了,他是MPEG(MPEG:Moving Picture Experts Group) AudioLayer-3的簡稱,是MPEG1的衍生編碼方案,1993年由德國FraunhoferIIS研究院和湯姆生公司合作發展成功。MP3可以 做到12:1的驚人壓縮比并保持基本可聽的音質,在當年硬盤天價的日子里,MP3迅速被用戶接受,隨著網絡的普及,MP3被數以億計的用戶接受。MP3編 碼技術的發布之初其實是非常不完善的,由于缺乏對聲音和人耳聽覺的研究,早期的mp3編碼器幾乎全是以粗暴方式來編碼,音質破壞嚴重。隨著新技術的不斷導 入,mp3編碼技術一次一次的被改良,其中有2次重大技術上的改進。
VBR:MP3格式的文件有一個有意思的特征,就是可以邊讀邊放,這也符合流媒體的最基本特征。也就是說播放器可以不用預讀文件的全部內容就可以播放,讀到哪里播放到哪里,即使是文件有部分損壞。雖然mp3可以有文件頭,但對于 mp3格式的文件卻不是很重要,正因為這種特性,決定了MP3文件的每一段每一幀都可以單獨的平均數據速率,而無需特別的解碼方案。于是出現了一種叫 VBR(Variablebitrate,動態數據速率)的技術,可以讓MP3文件的每一段甚至每一幀都可以有單獨的bitrate,這樣做的好處就是在 保證音質的前提下最大程度的限制了文件的大小。這種技術的優越性是顯而易見的,但要運用確實是一件難事,因為這要求編碼器知道如何為每一段分配 bitrate,這對沒有波形分析的編碼器而言,這種技術如同虛設。正是如此,VBR技術并沒有一出現就顯得光彩奪目。
專家們通過長期的聲學研究,發現人耳存在遮蔽效應。聲音信號實際是一種能量波,在空氣或其他媒介中傳播,人耳對聲音能量的多少即響度或聲壓最直接的 反應就是聽到這個聲音的大小,我們稱它為響度,表示響度這種能量的單位為分貝(dB)。即使是同樣響度的聲音,人們也會因為它們頻率不同而感覺到聲音大小 不同。人耳最容易聽到的就是4000Hz的頻率,不管頻率是否增高或降低,即使是響度在相同的情況下,大家都會覺得聲音在變小。但響度降到一定程度時,人 耳就聽不到了,每一個頻率都有著不同的值。
可以看到這條曲線基本成一個V字型,當頻率超過15000Hz時,人耳的會感覺到聲音很小,很多聽覺不是很好的人,根本就聽不到20000Hz的頻 率,不管響度有多大。當人耳同時聽到兩個不同頻率、不同響度的聲音時,響度較小的那個也會被忽略,例如:在白天我們很難聽到電腦中散熱風扇的聲音,晚上卻 成了噪聲源,根據這種原理,編碼器可以過濾掉很多聽不到的聲音,以簡化信息復雜度,增加壓縮比,而不明顯的降低音質。這種遮蔽被稱為同時遮蔽效應。但聲音 A被聲音B遮蔽,如果A處于B為中心的遮蔽范圍內,遮蔽會更明顯,這個范圍叫臨界帶寬。每一種頻率的臨界帶寬都不一樣,頻率越高的臨界帶寬越寬。
頻率(Hz) 臨界帶寬(Hz) 頻率(Hz) 臨界帶寬(Hz)
50 80 1850 280
150 100 2150 320
350 100 2500 380
450 110 3400 550
570 120 4000 700
700 140 4800 900
840 150 5800 1100
1000 160 7000 1300
1170 190 8500 1800
1370 210 10500 2500
1600 240 13500 3500
根據這種效應,專家們設計出人耳聽覺心理模型,這個模型被導入到mp3編碼中后,導致了一場翻天覆地的音質革命,mp3編碼技術一直背負著音質 差的惡名,但這個惡名現在已經逐漸被洗脫。到了此時,一直被埋沒的VBR技術光彩四射,配合心理模型的運用便現實出強大的誘惑力與殺傷力。
長期 來,很多人對MP3印象不好,更多人認為WMA的最佳音質要好過MP3,這種說法是不正確的,在中高碼率下,編碼得當的MP3要比WMA優秀很多,可以非 常接近CD音質,在不太好的硬件設備支持下,沒有多少人可以區分兩者的差異,這不是神話故事,盡管你以前盲聽就可以很輕松區分MP3和CD,但現在你難保 證你可以分辨正確。因為MP3是優秀的編碼,以前被埋沒了。
評論
查看更多