1 引言
語音壓縮編碼技術一直是在盡可能低的數碼率下獲得盡可能好的合成語音質量的矛盾中發展的。數碼率實質上反映的是頻帶寬度,降低數碼率實質上就是壓縮頻帶寬度。近10年來,固定電話和移動通信高速發展,頻率資源變得愈加寶貴,信道利用率成為一項關鍵因素,這促使語音壓縮技術,即語音編碼技術不斷發展。在有線通信及移動通信、衛星通信和掌上電腦的語音傳送應用中,語音編碼依舊扮演著十分重要的角色。
基于多帶激勵(MBE)算法,1997年,美國數字語音系統公司(DVSI)研制出先進的多帶激勵(AMBE-Advanced MBE)語音雙工編解碼芯片AMBE-1000TM,AMBE算法是標準MBE的改進和補充。隨后又推出AMBE-2000TM型語音壓縮碼電路。該壓縮技術已被證明優于CELP,RELP,VSELP,MELP,ECELP,MP-MLQ,LPC-10及其他壓縮技術。該語音電路能應用于包括數字移動通信系統在內的許多領域,如衛星通信、保密通信、語音多路技術、語音郵件、多媒體、IP電話等。
2 多帶激勵編碼的原理
美國麻省理工學院(MIT)的D.W.Griffin博士提出的多帶激勵(MBE)語音編碼方案突破了二元激勵的局限性,是一個不用預測殘差的完全的參數語音編碼器,在2.0kb/s~4.8kb/s速率內能夠合成質量比傳統聲碼器好得多的語音,并且具有較好的自然度和容忍環境噪聲的能力,是目前這一速率范圍內的一種較理想的編碼算法。
2.1 MBE的基本原理
多帶激勵的基本原理如圖1所示,將語音譜按各基音諧波頻率分成若干個帶,對各帶信號分別進行清濁音判決??偟募钚盘栍筛鲙Ъ钚盘栂嗉訕嫵?。對于濁音帶用以基音周期為間隔的脈沖序列譜作為激勵信號譜;對于清音帶采用白噪聲譜作為激勵信號譜,最后將各帶信號相加,形成全帶激勵信號。激勵信號通過時變數字濾波器,確定各諧波帶的相對幅度和相位,將激勵譜映射為語音譜。這種方案能將合成語音與原始語音在頻譜的細致結構上擬合得很好,更加符合實際語音的特性,因而能夠獲得較高的自然度。
2.2 AMBE的語音壓縮算法
AMBE是在MBE基礎上的改進和補充,基本算法是先將輸入的每幀160個數字話音取樣,分成交迭的段,經模型分析后得出該幀的模型參數。編碼器先進行V/U判別,將其分成交迭的8個段;再對每個段進行模型分析,得到模型參數,然后量化編碼,最后加上前向糾錯碼(FEC),以2.0kb/s~9.6kb/s的碼率發送。解碼器將接收到的比特流進行相應的糾錯解碼,將重構模型參數,再利用這些參數進行合成,恢復出語音。
3 AMBE-2000TM電路簡介
3.1 電路優點
1)優異的語音質量;2)低造價,低功耗,緊湊的引腳100 TQFP型封裝;3)無需外部存儲器;4)較強的抗干擾能力;5)支持插入前向糾錯碼的可變速率(2.0kb/s~9.6kb/s);6)全雙工實時處理;7)語音激活探測(VAD)/舒適背景噪音插入;8)雙音多頻(DTMF)探測和生成;9)回音抵消。
3.2 基本工作原理
該電路可以被視為兩個獨立的部分即編碼器和解碼器。編碼器接收8kHz話音數據流(16位線性、8位A率、8位μ率)并以所希望的碼率輸出數據流到傳輸信道上,相反,解碼器接收從傳輸信道上傳送的數據流合成出8kHz話音數據流。其編碼器與解碼器的接口時序是完全異步的?;竟ぷ髟砣鐖D2所示。
3.3 工作模式及其幀格式
3.3.1 工作模式
AMBE-2000TM不同于AMBE-1000TM,AMBE-2000TM只有串行接口模式,沒有并行接口模式。
AMBE-2000TM有四種工作模式:主幀格式、主非幀格式、從幀格式和從非幀格式。這四種工作模式都可以用軟件編程和硬件引腳設置來獲得。
在從模式下,AMBE-2000TM的編碼器輸出壓縮后的數據流所需的選通信號CHAN_TX_STRB由外部時鐘源提供。在主模式下,CHAN_TX_STRB由內部時鐘源提供。
在正常工作中,編碼器要每20ms輸出一幀數據,而解碼器需要接收處理一幀數據,對于編碼器和解碼器都需要有一些數據格式,主要的目的是為編碼時提供一定的校正信息。采用幀格式模式時,編碼器輸出的數據都是已知的固定幀格式,在該模式下有一些狀態標志信息,用于控制目的和同步,并用于解碼器解碼。采用非幀格式時,編碼器的輸出數據沒有固定的格式,其同步和控制的狀態信息比特數據插入語音編碼比特流中,它們一起被視為連續的語音數據流,因此,該模式的一個優點就是在信道上不用為傳幀頭而增加額外的帶寬。缺點是解碼器為了能在正確地合成語音波形之前獲得與數據流同步,需要接收完10組~12組語音數據幀。
3.3.2 幀格式工作模式下數據的幀格式
數據幀格式分為輸入幀格式和輸出幀格式。
1)輸入幀格式
輸入格式如表1所示,可以看出,Word0是固定的0x13EC,起同步作用。Word1控電源模式并包含幀丟失和舒適噪音插入信息。Word2~Word6用以調節碼率(2.0kb/s~9.6kb/s)。Word7~Word9為未用字,全為"0"。Wordl0為雙音多頻的控制信息。WoM11含有語音激活探測、休眠狀態、回音消除等控制信息。word 12~word 23是真正的話音數據(40 bit~192bit)。
2)輸出幀格式
輸出格式如表2所示,輸出幀格式與輸入幀格式基本相同,只是將Word7作為位錯誤率信息字,用以報告位錯誤信息。Word8用于報告軟件決定距離信息。Word9用于報告最近解碼幀探測到的位錯誤數。
4 AMBE-2000TM在系統中的應用
4.1 A/D-D/A接口的選擇
從模擬語音信號到AMBE-2000TM的接口是A/D及D/A轉換器,其選擇很重要,將影響系統語音的質量,可以是標準的8位/4率或A率壓擴量化的PCM信號,也可以是16位線性量化的PCM信號,使用16位線性量化的PCM編碼器能獲得更好的語音效果。本系統采用Analog Devices公司的AD73311AR,它是16位線性量化PCM編解碼器,采樣率為32kHz,可同時進行A/D轉換和D/A轉換。
4.2 AMBE-2000TM的傳輸信道接口
AMBE-2000TM的輸出數據在信道中傳輸的過程如圖3所示。
從圖3可以清楚地看到,從編碼器輸出的一幀數據并不全部送到信道上傳給接收方的解碼器,而是在本地將前192bit的數據幀頭抽取掉,只發送后面的192個語音數據比特,到達接收端后,再由系統完成在這192bit的前面加上數據幀頭的工作,組成一幀完整的數據幀后送給接收端的解碼器進行解碼。必須注意的是,語音數據在信道上傳輸時必須加上系統幀頭,否則無法在接收端實現同步。此外,當碼率為9600b/s時,這192bit才全部為有效的壓縮語音數據,當低于9 600b/s時,只有一部分為有效壓縮語音數據,其余的補"0",這些"0"仍需通過信道傳輸給接收方的解碼器進行解碼。
4.3 系統設計
本系統采用AD73311AR實現模/數、數/模轉換,用xilinx公司的FPGA實現對AMBE-2000TM的數據幀頭的抽取和合成的控制處理。如上所述,AMBE-2000TM的一幀數據只將語音數據和加上的系統幀頭送入信道,發送給接收端,在接收端收到的語音數據必須去掉系統幀頭再加上數據幀頭后才能送給解碼器進行解碼。FPGA完成幀頭的控制功能。整個系統框圖如圖4所示。在本系統中,AMBE-2000TM是設置為主幀格式模式。在整個系統工作之前,要對AMBE-2000TM復位,低電平有效,復位時間不少于50μs,在復位信號出現上升沿后95ms,電路才開始處理AD73311的PCM信號。信道的傳輸率為4 kb/s。
5 仿真結果
圖5是從AMBE-2000TM出來的壓縮數據的幀頭,192位幀頭只仿真了前面的16位,以后的全設為"0"。圖6是送給AMBE-2000TM解碼的數據(只顯示了幀頭)。圖7是去掉幀頭只加上系統幀頭Oxl3EC作為同步用的信道數據,為了方便,仿真時將有效數據設定為"1001......"(一幀有效數據共40bit)。傳輸率為4kb/s.
6 結束語
本系統進行了30個小時的長時間實驗,一直保持著良好的工作狀態。在4kb/s的傳輸率下,保持了較高的語音質量,并具有較強的語音識別能力。該系統的語音信號經過調制后可用于無線通信,我們用FSK進行調制傳輸取得了滿意的語音效果。
語音壓縮編碼技術一直是在盡可能低的數碼率下獲得盡可能好的合成語音質量的矛盾中發展的。數碼率實質上反映的是頻帶寬度,降低數碼率實質上就是壓縮頻帶寬度。近10年來,固定電話和移動通信高速發展,頻率資源變得愈加寶貴,信道利用率成為一項關鍵因素,這促使語音壓縮技術,即語音編碼技術不斷發展。在有線通信及移動通信、衛星通信和掌上電腦的語音傳送應用中,語音編碼依舊扮演著十分重要的角色。
基于多帶激勵(MBE)算法,1997年,美國數字語音系統公司(DVSI)研制出先進的多帶激勵(AMBE-Advanced MBE)語音雙工編解碼芯片AMBE-1000TM,AMBE算法是標準MBE的改進和補充。隨后又推出AMBE-2000TM型語音壓縮碼電路。該壓縮技術已被證明優于CELP,RELP,VSELP,MELP,ECELP,MP-MLQ,LPC-10及其他壓縮技術。該語音電路能應用于包括數字移動通信系統在內的許多領域,如衛星通信、保密通信、語音多路技術、語音郵件、多媒體、IP電話等。
2 多帶激勵編碼的原理
美國麻省理工學院(MIT)的D.W.Griffin博士提出的多帶激勵(MBE)語音編碼方案突破了二元激勵的局限性,是一個不用預測殘差的完全的參數語音編碼器,在2.0kb/s~4.8kb/s速率內能夠合成質量比傳統聲碼器好得多的語音,并且具有較好的自然度和容忍環境噪聲的能力,是目前這一速率范圍內的一種較理想的編碼算法。
2.1 MBE的基本原理
多帶激勵的基本原理如圖1所示,將語音譜按各基音諧波頻率分成若干個帶,對各帶信號分別進行清濁音判決??偟募钚盘栍筛鲙Ъ钚盘栂嗉訕嫵?。對于濁音帶用以基音周期為間隔的脈沖序列譜作為激勵信號譜;對于清音帶采用白噪聲譜作為激勵信號譜,最后將各帶信號相加,形成全帶激勵信號。激勵信號通過時變數字濾波器,確定各諧波帶的相對幅度和相位,將激勵譜映射為語音譜。這種方案能將合成語音與原始語音在頻譜的細致結構上擬合得很好,更加符合實際語音的特性,因而能夠獲得較高的自然度。
2.2 AMBE的語音壓縮算法
AMBE是在MBE基礎上的改進和補充,基本算法是先將輸入的每幀160個數字話音取樣,分成交迭的段,經模型分析后得出該幀的模型參數。編碼器先進行V/U判別,將其分成交迭的8個段;再對每個段進行模型分析,得到模型參數,然后量化編碼,最后加上前向糾錯碼(FEC),以2.0kb/s~9.6kb/s的碼率發送。解碼器將接收到的比特流進行相應的糾錯解碼,將重構模型參數,再利用這些參數進行合成,恢復出語音。
3 AMBE-2000TM電路簡介
3.1 電路優點
1)優異的語音質量;2)低造價,低功耗,緊湊的引腳100 TQFP型封裝;3)無需外部存儲器;4)較強的抗干擾能力;5)支持插入前向糾錯碼的可變速率(2.0kb/s~9.6kb/s);6)全雙工實時處理;7)語音激活探測(VAD)/舒適背景噪音插入;8)雙音多頻(DTMF)探測和生成;9)回音抵消。
3.2 基本工作原理
該電路可以被視為兩個獨立的部分即編碼器和解碼器。編碼器接收8kHz話音數據流(16位線性、8位A率、8位μ率)并以所希望的碼率輸出數據流到傳輸信道上,相反,解碼器接收從傳輸信道上傳送的數據流合成出8kHz話音數據流。其編碼器與解碼器的接口時序是完全異步的?;竟ぷ髟砣鐖D2所示。
3.3 工作模式及其幀格式
3.3.1 工作模式
AMBE-2000TM不同于AMBE-1000TM,AMBE-2000TM只有串行接口模式,沒有并行接口模式。
AMBE-2000TM有四種工作模式:主幀格式、主非幀格式、從幀格式和從非幀格式。這四種工作模式都可以用軟件編程和硬件引腳設置來獲得。
在從模式下,AMBE-2000TM的編碼器輸出壓縮后的數據流所需的選通信號CHAN_TX_STRB由外部時鐘源提供。在主模式下,CHAN_TX_STRB由內部時鐘源提供。
在正常工作中,編碼器要每20ms輸出一幀數據,而解碼器需要接收處理一幀數據,對于編碼器和解碼器都需要有一些數據格式,主要的目的是為編碼時提供一定的校正信息。采用幀格式模式時,編碼器輸出的數據都是已知的固定幀格式,在該模式下有一些狀態標志信息,用于控制目的和同步,并用于解碼器解碼。采用非幀格式時,編碼器的輸出數據沒有固定的格式,其同步和控制的狀態信息比特數據插入語音編碼比特流中,它們一起被視為連續的語音數據流,因此,該模式的一個優點就是在信道上不用為傳幀頭而增加額外的帶寬。缺點是解碼器為了能在正確地合成語音波形之前獲得與數據流同步,需要接收完10組~12組語音數據幀。
3.3.2 幀格式工作模式下數據的幀格式
數據幀格式分為輸入幀格式和輸出幀格式。
1)輸入幀格式
輸入格式如表1所示,可以看出,Word0是固定的0x13EC,起同步作用。Word1控電源模式并包含幀丟失和舒適噪音插入信息。Word2~Word6用以調節碼率(2.0kb/s~9.6kb/s)。Word7~Word9為未用字,全為"0"。Wordl0為雙音多頻的控制信息。WoM11含有語音激活探測、休眠狀態、回音消除等控制信息。word 12~word 23是真正的話音數據(40 bit~192bit)。
2)輸出幀格式
輸出格式如表2所示,輸出幀格式與輸入幀格式基本相同,只是將Word7作為位錯誤率信息字,用以報告位錯誤信息。Word8用于報告軟件決定距離信息。Word9用于報告最近解碼幀探測到的位錯誤數。
4 AMBE-2000TM在系統中的應用
4.1 A/D-D/A接口的選擇
從模擬語音信號到AMBE-2000TM的接口是A/D及D/A轉換器,其選擇很重要,將影響系統語音的質量,可以是標準的8位/4率或A率壓擴量化的PCM信號,也可以是16位線性量化的PCM信號,使用16位線性量化的PCM編碼器能獲得更好的語音效果。本系統采用Analog Devices公司的AD73311AR,它是16位線性量化PCM編解碼器,采樣率為32kHz,可同時進行A/D轉換和D/A轉換。
4.2 AMBE-2000TM的傳輸信道接口
AMBE-2000TM的輸出數據在信道中傳輸的過程如圖3所示。
從圖3可以清楚地看到,從編碼器輸出的一幀數據并不全部送到信道上傳給接收方的解碼器,而是在本地將前192bit的數據幀頭抽取掉,只發送后面的192個語音數據比特,到達接收端后,再由系統完成在這192bit的前面加上數據幀頭的工作,組成一幀完整的數據幀后送給接收端的解碼器進行解碼。必須注意的是,語音數據在信道上傳輸時必須加上系統幀頭,否則無法在接收端實現同步。此外,當碼率為9600b/s時,這192bit才全部為有效的壓縮語音數據,當低于9 600b/s時,只有一部分為有效壓縮語音數據,其余的補"0",這些"0"仍需通過信道傳輸給接收方的解碼器進行解碼。
4.3 系統設計
本系統采用AD73311AR實現模/數、數/模轉換,用xilinx公司的FPGA實現對AMBE-2000TM的數據幀頭的抽取和合成的控制處理。如上所述,AMBE-2000TM的一幀數據只將語音數據和加上的系統幀頭送入信道,發送給接收端,在接收端收到的語音數據必須去掉系統幀頭再加上數據幀頭后才能送給解碼器進行解碼。FPGA完成幀頭的控制功能。整個系統框圖如圖4所示。在本系統中,AMBE-2000TM是設置為主幀格式模式。在整個系統工作之前,要對AMBE-2000TM復位,低電平有效,復位時間不少于50μs,在復位信號出現上升沿后95ms,電路才開始處理AD73311的PCM信號。信道的傳輸率為4 kb/s。
5 仿真結果
圖5是從AMBE-2000TM出來的壓縮數據的幀頭,192位幀頭只仿真了前面的16位,以后的全設為"0"。圖6是送給AMBE-2000TM解碼的數據(只顯示了幀頭)。圖7是去掉幀頭只加上系統幀頭Oxl3EC作為同步用的信道數據,為了方便,仿真時將有效數據設定為"1001......"(一幀有效數據共40bit)。傳輸率為4kb/s.
6 結束語
本系統進行了30個小時的長時間實驗,一直保持著良好的工作狀態。在4kb/s的傳輸率下,保持了較高的語音質量,并具有較強的語音識別能力。該系統的語音信號經過調制后可用于無線通信,我們用FSK進行調制傳輸取得了滿意的語音效果。
評論
查看更多