一、語音識別技術定義
語音識別技術,也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同,后者嘗試識別或確認發出語音的說話人而非其中所包含的詞匯內容。
語音識別技術的應用包括語音撥號、語音導航、室內設備控制、語音文檔檢索、簡單的聽寫數據錄入等。語音識別技術與其他自然語言處理技術如機器翻譯及語音合成技術相結合,可以構建出更加復雜的應用,例如語音到語音的翻譯。
二、語音識別技術原理
語音識別系統提示客戶在新的場合使用新的口令密碼,這樣使用者不需要記住固定的口令,系統也不會被錄音欺騙。文本相關的聲音識別方法可以分為動態時間伸縮或隱馬爾可夫模型方法。文本無關聲音識別已經被研究很長時間了,不一致環境造成的性能下降是應用中的一個很大的障礙。
其工作原理:
動態時間伸縮方法使用瞬間的、變動倒頻。1963年Bogert et al出版了《回聲的時序倒頻分析》。通過交換字母順序,他們用一個含義廣泛的詞匯定義了一個新的信號處理技術,倒頻譜的計算通常使用快速傅立葉變換。
從1975年起,隱馬爾可夫模型變得很流行。運用隱馬爾可夫模型的方法,頻譜特征的統計變差得以測量。文本無關語音識別方法的例子有平均頻譜法、矢量量化法和多變量自回歸法。
平均頻譜法使用有利的倒頻距離,語音頻譜中的音位影響被平均頻譜去除。使用矢量量化法,語者的一套短期訓練的特征向量可以直接用來描繪語者的本質特征。但是,當訓練向量的數量很大時,這種直接的描繪是不切實際的,因為存儲和計算的量變得離奇的大。所以嘗試用矢量量化法去尋找有效的方法來壓縮訓練數據。Montacie et al在倒頻向量的時序中應用多變量自回歸模式來確定語者特征,取得了很好的效果。
想騙過語音識別系統要有高質量的錄音機,那不是很容易買到的。一般的錄音機不能記錄聲音的完整頻譜,錄音系統的質量損失也必須是非常低的。對于大多數的語音識別系統,模仿的聲音都不會成功。用語音識別來辨認身份是非常復雜的,所以語音識別系統會結合個人身份號碼識別或芯片卡。
語音識別系統得益于廉價的硬件設備,大多數的計算機都有聲卡和麥克風,也很容易使用。但語音識別還是有一些缺點的。語音隨時間而變化,所以必須使用生物識別模板。語音也會由于傷風、嗓音沙啞、情緒壓力或是青春期而變化。語音識別系統比指紋識別系統有著較高的誤識率,因為人們的聲音不像指紋那樣獨特和唯一。對快速傅立葉變換計算來說,系統需要協同處理器和比指紋系統更多的效能。目前語音識別系統不適合移動應用或以電池為電源的系統。
三、語音識別的技術實現方式
語音識別技術主要包括特征提取技術、模式匹配準則及模型訓練技術三個方面,其中,最基礎的就是語音識別單元的選取。
(1)語音識別單元的選取。語音識別研究的基礎是選擇語音識別單元。語音識別單元有單詞(句)、音節和音素三種,具體選擇哪一種語音識別單元由具體研究任務的類型決定:
單詞(句)單元在中小詞匯語音識別系統中應用廣泛,但由于模型庫過于龐大,模型匹配算法復雜,實時性不強,所以不適合大詞匯系統;
音節單元主要應用于漢語語音識別,因為漢語是單音節結構的語言,雖然有大約1300個音節,但無調音節共408個,相對較少,所以音節單元在中、大詞匯量的漢語語音識別系統上是可行的。
音素單元之前曾廣泛應用于英語語音識別,也越來越多的應用于中、大詞匯量漢語語音識別系統中。原因在于漢語音節僅由22個聲母和28個韻母構成,把聲母細化,雖然增加了模型數量,但是提高了易混淆音節的區分能力
(2)特征參數提取技術。特征提取就是對語音信號進行分析處理,把豐富的語音信息中的冗余信息去除,獲得對語音識別有用的信息。這是一個對語音信號進行信息壓縮的過程,目前經常采用的特征參數提取技術是線性預測(LP)分析技術。基于LP技術提取的倒譜參數再加上Mel參數和基于感知線性預測(PLP)分析提取的感知線性預測倒譜對人耳處理聲音的模擬,進一步提高了語音識別系統的性能。
(3)模式匹配及模型訓練技術。早期的語音識別應用的模式匹配和模型訓練技術是動態時間歸正技術(DTW),它在孤立詞語音識別中獲得了良好性能,但是由于對大詞匯量以及連續語音識別的不準確,目前已經被隱馬爾可夫模型(HMM)和人工神經元網絡(ANN)所取代。
四、語音識別遇到的困難
目前,語音識別研究工作進展緩慢,困難具體表現在:
(一)語音識別系統對環境敏感,采集到的語音訓練系統只能應用于與之對應的環境,而且當用戶輸入錯誤時不能正確響應,應用起來相對困難;
(二)必須采取新的新號處理方法來處理人在高噪聲環境下的發音變化的問題;(三)語言模型、語法及詞法模型在中、大詞匯量連續語音識別中無法正確、合理的運用,需要有效地利用語言學、心理學及生理學等方面的研究成果;現階段的科學技術對人類生理學諸如聽覺系統分析理解功能、大腦神經系統的控制功能等還不夠,更無法應用于語音識別;語音識別系統從實驗室演示系統向商品的轉化過程中還有許多具體細節技術問題需要解決。
五、語音識別技術的發展狀況
1.語音識別技術在國際的發展
早在三四十年前,美國的一些大學和實驗室就開始了語音識別技術的研究,50年代的AT& T Bell實驗室研發的Audry系統第一個實現了可識別十個英文數字。60和70年代,提出了線性預測分析技術(LP)等相關理論并深入研究,創造出可以實現特定人孤立語音識別系統;80年代和90年代是語音識別技術應用研究方向的高潮,HMM模型和人工神經元網絡(ANN)的成功應用,使得語音識別系統的性能比以往更優異;伴隨著多媒體時代的來臨,微軟,Apple等著名公司都研發出相當成功的商業應用語音識別系統,比如,Apple的Siri系統,微軟的Phone Query (電話語音識別)引擎等。
2.語音識別技術在國內的發展
我國的語音識別研究工作雖然起步較晚,但由于國家的重視,研究工作進展順利,相關研究緊跟國際水平。由于中國有不可忽視的龐大市場,國外對中國的語音識別技術也非常重視,漢語語音語義的特殊性也使得中文語音識別技術的研究更具有挑戰。但是,國內研究機構在進行理論研究的同時,應注重語音識別系統在商業中的應用,加快從實驗室演示系統到商品的轉化。
現如今,許多用戶已經能享受到語音識別技術帶來的方便,比如智能手機的語音操作等。但是,這與實現真正的人機交流還有相當遙遠的距離。目前,計算機對用戶語音的識別程度不高,人機交互上還存在一定的問題,語音識別技術還有很長的一段路要走,必須取得突破性的進展,才能做到更好的商業應用,這也是未來語音識別技術的發展方向。
六、語音識別技術的發展趨勢
1.進一步提高可靠性
目前語音識別系統很難做到排除各種聲學環境因素的影響,而人類語言在日常生活中的隨意性和不確定性給語音識別系統造成極大的識別困難。所以,要應用現代技術智能化語音識別系統,以達到更好的識別效果;
2.增加詞匯量
目前語音識別系統使用的聲學模型和語音模型過于局限,需要通過改進系統建模方法、提高搜索算法的效率來做到詞匯量無限制和多重語言混合,減少詞匯量對語音識別系統的限制;
3.微型化并降低成本
語音識別系統在商業上的用途相當廣泛,利用先進的微電子技術,將具有先進功能和性能的語音識別應用系統固化到更加微小的芯片或模塊上,可以縮減成本,更方便的推廣和使用。語音識別系統和微電子芯片技術的發展將引領信息技術革命到一個新的臺階。語音識別系統使人溝通更加自由,使人可以方便地享受到更多的社會信息資源和現代化服務。這必然會成為語音識別技術研究和應用的重要發展趨勢。
七、語音識別技術的前景和應用
在電話與通信系統中,智能語音接口正在把電話機從一個單純的服務工具變成為一個服務的“提供者”和生活“伙伴”;使用電話與通信網絡,人們可以通 過語音命令方便地從遠端的數據庫系統中查詢與提取有關的信息;隨著計算機的小型化,鍵盤已經成為移動平臺的一個很大障礙,想象一下如果手機僅僅只有一個手 表那么大,再用鍵盤進行撥號操作已經是不可能的。語音識別正逐步成為信息技術中人機接口的關鍵技術,語音識別技術與語音合成技術結合使人們能夠甩掉鍵盤, 通過語音命令進行操作。語音技術的應用已經成為一個具有競爭性的新興高技術產業。
語音識別技術發展到今天,特別是中小詞匯量非特定人語音識別系統識別精度已經大于98%,對特定人語音識別系統的識別精度就更高。這些技術已經能 夠滿足通常應用的要求。由于大規模集成電路技術的發展,這些復雜的語音識別系統也已經完全可以制成專用芯片,大量生產。在西方經濟發達國家,大量的語音識 別產品已經進入市場和服務領域。一些用戶交機、電話機、手機已經包含了語音識別撥號功能,還有語音記事本、語音智能玩具等產品也包括語音識別與語音合成功 能。人們可以通過電話網絡用語音識別口語對話系統查詢有關的機票、旅游、銀行信息,并且取得很好的結果。調查統計表明多達85%以上的人對語音識別的信息 查詢服務系統的性能表示滿意。
可以預測在近五到十年內,語音識別系統的應用將更加廣泛。各種各樣的語音識別系統產品將出現在市場上。人們也將調整自己的說話方式以適應各種各樣 的識別系統。在短期內還不可能造出具有和人相比擬的語音識別系統,要建成這樣一個系統仍然是人類面臨的一個大的挑戰,我們只能一步步朝著改進語音識別系統 的方向一步步地前進。至于什么時候可以建立一個像人一樣完善的語音識別系統則是很難預測的。就像在60年代,誰又能預測今天超大規模集成電路技術會對我們 的社會產生這么大的影響。
評論
查看更多