語音識別,通常稱為自動語音識別,主要是將人類語音中的詞匯內容轉換為計算機可讀的輸入,也有可能是按鍵、二進制編碼或者字符序列。但是,我們一般理解的語音識別其實都是狹義的語音轉文字的過程,簡稱語音轉文本識別,主要是識別和確認發出語音的人而非其中所包含的內容。
語音識別的目的就是讓機器聽懂人類口述的語言,包括了兩方面的含義:一是逐字逐句聽懂而不是轉化成書面的語言文字;二是對口述語言中所包含的命令或請求加以領會,做出正確回應,而不僅僅只是拘泥于所有詞匯的正確轉換。
語音識別系統根據對輸入語音的限制分類,可以將識別系統分為三類:
①特定人語音識別系統,僅考慮對于專人的話音進行識別。
②非特定人語音系統,識別的語音與人無關,通常要用大量不同人的語音數據庫對識別系統進行學習。
③多人的識別系統,通常能識別一組人的語音,或者成為特定組語音識別系統,該系統僅要求對要識別的那組人的語音進行訓練。
根據從說話的方式考慮,也可以將識別系統分為三類:
①孤立詞語音識別系統,孤立詞識別系統要求輸入每個詞后要停頓。
②連接詞語音識別系統,連接詞輸入系統要求對每個詞都清楚發音,一些連音現象開始出現。
③連續語音識別系統,連續語音輸入是自然流利的連續語音輸入,大量連音和變音會出現。
在過去5-10年,隨著技術快速迭代,語音識別市場在我國得到飛快發展,目前處于深度神經網絡階段。如今,語音識別主流廠商主要使用端到端的算法,在實驗環境準確率可高達99%以上,為推動新基建發展,5G、人工智能、云計算等作為輔助核心基礎設施的核心技術得到進一步加速發展,帶動語音識別迎來迎來了更加廣闊的發展空間,智能家居、智能音箱、智能車載和智能硬件等等都得到很好的廣泛應用。
語音識別主要趨于遠場化和融合化的方向發展,但在遠場可靠性還有很多難點沒有突破,比如多輪交互、多人噪雜等場景還有待突破,還有需求較為迫切的人聲分離等技術。新的技術應該徹底解決這些問題,讓機器聽覺遠超人類的感知能力。這不能僅僅只是算法的進步,需要整個產業鏈的共同技術升級,包括更為先進的傳感器和算力更強的芯片。
單從遠場語音識別技術來看,仍然存在很多挑戰,包括:
回聲消除技術。由于喇叭非線性失真的存在,單純依靠信號處理手段很難將回聲消除干凈,這也阻礙了語音交互系統的推廣,現有的基于深度學習的回聲消除技術都沒有考慮相位信息,直接求取的是各個頻帶上的增益,能否利用深度學習將非線性失真進行擬合,同時結合信號處理手段可能是一個好的方向。
噪聲下的語音識別仍有待突破。信號處理擅長處理線性問題,深度學習擅長處理非線性問題,而實際問題一定是線性和非線性的疊加,因此一定是兩者融合才有可能更好地解決噪聲下的語音識別問題。
語音識別的目的是讓機器可以理解人類,因此轉換成文字并不是最終的目的,如何將語音識別和語義理解結合起來可能是未來更為重要的一個方向。語音識別里的LSTM已經考慮了語音的歷史時刻信息,但語義理解需要更多的歷史信息才能有幫助,因此如何將更多上下文會話信息傳遞給語音識別引擎是一個難題。
讓機器聽懂人類語言,僅靠聲音信息還不夠,“聲光電熱力磁”這些物理傳感手段,下一步必然都要融合在一起,只有這樣機器才能感知世界的真實信息,這是機器能夠學習人類知識的前提條件;而且,機器必然要超越人類的五官,能夠看到人類看不到的世界,聽到人類聽不到的世界。
未來,相信在國家政策的強力扶持下,能夠加速在垂直行業的滲透和布局,也相信在供應商和開發者共同努力下,語音識別技術能夠更好地與其他語音交互技術及軟件功能融合,為消費者提供更優質的體驗。
文章整合自:旺龍ITLONG、eepw、個人圖書館
審核編輯:鄢孟繁
-
語音識別
+關注
關注
38文章
1741瀏覽量
112673 -
機器
+關注
關注
0文章
782瀏覽量
40735 -
二進制編碼
+關注
關注
0文章
8瀏覽量
3055
發布評論請先 登錄
相關推薦
評論