人機交互的核心對話系統
語音作為互聯網的一種入口方式,正在侵入我們的生活,人機交互的核心——對話系統,對交互的應用至關重要,人腦與機器智能的結合,能夠突破現有技術瓶頸嗎?
從整個交互系統接入用戶的輸入信息開始,包括語音、人臉、多模態情感相關的信息,我們在對話系統里面對輸入的信息進行理解,通過這個對話部分以后產生輸出,最后用文字也可以用語音合成展現出來,這就是整個流程,其中我們關注的最主要的是語音部分以及對話系統部分,其他的多模態今天的分享不會涉及太多。
國內研究語音相關的團隊主要包括科研院所、語音技術公司以及互聯網公司三部分:
科研院所主要包括高校和科學院,比如科學院里有聲學所、自動化所,高校里面研究比較多的清華、北大、西工大、科大、上海交大等,這些都是在語音圈里占有較高位置的老牌隊伍。
語音技術公司包括我們比較熟悉的科大訊飛、云知聲、極限元、思必馳等。
互聯網公司包括BAT、搜狗等擁有強大的語音技術團隊來支撐著其本身的很多業務。
在應用對話系統時,首先從語音輸入開始要有一些前端處理,包括硬件和軟件的前期處理;接下來是語音內容,說話人識別等相關的內容進行判別,對話系統根據輸入信息來進行對話邏輯的分析,以及對應語言的產生,最后由語音合成系統來合成語音,在這里重點介紹一下前端處理、語音識別、說話人識別語音合成等相關技術。
前端處理技術的研究進展
前端處理包括回升消除、噪聲抑制、混響抑制等技術,剛開始時研究前端處理的人員并不多,近年來特別是ECHO的推出,把一些遠場的問題融入到語音識別等系統中,所以這部分的研究在這幾年興起比較快,語音識別的研究從一些簡單的數據如手機的錄音擴展到遠場的語音識別,這些促進了前端處理技術的發展,在語音圈里做前端處理比較牛的應該是陳景東老師。
回聲消除:回聲消除在遠場語音識別中是比較典型功能,最典型的應用是在智能終端播放音樂的時候,遠場揚聲器播放的音樂會回傳給近端麥克風,此時就需要有效的回聲消除算法來抑制遠端信號的干擾,這是在智能設備如音響、智能家居當中都需要考慮的問題。比較復雜的回聲消除系統,近端通過麥克風陣列采集信號,遠端是雙聲道揚聲器輸出,因此近端需要考慮如何將播出形成算法跟回聲消除算法對接,遠端需要考慮如何對立體聲信號相關。
噪聲抑制:噪聲抑制可以有多通道的也可以有單通道的,今天主要介紹單通道噪聲抑制,單通道語音增強通過DNN的方法進行增強,語音信號是有一個諧波結構的,通過加入噪聲這個諧波結構會被破壞掉,語音增強的主要目的就是抬高波峰,降低波谷,這個訓練對DNN來說是比較容易的。但是也有實驗研究表明,基于DNN的語音增強對濁音段效果會比較好,但對輕音段效果并不是很好,語音的濁音段有顯著諧波結構,因此要有目的去訓練這個模型。
混響抑制:聲音在房間傳輸過程中經過墻壁或者其他障礙物的反射后到達麥克風,從而生成混響語音,混響的語音會受到房間大小、聲源麥克風的位置、室內障礙物等因素的影響,大多數的房間內混響時間大概在200–1000毫秒范圍內,如果混響時間過短,聲音會發干,枯燥無味,不具備清晰感,混響時間過長會使聲音含混不清,需要合適的聲音才能圓潤動聽。
前端處理涉及的內容比較多,除了前面提到的還包括多說話人分離、說話人移動過程中的聲音采集、不同的麥克風陣列結構、各種噪聲和房間模型如何更好的建模等。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%