自然語言技術的未來,其關鍵點是'自然'兩個字。
11月最后一天,思必馳聯合創始人、首席科學家俞凱博士在清華x-lab主辦的人工智能研習社第七課上,如此評價自然語言處理,并與現場聽眾一起暢想了這一潛力巨大的技術將走向哪里。
思必馳聯合創始人俞凱在清華演講
在這場題為《認知型口語對話智能》的講座上,俞凱認為認知交互面臨的最主要的挑戰一定不是語音,因為從語音識別的角度上來說,問題明確,只要專門向這個領域去做,絕大部分都可以優化的很好。
他認為其最大的挑戰還是對話的過程,例如針對抑郁癥患者治療的這類場景,語音對話更像是有目的的聊天,如果沒有很強的數學背景在后面做支持,是很難的,只有在一個垂直領域積累更多的數據,才能做得更好。
大數據文摘整理的俞凱博士本次講座內容如下,在不改變原意的前提下有刪改:
今天的題目叫認知型口語對話智能,核心點是兩個字:“對話”。
這兩個字不單單包含語音,還包含語言。從人機變遷講起來,我在清華待了八年時間,在這八年當中,我們經歷了人和機器在不同時代交互的幾個變遷。
我們為什么開始關心口語對話智能
今天第一個要講的問題,就是我們為什么開始關心口語對話智能。
剛開始的時候我們使用的是Windows圖形交互界面,通過機器圖形交互界面使得人和信息可以進行交流,我們奇跡般的看到了打印出來很工整的排版。而到了現在,在2011年開始,手機變成智能手機,使用開始變的非常廣泛,這個時代自然的語言(手動輸入、語音)逐漸形成了我們現在的交互手段。再往后我們發現通過口語溝通是未來智能信息獲取最核心的東西,而移動互聯網的時代,最關鍵的是這一類溝通產生了一種新的模式,那就是交互。
講座現場圖
在上世紀出現Google、百度等搜索引擎的時候,交互還是單向的,但出現智能手機之后我們的交互變成了雙向。比如蘋果的交互史,在剛開始做出來第一代iPhone的時候并沒有語音交互的能力,但經過市場調研之后發現有75%的用戶都希望有語音控制。于是,在后面兩代iPhone加入了語音控制,但到后面發現實際使用的用戶竟然不到5%,蘋果經過總結之后發現不僅僅是語音,還必須有自然語言交互。于是在iPhone4S上面出現了Siri,再次經過市場調研之后發現,大概有87%的用戶至少在一個月會使用一次Siri。
而且,他們還發現了一件事情,這87%的用戶使用Siri的時候基本上都是在調戲Siri,并不做其它的事情,這導致蘋果并不能賺到錢。這也促使了蘋果在2015年收購了一家做統計對話交互的公司VocalIQ,這會讓技術語音識別和語義連在一起形成完整的閉環,Siri就可以為我們提供新的功能了。
講座現場圖
現如今大家都說是互聯網時代,那么如今的信息發展到什么程度了呢?有一個統計顯示,到2017年年底,全世界物聯網智能設備的總數將首次超過人類總數。而且這些智能設備絕大部分是沒有或者擁有很小的屏幕,并沒有辦法進行很復雜的操作,這些設備如果想要去訪問最核心抽象復雜的信息,只能是語音或者對話的形式。這也是眾多巨頭從2014年的音箱開始,推出一系列智能音箱的原因。從技術上講,這件事情不僅僅是要解決框架的問題,還包括了對話管理、識別、合成以及我們的理解。
語音識別存在的問題和機遇
我們會碰到什么樣的問題,以及在這個過程中有多少和我們的應用相關的機會。
首先是語音識別。
語音識別是感知技術這一類里面前沿的技術,當許多人看到語音識別,第一個會想到的問題就是語音識別似乎已經被解決了,當我們使用一個包羅萬象的語音識別系統的時候,我講“疏影橫斜水清淺,暗香浮動月黃昏”這樣的東西都可以比較完整的出來。但盡管采用了深度學習的技術,仍然避免不了錯誤,它也會偶爾的有一些語音識別的錯誤出現,而我們的任務就是使得它像人一樣,在有錯誤的時候,完整的去進行人機交互,修正錯誤,這需要感知技術和認知技術相互的幫助來實現。
第二是計算能力。
語音識別的解決是與計算能力有關的,舉一個例子,剛才我在做演示的時候,這個演示的應用背后早期使用的深度神經網絡,共有7層,每層有2048個節點,輸入是1320,輸出是將近1萬,這大概有4500萬的參數,在做語音識別的時候我們是把每秒鐘的語音切成100份,每一份提取1320個向量,大家想象我在一秒鐘要讓特征向量經過100次深度神經網絡計算,之后還要在數以億計節點的搜索網絡里再去搜它,所以這個運算是非常非常復雜的。曾經有過統計,整個語音識別會分成搜索的速度和做神經網絡前向傳遞的速度,這兩個速度的比例,在傳統系統里面前向傳遞的速度占30%-40%,后面在各種各樣的語言空間搜索的速度大體占60%-70%。所以,在技術上必須突破速度的問題。
現場聽眾提問
感知智能另外一件事是如何把它做得更小。整個信息技術的變化和推進一定是和技術基礎的推進有關,性能抗噪能不能達到90%、能不能在手機手表上面也做到大詞匯等新的挑戰不斷應運而生,隨著在智能物聯網方面我們做出各種各種的優化之后,這樣的挑戰開始被一個個的克服掉。
認知這個事情更加麻煩。人機對話并不是大家想象那樣,對話也是分成很多種形態的,有的可以很好的解決,有的卻毫無頭緒。如果以不同的輪回次數來分類,大概可以分為下面幾種。第一種是模式最少的,單輪模式,即我說一句它回答一句,而且沒有什么特定的結構化語義,這種情況基本上是命令式的,十分簡單。復雜一點的則是問答,現在的經典深度學習技術很多是用來解決問答這個問題的,因為問答基本上是一問一答,你說一句它會給你一個答案,偶爾會帶有一點上下文,這并不是真正意義上多輪的東西。還有一類是閑聊,比如微軟小冰,你不停的說,它就不停的跟你聊天。閑聊的準則就是以聊得時間來定義的,曾經有一位用戶,聊了好幾個小時依然在繼續。但這里面是沒有什么目標意義的,所以閑聊要考慮的是如何把一些比較有趣的東西融入進去。
但是里面究竟有什么意義,機器是不會去關注的,只要有用戶黏性跟它一直聊下去,特點是多輪,沒什么結構化的東西。偶爾會加一些知識,現在希望把這個東西融合起來,這是方向,本質上沒有什么結構化的東西。所以閑聊這一類事情實際上更多的是怎么樣能夠把一些比較有趣的東西融進去。實事求是來講目前還缺乏一套比較扎實的理論體系,能夠真正在理論上解決掉。
最后一類是任務型的多輪對話,這類對話是有比較扎實的數學基礎的,把對話看做是一個序列決策過程。
這一技術的三個層面
如果從認知層級的結算上來講,我們會把認知技術分為三個層面。
第一種是靜態層面,我隨便說一句話,自然語言能不能理解,能不能映射到正確的意思上面去。
第二類是交互決策,意思是我在說話的時候如何進行反饋,比如我對一個機器說我要找到餐館,它要明白我想去哪、吃什么。
第三是進化,我想要便宜的東西,它卻以為我想要貴的,當它發現錯了之后下一次一定要更新自己的反饋策略,進化出自己的認知。
聊一件和各位相關的事情:大規模可定制對話智能。在講整個對話智能的時候,我們會發現在整個流程里面,每一個環節都看起來很美好,但一到專業領域的環節就會變得不一樣了。比如做對話模式,做購物的場景與金融、家庭的場景所理解的東西完全不一樣,這個時候就要看做出來的模型是否每一個場景都能識別,是否能很好的支持。在細節上面,還有很多個性化需求,例如喚醒。當我們喊小樂給我放一首歌的時候,這個小樂就是一種喚醒。但有的時候我們希望它有好幾個名字,這種需要多喚醒詞的需求在未來會出現更多。
當我們真正去做的時候,會希望在我們所使用的口語對話系統上的支撐可以定制。而大規模可定制是我們提出的新概念,在2013年我們發布了一個叫“對話工場”的平臺,2017年升級到大規模可定制的“Dialogue User Interface”,DUI,其本質上是把圖形界面和語音界面在對話交互的框架下結合在一起。
定制性的語音交互技術可以做什么?
這時候,我們會好奇,這些定制技術能做什么呢?比如可以在做實時語音識別和大詞匯語音識別的時候,做出來一個功能,當語義改變的時候,語音識別會對我們自動添加的詞做自動識別,比如我們添加了“瀧澤蘿拉”四個字,語音識別系統能自動把它加入詞表并具有識別的能力,繼而在實現理解和交互。
我們想要做一件事情,在一個車載的系統里面,自動選擇一些聲音添加進去,當想要林志玲甜甜聲音的時候,喊一聲林志玲出來,絕對不會再出來郭德綱的聲音,讓它回去它就會切換為原本的郭德綱聲音。我們希望這樣的事情可以很自由的來回切換。更進一步,我們要支持對理解和對話進行相應的定制。
在這個過程里,在我們真正背后的技術上來說,已經不再是一般的語音的和對話的交互,不再僅僅是前面我們提到的感知和認知的獨立框架。在這里要解決的問題是所謂大規模可定制的一些新技術。比如說在識別里,要解決所謂的自適應的問題。比如說話人和環境的自適應、領域主題的自適應等這些東西可以及時的去改變它,可以使得對話有很多的自適應。如果實現這些自適應規模化的話還需要有相應的系統支持。在這個過程里需要有具體的技術拆借、需要有模型定制,能夠使得它規模化的擴展,并且在個性的基礎之上去進行進化,這一類東西里會有很多新型的技術出現,但這些技術都需要技術基礎的支撐。
-
智能語音
+關注
關注
10文章
789瀏覽量
48841 -
自然語言
+關注
關注
1文章
289瀏覽量
13381
發布評論請先 登錄
相關推薦
評論