當(dāng)你字正腔圓地對(duì)著智能音箱發(fā)問(wèn),得到的卻是讓人一臉懵逼的回答。使用過(guò)智能音箱或其它語(yǔ)音助手的朋友,對(duì)這一場(chǎng)景都不會(huì)陌生。
懷疑自己被割了智商稅的你可能會(huì)問(wèn):智能音箱為什么聽(tīng)不懂人話?它能變聰明嗎?
想解答這個(gè)問(wèn)題,我們需要先了解智能音箱聽(tīng)懂語(yǔ)音的工作原理。
語(yǔ)音、文本、圖片、視頻,這些信息對(duì)于機(jī)器來(lái)說(shuō),屬于“非結(jié)構(gòu)化數(shù)據(jù)”,無(wú)法直接理解。機(jī)器能夠理解并作出反饋的,是“結(jié)構(gòu)化數(shù)據(jù)”。
簡(jiǎn)單理解二者之間的區(qū)別與關(guān)系,非結(jié)構(gòu)化數(shù)據(jù)相當(dāng)于寫了一段文本的word文檔,而結(jié)構(gòu)化數(shù)據(jù)則是將這段文本進(jìn)行總結(jié)歸納的excel文檔。
當(dāng)我們向智能音箱提問(wèn)時(shí),智能音箱會(huì)先將語(yǔ)音轉(zhuǎn)化為文字,然后將文字形成結(jié)構(gòu)化數(shù)據(jù)理解并反饋,最后再將文本轉(zhuǎn)化成語(yǔ)音輸出答案。
三大流程對(duì)應(yīng)著3種技術(shù),其中ASR(自動(dòng)語(yǔ)音識(shí)別)和TTS(處理結(jié)果轉(zhuǎn)化成語(yǔ)音輸出)技術(shù)相對(duì)成熟,像ASR已廣泛應(yīng)用在語(yǔ)音轉(zhuǎn)文字、語(yǔ)音輸入法、智能翻譯筆等應(yīng)用上。據(jù)中科院2019年的測(cè)試,國(guó)內(nèi)四家主流智能音箱品牌ASR識(shí)別率均在94%以上。
智能音箱聽(tīng)不懂我們的話,問(wèn)題主要出在NLP(理解文字的意思并進(jìn)行處理)環(huán)節(jié)上。
AI在拿到文本后,需要進(jìn)行語(yǔ)料清洗、分詞、詞性標(biāo)注、實(shí)體命名識(shí)別、去除停用詞等一系列操作,才能將文本正確轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),并作出反應(yīng)。
智能音箱今天已經(jīng)可以比較“智能“地處理明確的指令問(wèn)題,比如打開(kāi)電視,今天天氣怎么樣,設(shè)定鬧鐘等。
但在開(kāi)放性語(yǔ)境下,智能音箱錯(cuò)誤頻出。這是因?yàn)榭谡Z(yǔ)文本經(jīng)常會(huì)出現(xiàn)歧義,機(jī)器難以理解,特別是在處理同音字繁多、語(yǔ)法復(fù)雜的中文時(shí),歧義的現(xiàn)象尤其多見(jiàn)。
比如“幫我上一個(gè)半小時(shí)之后的鬧鐘”,音箱基本沒(méi)法識(shí)別是半小時(shí)還是一個(gè)半小時(shí)。再比如“幫我預(yù)定一家餐廳不要日本菜“,AI大概率無(wú)法理解“不要”在句子中的含義。
面對(duì)復(fù)雜的自然語(yǔ)言,AI想要辨別、理解、消除歧義,必須要分析海量“語(yǔ)料”,也就是對(duì)人類語(yǔ)言的實(shí)例進(jìn)行學(xué)習(xí)。
供AI學(xué)習(xí)的語(yǔ)料,主要有三種來(lái)源:
第一是AI算法企業(yè)根據(jù)需求自己構(gòu)造的“語(yǔ)料庫(kù)”,比如針對(duì)特定功能,需要構(gòu)造人名庫(kù)、地名庫(kù)、歌手名庫(kù)、歌曲名庫(kù)等。
第二是從互聯(lián)網(wǎng)上大量抽取的文本,最常見(jiàn)的是從社交網(wǎng)絡(luò)中抽取,以便機(jī)器理解最新的口語(yǔ)表達(dá)方式。
最后則是用戶在與產(chǎn)品交互過(guò)程中產(chǎn)生的數(shù)據(jù),像我們與智能音箱對(duì)話的部分內(nèi)容,會(huì)被上傳進(jìn)廠商的語(yǔ)料庫(kù),供AI進(jìn)行學(xué)習(xí)。
那如果長(zhǎng)時(shí)間和智能音箱對(duì)話,是不是能讓智能音箱更懂我呢?
答案是很難。一般來(lái)說(shuō),所有的訓(xùn)練學(xué)習(xí)過(guò)程,都是在AI算法商一端完成的。算法商會(huì)根據(jù)所有用戶的數(shù)據(jù),對(duì)AI進(jìn)行訓(xùn)練、更新,而非針對(duì)某個(gè)特定用戶。
所以,要想讓智能音箱聽(tīng)懂你個(gè)人習(xí)慣性的語(yǔ)病、倒裝、口頭禪等等,目前的最好辦法,是自己手動(dòng)錄入,指定它該作出什么反應(yīng)。
雖然智能音箱技術(shù)還沒(méi)完全成熟,但在互聯(lián)網(wǎng)巨頭眼中,它卻是必須攻下來(lái)的陣地。 2019年的中國(guó)智能音箱市場(chǎng)經(jīng)歷了爆發(fā)式增長(zhǎng),總出貨量4589萬(wàn)臺(tái),同比增長(zhǎng)109.7%。其中阿里的天貓精靈,百度的小度音箱,小米的小愛(ài)音箱,三家占據(jù)了9成以上市場(chǎng)份額。
智能音箱在出貨量上漲的同時(shí)卻沒(méi)給巨頭們帶來(lái)利潤(rùn)。2019年,百度副總裁景鯤向媒體表示,百度是通過(guò)補(bǔ)貼維持了小度音箱的低價(jià)。而另?yè)?jù)業(yè)內(nèi)人士估算,每賣一臺(tái)小愛(ài)音箱,小米只賺1塊錢。
巨頭們的底層邏輯是,智能音箱很有可能成為未來(lái)家庭的控制中心,所以要用現(xiàn)在的低價(jià)策略換取未來(lái)物聯(lián)網(wǎng)時(shí)代的入場(chǎng)券。這樣的策略確實(shí)能帶來(lái)銷量的增加,但切實(shí)解決用戶的痛點(diǎn)才能保證產(chǎn)品使用率。
編輯:jq
為了提高智能音箱在用戶生活中的不可替代性,廠商都在費(fèi)盡心思給智能音箱增加新的功能,因?yàn)檎l(shuí)也不想看到當(dāng)物聯(lián)網(wǎng)時(shí)代真正到來(lái)的時(shí)候,用戶家中的智能音箱上已經(jīng)落滿了厚厚的灰塵。
編輯:jq
-
AI
+關(guān)注
關(guān)注
87文章
31490瀏覽量
269911 -
ASR
+關(guān)注
關(guān)注
2文章
43瀏覽量
18771 -
TTS
+關(guān)注
關(guān)注
0文章
42瀏覽量
10819 -
智能音箱
+關(guān)注
關(guān)注
31文章
1784瀏覽量
78714
原文標(biāo)題:智能音箱為什么聽(tīng)不懂人話?
文章出處:【微信號(hào):電子工程世界,微信公眾號(hào):電子工程世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論