語言承載了人類文化,人類需要通過語言學(xué)習(xí)知識(shí)和傳遞信息,這是人類區(qū)別于動(dòng)物界最重要的特性之一。
因此,未來的機(jī)器智能時(shí)代,機(jī)器也必然需要通過語言實(shí)現(xiàn)與人類之間的交互,似乎最近的科幻片都已經(jīng)暗示了這個(gè)問題。
現(xiàn)在的科幻就是未來的現(xiàn)實(shí),因此,讓機(jī)器聽懂世界,這是未來機(jī)器智能時(shí)代的關(guān)鍵問題,也是人類一個(gè)更大的夢想,但是,我們距離人類的這個(gè)夢想還有多遠(yuǎn)呢?
01讓機(jī)器聽懂世界承載了人類千年夢想
首先明確一個(gè)概念,讓機(jī)器聽懂世界,這里面其實(shí)蘊(yùn)含了多個(gè)歷程,包括聽懂人類語言,進(jìn)而聽懂動(dòng)物叫聲,甚至聽懂自然聲音,亦或類似地球的耳朵LIGO那樣聆聽宇宙的“聲音”。
所有這些都是極其復(fù)雜的過程,因?yàn)槲覀內(nèi)祟悓?shí)際上也沒有達(dá)到這種能力,但是我們期望機(jī)器能夠延伸人類的能力,從而實(shí)現(xiàn)人類的夢想。所以語音智能事實(shí)上承載的是幾千年來人類的偉大夢想。
那么,如何才能讓機(jī)器聽懂人類語言呢?這需要解決三個(gè)核心關(guān)鍵問題:聽見、聽準(zhǔn)和聽懂,從技術(shù)角度來看,就是拾音、識(shí)別和理解三個(gè)關(guān)鍵技術(shù)環(huán)節(jié)。
拾音是最為基礎(chǔ)的環(huán)節(jié),必須保證讓機(jī)器聽得見聲音,這部分主要是聲學(xué)問題;
識(shí)別是將符合要求的聲音轉(zhuǎn)化成文字,這部分主要是語音識(shí)別的問題;
理解則是根據(jù)識(shí)別出來的文字,準(zhǔn)確理解人類的指令甚或情感。
鑒于語音智能設(shè)備已經(jīng)大量出現(xiàn)在我們生活場景之中,當(dāng)前技術(shù)的核心關(guān)鍵就是聲學(xué)問題和語義理解。
02近場語音是機(jī)器聽懂人類的率先嘗試
近場語音交互主要是指人類距離機(jī)器不超過30厘米范圍的語音識(shí)別技術(shù),這項(xiàng)技術(shù)利用距離巧妙回避了真實(shí)場景下復(fù)雜的聲學(xué)問題,可以理解為一種實(shí)驗(yàn)室理想環(huán)境下的語音交互技術(shù)。
近場語音識(shí)別從上世紀(jì)五十年代就開始研究,但是長期沒有實(shí)質(zhì)性進(jìn)展,直到蘋果在2010年推出Siri的應(yīng)用,這才引起了全球的關(guān)注。到現(xiàn)在為止,近場語音交互技術(shù)已經(jīng)比較成熟,平均識(shí)別率可以達(dá)到95%以上。
但是近場語音交互受到了真實(shí)場景的巨大制約,并沒有展現(xiàn)出來語音交互可以解放雙手的先進(jìn)性,因此在很多場景中,事實(shí)上近場語音交互都是雞肋一般的存在,并沒有發(fā)揮出真正的威力。
直到遠(yuǎn)場語音交互技術(shù)的出現(xiàn),成功解決了真實(shí)場景下的復(fù)雜聲學(xué)問題以后,至少技術(shù)達(dá)到了用戶認(rèn)可的門檻,語音交互才真正出現(xiàn)了替代鍵盤鼠標(biāo)和觸摸屏的可能性。
03遠(yuǎn)場語音將語音智能落地到真實(shí)場景
遠(yuǎn)場語音交互主要解決30厘米到5米范圍內(nèi)的語音交互問題,這個(gè)范圍事實(shí)上就是人類之間溝通交流的最佳距離,距離太近容易觸發(fā)自我保護(hù)意識(shí),而距離太遠(yuǎn)則會(huì)增大交流難度。
注意語音交互并非只是語音問題,人類的交互其實(shí)是一個(gè)綜合的過程,包括了表情、眼神、肢體動(dòng)作等等一系列影響因素。
遠(yuǎn)場語音交互的歷史是比較短暫的,這項(xiàng)技術(shù)以前長期沒有實(shí)質(zhì)性突破,直到2016年末,全球才真正開始重視這項(xiàng)技術(shù),并且短短一年時(shí)間,引領(lǐng)全球市場都進(jìn)入了激烈博弈的階段。
遠(yuǎn)場語音交互的代表產(chǎn)品自然就是智能音箱,盤點(diǎn)一下全球巨頭在智能音箱的布局就可窺得一二。亞馬遜的Echo發(fā)布四年已然影響深遠(yuǎn),谷歌的Home劍走偏鋒以技術(shù)做博弈,微軟的Invoke則仍然堅(jiān)持工程師定義產(chǎn)品的文化......
注意,這里還是特別強(qiáng)調(diào)智能音箱只是遠(yuǎn)場語音交互的突破口,并非什么語音的唯一入口,因?yàn)槲磥淼臋C(jī)器智能時(shí)代,比如電視、冰箱、汽車都有可能成為重要入口。但是智能音箱又是非常重要的,因?yàn)椴还墚a(chǎn)品形態(tài)怎樣變化,其本質(zhì)的核心其實(shí)還是智能音箱的技術(shù)架構(gòu)。
04聽懂世界還有哪些必須解決的問題?
若讓機(jī)器聽懂世界,遠(yuǎn)場語音交互技術(shù)也僅是個(gè)嘗試而已,事實(shí)上遠(yuǎn)場語音技術(shù)本身也只是剛剛起步,即便5米以內(nèi),其噪聲抑制、回聲抵消、混響去除、遠(yuǎn)場喚醒和遠(yuǎn)場識(shí)別等核心技術(shù)還存在諸多缺陷。
但是技術(shù)一直在迭代發(fā)展,特別是當(dāng)技術(shù)落地場景以后,源源不斷的真實(shí)數(shù)據(jù)和客戶需求將帶動(dòng)技術(shù)更加快速的發(fā)展。
從技術(shù)層面來看,讓機(jī)器聽懂世界涉及了數(shù)學(xué)、物理學(xué)、語言學(xué)、醫(yī)學(xué)、計(jì)算機(jī)學(xué)等各學(xué)科的知識(shí),很難一一枚舉出來,但是若從應(yīng)用場景來看,則相對(duì)比較簡單,讓機(jī)器聽懂世界包括了人類語言、人類情感、動(dòng)物聲音和自然聲音。
讓機(jī)器聽懂世界的技術(shù)正在全球快速的演化,相信不久的將來,我們肯定能看到更加智能的機(jī)器。
因此,既不要抨擊當(dāng)前的人工智能技術(shù),也不要盛贊現(xiàn)在的基礎(chǔ)科技技術(shù),保持一顆平靜的心,正確給予科技界和產(chǎn)業(yè)界的支持才是對(duì)于未來最大的投資。
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28618瀏覽量
207927 -
人工智能
+關(guān)注
關(guān)注
1793文章
47605瀏覽量
239549 -
智能語音
+關(guān)注
關(guān)注
10文章
789瀏覽量
48843
原文標(biāo)題:讓機(jī)器聽懂世界,觸及人類夢想還有多遠(yuǎn)?
文章出處:【微信號(hào):haierhope,微信公眾號(hào):HOPE開放創(chuàng)新平臺(tái)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論