黃學(xué)東:大家好!今天我主要想和大家分享一下微軟的故事,相信一定會很激動人心。但在正式分享之前,我想介紹一下人類進(jìn)化的歷程當(dāng)中語音起到了多大的作用。
達(dá)爾文的進(jìn)化論已經(jīng)說明,最新的科學(xué)驗證也再次證明,我們?nèi)撕痛笮尚蒁NA的相似度接近99%,就那1%的區(qū)別造就了我們是這個地球的主宰。為什么呢?因為我們更聰明嗎?還是漫長的進(jìn)化過程當(dāng)中有什么其他因素?計算機(jī)視覺非常重要,但動物的視力其實比人還厲害,晚上的夜貓子看得比人更厲害,但我們?nèi)匀皇沁@個地球的主宰。最重要的原因之一是我們的語音和語言,所以大家可以在今天準(zhǔn)時地來到這個地方和我們一起討論人工智能激動人心的進(jìn)展。語音和語言對人類的進(jìn)化是起到?jīng)Q定性作用的,當(dāng)然對人工智能的進(jìn)化也有同等的重要性。
微軟在過去的幾年當(dāng)中多次創(chuàng)造了接近人類水平的人工智能進(jìn)展。以今天的ImageNet作為圖像識別的標(biāo)準(zhǔn),微軟兩年前就第一次在圖像識別斯坦福大學(xué)的ImageNet達(dá)到了超越人的水平。去年微軟又宣布公開測試級對話系統(tǒng)Switchboard的最新成果最新成果。這是語音領(lǐng)域大家都很熟悉的一個很重要的任務(wù),就是識別兩個人在電話上的交談,微軟第一次在業(yè)界達(dá)到了超過普通人的專業(yè)水平。今年在斯坦福大學(xué)的SQuAD閱讀理解挑戰(zhàn)賽,微軟再次達(dá)到了媲美人類的水平。上個月微軟再次創(chuàng)造了在中文和英文翻譯上達(dá)到了超過專業(yè)人員翻譯質(zhì)量的水平,這是前所未有的。所以這確實是一個激動人心的時刻,人類進(jìn)化的長河當(dāng)中語音起了決定性的作用,今天在人工智能的進(jìn)化當(dāng)中語音和語言會起到同樣的作用。
去年《經(jīng)濟(jì)學(xué)人》有一篇封面文章,總結(jié)了過去的四十年語音和語言的重要進(jìn)展,早在五十年代IBM就開始了機(jī)器翻譯的工作,那個時候我還沒有出生。過去的幾年當(dāng)中有三個很重大的歷史事件:蘋果第一次推出Siri,也就是手機(jī)上的個人助理。Google推出了基于神經(jīng)翻譯的產(chǎn)品,大大推動了機(jī)器翻譯的進(jìn)步。微軟第一次在業(yè)界歷史性地創(chuàng)造了超越人的自然對話系統(tǒng)——語音識別系統(tǒng)。
這張圖顯示了過去的二十年當(dāng)中語音識別的同行們通過不懈的努力,創(chuàng)造出了很多輝煌的成果,但有一條紅線,就是Switchboard錯誤率一直在10%以上,直到最近幾年因為深度學(xué)習(xí)的進(jìn)展,微軟和IBM的公開評測當(dāng)中一直起到了領(lǐng)頭羊的作用。
去年微軟是第一次達(dá)到了5.1%的水平,超過了普通轉(zhuǎn)錄人員的標(biāo)準(zhǔn),也是非常激動人心的進(jìn)展。采用的方法是組合了多種不同的深度神經(jīng)網(wǎng)絡(luò),包括ResNet、LACE和BLSTM,通過并行的處理組合成了一個工程上完美的語音識別系統(tǒng),其實在云上是不費(fèi)吹灰之力的,只是計算機(jī)的資源會比較多。
微軟在語音合成領(lǐng)域也有很多進(jìn)展。我們支持將近包括50種語言的語音合成系統(tǒng),而且它的質(zhì)量也達(dá)到了4.3 MOS, 這是非常振奮人心的。
這是微軟和哈曼音箱聯(lián)合推出的聯(lián)想語音識別系統(tǒng),喚醒智能音箱的時候不是非常自然,微軟最近和小米聯(lián)合推出了全雙工的語音對話系統(tǒng),就是喚醒以后可以連續(xù)講,不需要每次都說喚醒詞“小娜”再說語音指令。這是微軟核心的語音技術(shù)在中國落地的一個非常好的案例,它的基本思想非常簡單,就是我跟你講話,比如我見到鄧院士每次都說“鄧院士,今天你好嗎?”“鄧院士,你今天吃飯了沒有?”所以大家會覺得很煩,全雙工的系統(tǒng)只要喚醒一次,接下來就可以很自然地跟它交互。
大家可以看出,全雙工的語音交互在中國已經(jīng)落地,和小米的合作產(chǎn)品今天可以很便宜地買到一臺,讓它幫你掃地、開燈、看股票,這些都沒問題,如果實在閑得慌的話可以和小冰聊天斗嘴,這是已經(jīng)落地的產(chǎn)品。
和大家介紹一下最近微軟在機(jī)器翻譯上的重大突破。就像《經(jīng)濟(jì)學(xué)人》說過的,1954年開始IBM Wason就開始了機(jī)器翻譯的研發(fā)工作,那個時候是傳統(tǒng)的機(jī)器翻譯,根據(jù)自然語言的處理方法。后來IBM再次引導(dǎo)了新潮流,將語音識別的核心技術(shù)統(tǒng)計方法使用在機(jī)器翻譯上,Peter Brown這些人把語音翻譯的質(zhì)量推向了新高度。過去的幾年因為神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的進(jìn)步,我們再次把機(jī)器翻譯推向了新的高度,但還沒有達(dá)到人的水平。
非常振奮人心的是,今年微軟公司首次在公開測試當(dāng)中中英新聞翻譯當(dāng)中第一次達(dá)到了類人的水平,這是非常了不起的歷史性里程碑,這樣對幫助中國的聲音走向世界是毫無疑問的,因為翻譯的水平和專業(yè)人員是同等可比的。
微軟不僅是在研發(fā)上進(jìn)行推廣,實際上很多產(chǎn)品已經(jīng)落地。比如PPT,你們只要下載一個Presentation Translator的插件,所有的講話可以同聲翻譯、同聲傳錄,而且是免費(fèi)的。下載以后可以支持60種語言、100個人在課堂上同步交流。演講之前可以讓大家掃描二維碼,通過微軟翻譯的手機(jī)應(yīng)用可以加入對話。大家知道,字幕當(dāng)中只能顯示一種語言,如果是60種語言怎么辦?沒關(guān)系,也可以顯示在你的手機(jī)上面。
分享一下我個人的經(jīng)歷,我在八十年代離開清華,當(dāng)時在清華學(xué)的都是美式英語,然后到蘇格蘭愛丁堡大學(xué)留學(xué),當(dāng)時我就懵了,因為蘇格蘭教授的口音非常嚴(yán)重,當(dāng)時我就想要是有一個字幕機(jī)多好?那是三十年前的痛點,今天可以很驕傲地告訴大家,這個痛點早就可以由微軟Office免費(fèi)為大家提供同聲翻譯服務(wù)。大家可以讓教授在臺上講蘇格蘭英語,臺下可以在你的手機(jī)上看到從希臘文到廣東話的近60種語言的實時字幕翻譯。這是非常振奮人心的時刻,如果今天還有哪位同學(xué)要去蘇格蘭留學(xué),我想大家不會再為蘇格蘭英語而苦惱了。
所謂的中英翻譯達(dá)到人的水平是怎么回事?這是一個標(biāo)準(zhǔn)的新聞翻譯任務(wù),也是在業(yè)界廣泛使用的。在這之前,中國的搜狗在這個測試集上做到了最優(yōu)秀,可以看出如果要人來評估,第三行的搜狗基本上是62分,就像老師打分一樣,把這個東西翻譯過來以后如果是十全十美的學(xué)生可以拿100分,如果出了很多錯誤的話這個老師非常嚴(yán)厲,可能會給零分。在微軟技術(shù)突破之前,業(yè)界在這個測試任務(wù)上最先進(jìn)的機(jī)器翻譯系統(tǒng)是中國搜狗,達(dá)到了62.3分,現(xiàn)有的產(chǎn)品我也不說是誰的產(chǎn)品了,以免大家覺得我們對同行有不誠之意,只有54分左右。如果今天用微軟的Microsoft Translator也只有56分,勉強(qiáng)及格。微軟最新的機(jī)器翻譯突破分?jǐn)?shù)達(dá)到69分,拿到中英翻譯執(zhí)照的專業(yè)翻譯人員得出的結(jié)果是68.5分,所以如果大家是翻譯人員水平是67.3分。這是最新的機(jī)器中英翻譯第一次取得歷史性突破,對中國走向世界是非常有積極意義的。
下面簡單介紹一下這個突破是怎么回事,它的主要核心技術(shù)用的是Transformer的機(jī)器翻譯模型。
微軟亞洲研究院自主研發(fā)的Dual Translation Learning,就是大家在中英翻譯的時候,翻譯成英文后再用一下反向翻譯,就是英翻中,保證這兩種翻譯的一致性比較好,可以得到一個最高、最優(yōu)的聯(lián)合優(yōu)化目標(biāo)函數(shù)。通過這樣一個正向和反向的翻譯,我們可以大大提高現(xiàn)有機(jī)器翻譯的質(zhì)量,這是和人進(jìn)行翻譯的過程類似的機(jī)器學(xué)習(xí)的新算法,機(jī)器翻譯上取得了長足的進(jìn)步。
大家在做翻譯作業(yè)的時候翻完了一遍是不是想再翻一遍把它優(yōu)化?所以我們還有一個Deliberation,就是可以在第一次翻譯的基礎(chǔ)上同步優(yōu)化,這樣也更進(jìn)一步提高了機(jī)器翻譯的質(zhì)量。
我們還有從左到右、從右到左的聯(lián)合優(yōu)化函數(shù),再一次提高了機(jī)器翻譯的質(zhì)量,就是因為這些聯(lián)合系統(tǒng)的組合造就了我們歷史性地第一次達(dá)到了中翻英超人的水平。要做其它語言同樣是沒有問題的,我們希望其他語言和中英翻譯的落地很快就會產(chǎn)業(yè)化,再再過一些時候你們再用Microsoft Translator的時候會享受到與真人相似的機(jī)器翻譯質(zhì)量。
這是微軟公司在斯坦福大學(xué)對話文本理解上的進(jìn)步,過去的幾年當(dāng)中斯坦福大學(xué)建立了圖像認(rèn)識的標(biāo)準(zhǔn),現(xiàn)在自然語言處理方面也有一個華人教授和他的團(tuán)隊建立了閱讀理解系統(tǒng),微軟亞洲研究院和微軟的同事們又一次達(dá)到了超人的水平。
特定的認(rèn)識對話方面的水平確實是相當(dāng)高的,用的方法也像機(jī)器學(xué)習(xí)、機(jī)器翻譯的系統(tǒng)一樣有一個Embedding,通過不斷的深度優(yōu)化達(dá)到最優(yōu)的結(jié)果,就像現(xiàn)在的機(jī)器翻譯一樣。
剛才我講的過程是從認(rèn)知到感知的循環(huán)系統(tǒng),大家在對話的時候閉著眼睛也能聽懂,但聽懂的效果不是很好,睜開眼睛的話一定會幫助你理解語義,所以在人的交互過程當(dāng)中一定是Congnitive Intelligence和Perceptive Intelligience的共同進(jìn)展,現(xiàn)在自主學(xué)習(xí)、知識積累和長遠(yuǎn)規(guī)劃方面沒有多大進(jìn)展,所以大家不要聽人工智能的忽悠,現(xiàn)在我們基本上還早得很。機(jī)器翻譯現(xiàn)在是基于這兩種智能過渡的一個小成果。我們非常高興,也非常激動人心,因為從感知到認(rèn)知的過程當(dāng)中人工智能深度學(xué)習(xí)終于有了一個長足的進(jìn)步。
微軟AI的平臺把所有的認(rèn)知服務(wù)都打包到了Azure這個云上,從最底層的核心架構(gòu)到最高層的算法都有,大家可以去微軟的平臺選用、享受、分享微軟的最新人工智能研發(fā)進(jìn)展和工程化的結(jié)果。
這是第三方對微軟、Google和亞馬遜在語音和語言API方面的評估,可以看出微軟中間綠顏色的比較多,這當(dāng)然是符合大家預(yù)期的。另外想介紹一下幾個簡單的例子:極易中文學(xué)校是在西雅圖的一個創(chuàng)新。海外的很多華人學(xué)習(xí)中文非常困難,他們用微軟的語音認(rèn)知服務(wù),小孩學(xué)中文的興趣大大進(jìn)步了,不僅是興趣進(jìn)步,而且做家庭作業(yè)和掌握中文的速度也有一個長足的進(jìn)步。所以用人工智能服務(wù)于教育,幫助小孩擴(kuò)展中文文化,這在西雅圖極易中文學(xué)校已經(jīng)得到了非常高度的認(rèn)可。我們知道中國的華為公司包括Mate10都預(yù)裝了微軟認(rèn)知服務(wù)的機(jī)器翻譯系統(tǒng)。我們最近跟小米生態(tài)系統(tǒng)中要推出的魔芋翻譯機(jī),更是人工智能翻譯的一大杰出代表。
-
AI
+關(guān)注
關(guān)注
87文章
31429瀏覽量
269832 -
人工智能
+關(guān)注
關(guān)注
1793文章
47604瀏覽量
239542
原文標(biāo)題:AI 翻譯能夠取代人類?微軟黃學(xué)東:我們?nèi)栽诟兄悄芎驼J(rèn)知智能的過渡期
文章出處:【微信號:gh_ecbcc3b6eabf,微信公眾號:人工智能和機(jī)器人研究院】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論