神經(jīng)機(jī)器翻譯(NMT)關(guān)注的是通過(guò) AI 在不同人類(lèi)語(yǔ)言之間進(jìn)行翻譯的過(guò)程。2015 年,蒙特利爾學(xué)習(xí)算法研究所的研究人員開(kāi)發(fā)出了一項(xiàng)新的算法模型,最終讓機(jī)器給出了對(duì)應(yīng)的翻譯。一夜之間,像谷歌翻譯這樣的翻譯軟件質(zhì)量得到了大幅度提升。
盡管此次改進(jìn)非常顯著,但它仍需要兩種語(yǔ)言的句子對(duì),例如:“I like to eat”和“me gusta comer”分別為英語(yǔ)和法語(yǔ)中的“我想要吃”。對(duì)于從烏爾都語(yǔ)到英語(yǔ)等沒(méi)有句子對(duì)的語(yǔ)言翻譯而言,翻譯系統(tǒng)則顯得無(wú)能為力。從那時(shí)起,研究人員就開(kāi)始構(gòu)建無(wú)需句子對(duì)也能翻譯的系統(tǒng),無(wú)監(jiān)督神經(jīng)機(jī)器翻譯(UNMT)就是其一。
去年 10 月末,來(lái)自西班牙圣塞巴斯蒂安巴斯克大學(xué)(UPV)和互聯(lián)網(wǎng)科技公司 Facebook 人工智能研究院(FAIR)的兩支團(tuán)隊(duì),向2018ICLR分別遞交了各自的最新研究成果——無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò)翻譯模型。
當(dāng)時(shí),兩篇論文共同表明,神經(jīng)網(wǎng)絡(luò)可以在沒(méi)有平行文本的情況下學(xué)習(xí)翻譯。
這意味著該模型將突破原有的神經(jīng)機(jī)器翻譯(NMT)需要足夠大的平行語(yǔ)料庫(kù)的限制,創(chuàng)造了一種可以使用單語(yǔ)語(yǔ)料庫(kù)進(jìn)行訓(xùn)練的翻譯模型,并克服了平行語(yǔ)料庫(kù)不足的問(wèn)題。從社會(huì)學(xué)的角度講,這將有助于我們翻譯一些語(yǔ)言已經(jīng)丟失了的文字,或者讓機(jī)器去實(shí)時(shí)翻譯一些稀有語(yǔ)言,如斯瓦西里語(yǔ)和白俄羅斯語(yǔ)。
過(guò)去一年間,不斷有研究人員試圖通過(guò)無(wú)監(jiān)督學(xué)習(xí)用大量無(wú)標(biāo)記數(shù)據(jù)訓(xùn)練以進(jìn)一步提高系統(tǒng)的翻譯能力。Facebook、紐約大學(xué)、巴斯克大學(xué)、索邦大學(xué)的研究團(tuán)隊(duì)成果顯著,成功讓機(jī)器在不知道“house”的西班牙對(duì)應(yīng)詞是“casa”的情況下翻譯出來(lái)。
近日,F(xiàn)acebook 人工智能實(shí)驗(yàn)室再次公布了有關(guān)無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò)翻譯的最新模型,相當(dāng)于用 10 萬(wàn)個(gè)參考譯文訓(xùn)練過(guò)的監(jiān)督模型。“在機(jī)器翻譯領(lǐng)域,這是一個(gè)重大的發(fā)現(xiàn),盡管世界上有超過(guò) 6500 種語(yǔ)言,但可利用的翻譯訓(xùn)練資源池要么不存在、要么就是太小不足以運(yùn)用在現(xiàn)有系統(tǒng)中。”
為了證明這一進(jìn)步的價(jià)值,研究人員給出了以下陳述:“ 1 個(gè) BLEU 點(diǎn)(判斷機(jī)器翻譯準(zhǔn)確度的常用指標(biāo))的進(jìn)步被視為該領(lǐng)域一項(xiàng)了不起的成就。我們的方法相當(dāng)于有 10 個(gè) BLEU 點(diǎn)的進(jìn)步?!?實(shí)際上,該項(xiàng)研究使得很多沒(méi)有平行文本的語(yǔ)言翻譯變得更為容易,如從烏爾都語(yǔ)到英語(yǔ)的翻譯。
▌研究原理
1、字節(jié)對(duì)編碼:不像此前為系統(tǒng)提供完整單詞的方式,只給系統(tǒng)提供單詞的一部分。例如,單詞“hello”可拆分為四部分,分別是“he”“l(fā)”“l(fā)”“o”。這意味系統(tǒng)可以學(xué)習(xí)“he”的譯詞,盡管系統(tǒng)此前從來(lái)沒(méi)有見(jiàn)過(guò)該詞。
2、語(yǔ)言模型:訓(xùn)練神經(jīng)網(wǎng)路學(xué)習(xí)生成在語(yǔ)言中“聽(tīng)起來(lái)不錯(cuò)”的句子。例如,這個(gè)神經(jīng)網(wǎng)絡(luò)可能會(huì)將句子“您好嘛”改為“您好嗎”。
3、反向翻譯:這是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)向后翻譯的另一個(gè)技巧。例如,如果想將西班牙語(yǔ)翻譯稱(chēng)英語(yǔ),就需要先教會(huì)神經(jīng)網(wǎng)絡(luò)從英語(yǔ)翻譯成西班牙語(yǔ),然后用它來(lái)生成合成數(shù)據(jù),從而增加已有的數(shù)據(jù)量。
▌逐字翻譯
讓系統(tǒng)學(xué)習(xí)雙語(yǔ)詞典,將一個(gè)單詞與其他語(yǔ)言的合理翻譯聯(lián)系起來(lái),即系統(tǒng)學(xué)習(xí)每種語(yǔ)言中的單詞嵌入。
訓(xùn)練嵌入詞以預(yù)測(cè)跟給定上下文中單詞近似的單詞,可以發(fā)現(xiàn)很多有趣的語(yǔ)義結(jié)構(gòu)。例如,“kitty”的近義詞是“cat”,而“kitty”的嵌入詞與“animal”相近,卻與“rocket”相差很遠(yuǎn)。
此外,不同語(yǔ)言的嵌入詞有相似的領(lǐng)域結(jié)構(gòu),這在于世界各地的人都擁有相同的物理環(huán)境。例如,英語(yǔ)中的單詞“cat”和“furry”之間的關(guān)系類(lèi)似于它們?cè)谖靼嘌勒Z(yǔ)中的相應(yīng)翻譯(“gato”和“peludo”),因?yàn)檫@些單詞的頻率和其上下文是相似的。
鑒于這些相似之處,研究人員建議使用對(duì)抗訓(xùn)練,以推導(dǎo)出一個(gè)相當(dāng)準(zhǔn)確的雙語(yǔ)詞典,無(wú)需訪問(wèn)任何平行文本,便可實(shí)現(xiàn)逐字翻譯。
▌句子修正
不過(guò),研究人員還是建議無(wú)監(jiān)督的方式進(jìn)行逐字翻譯,也有可能造成單詞丟失,或無(wú)序甚至是錯(cuò)誤。所以,接下來(lái),需要在已知大量單詞數(shù)據(jù)的基礎(chǔ)上進(jìn)行編輯,對(duì)不流暢或不符合語(yǔ)法結(jié)構(gòu)的句子進(jìn)行修正。
另外,研究人員還給出以下兩種方法,一個(gè)是基于神經(jīng)網(wǎng)絡(luò)的系統(tǒng)(NMT),一個(gè)是基于短語(yǔ)的系統(tǒng)(PBSMT)。雖然任何一種方法都可以提高翻譯質(zhì)量,但二者并用將產(chǎn)生更新的顯著效果。
據(jù)了解,PBSMT(Facebook統(tǒng)計(jì)機(jī)器翻譯)是 FAIR 此前的研究成果。該系統(tǒng)學(xué)習(xí)每種語(yǔ)言中短語(yǔ)的概率分布,并教會(huì)另一個(gè)系統(tǒng)旋轉(zhuǎn)第二組的數(shù)據(jù)點(diǎn)以匹配第一組的數(shù)據(jù)點(diǎn)。
以一個(gè)比較形象的方式展示:假設(shè)有兩個(gè)圖像,一個(gè)是杯子與蓋子彼此相鄰,另一個(gè)是蓋子在杯子上。該系統(tǒng)將學(xué)習(xí)如何在沒(méi)有蓋子的情況下,在圖像周?chē)苿?dòng)像素以生成有蓋子的圖像。
目前,F(xiàn)acebook 人工智能實(shí)驗(yàn)室將免費(fèi)開(kāi)放代碼,方便開(kāi)發(fā)者獲取搭建系統(tǒng)。
▌寫(xiě)在最后
要知道,多數(shù)現(xiàn)有的 AI 模型是通過(guò)“監(jiān)督學(xué)習(xí)”訓(xùn)練而成的,這也意味著必須耗費(fèi)大量的人力對(duì)樣本數(shù)據(jù)進(jìn)行標(biāo)記與分類(lèi)。盡管強(qiáng)化學(xué)習(xí)與生成式對(duì)抗網(wǎng)絡(luò)的出現(xiàn)從一定程度上解決了這一問(wèn)題,但數(shù)據(jù)標(biāo)記仍是目前阻礙 AI 系統(tǒng)發(fā)展的最大障礙。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4774瀏覽量
100911 -
人工智能
+關(guān)注
關(guān)注
1792文章
47443瀏覽量
239020 -
機(jī)器翻譯
+關(guān)注
關(guān)注
0文章
139瀏覽量
14916
原文標(biāo)題:翻譯們又要失業(yè)?Facebook最新無(wú)監(jiān)督機(jī)器翻譯成果,BLEU提升10個(gè)點(diǎn)!
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論