利用計算機把一種自然語言轉(zhuǎn)變成另一種自然語言的過程就是機器翻譯。
機器翻譯對于信息時代下海量信息的捕獲無疑具有重要作用,事實上,人們對于機器翻譯的需求也與日俱增。除了專業(yè)的出版水平的翻譯,機器翻譯還包括以了解信息或以交流信息為目的的機器翻譯。
多語言翻譯是機器翻譯需要面臨的一大技術(shù)現(xiàn)實。其中,一個理想的模型是一個統(tǒng)一的具備多種語言能力的模型,在遇到新的語言時,臨時少量學(xué)習(xí)即可達(dá)到很流利的語言水平。
EMNLP 2020 最新的多語言翻譯新范式 multilingual Random Aligned Substitution Pre-training (mRASP)就成功實現(xiàn)了這一理想模型:mRASP通過預(yù)訓(xùn)練技術(shù)再在具體語種上微調(diào)即可達(dá)到領(lǐng)先的翻譯效果,其在 32 個語種上預(yù)訓(xùn)練出的統(tǒng)一模型在 47 個翻譯測試集上取得了全面顯著地提升。
不同于以往的翻譯模式,mRASP樹立了翻譯的預(yù)訓(xùn)練和微調(diào)的成功路徑。mRASP中的關(guān)鍵思想就是一種新的隨機對齊子串技術(shù),它使具有相似意義的單詞和短語更接近多種語言的表現(xiàn)空間。研究人員預(yù)先訓(xùn)練了32種語言,對聯(lián)合的mrap模型建立公共數(shù)據(jù)集。模型就是這樣對下游語言對進行微調(diào)以獲得專門的機器翻譯模型。
研究人員在不同環(huán)境下對42個翻譯方向進行了廣泛的實驗,包括跨文化的異國語言等。實驗結(jié)果表明,與傳統(tǒng)的mRASP相比,mRASP對訓(xùn)練目標(biāo)具有顯著的性能改進。這也是其第一次驗證多個低資源語言對可以用來證明豐富的資源機器翻譯,甚至可以提高關(guān)于訓(xùn)練前語料庫中從未出現(xiàn)過的外來語的翻譯質(zhì)量。
mRASP 主要針對機器翻譯任務(wù)而設(shè)計,它有三個應(yīng)用優(yōu)勢:
一是打破了資源場景的限制,不論平行雙語資源高低都能有所提升。在資源豐富的語言,比如標(biāo)準(zhǔn)英法翻譯任務(wù)上已經(jīng)有 4000 萬平行語句訓(xùn)練情況下,使用 mRASP 依然能獲得顯著提升,達(dá)到了 44.3 的 BLEU 值。
二是打破了語種數(shù)量的限制。任何語言的翻譯,無論是孟加拉語到古吉拉特語還是印地語到菲利賓語,只要是地球上的語言,mRASP 都可以直接拿來微調(diào),并且效果可期。
三是資源消耗低。相比于上百張卡的“軍備競賽”預(yù)訓(xùn)練玩法,mRASP 更平民,僅需要 8 卡訓(xùn)練一周就可以得到。
隨著計算機運算能力的提升和多語言信息資源的爆發(fā)式增長,機器翻譯技術(shù)日益精進,未來還將為普通用戶提供更加實時便捷的翻譯服務(wù)。
責(zé)任編輯:xj
-
人工智能
+關(guān)注
關(guān)注
1792文章
47410瀏覽量
238925 -
機器翻譯
+關(guān)注
關(guān)注
0文章
139瀏覽量
14914
發(fā)布評論請先 登錄
相關(guān)推薦
評論