為了探索AutoML在序列域中的應(yīng)用是否能夠取得的成功,谷歌的研究團隊在進行基于進化的神經(jīng)架構(gòu)搜索(NAS)之后,使用了翻譯作為一般的序列任務(wù)的代理,并找到了Evolved Transformer這一新的Transformer架構(gòu)。Evolved Transformer不僅實現(xiàn)了最先進的翻譯結(jié)果,與原始的Transformer相比,它還展示了語言建模的改進性能。
自幾年前推出以來,Google的Transformer架構(gòu)已經(jīng)應(yīng)用于從制作奇幻小說到編寫音樂和聲的各種挑戰(zhàn)。重要的是,Transformer的高性能已經(jīng)證明,當應(yīng)用于序列任務(wù)(例如語言建模和翻譯)時,前饋神經(jīng)網(wǎng)絡(luò)可以與遞歸神經(jīng)網(wǎng)絡(luò)一樣有效。雖然用于序列問題的Transformer和其他前饋模型越來越受歡迎,但它們的架構(gòu)幾乎完全是手動設(shè)計的,與計算機視覺領(lǐng)域形成鮮明對比。AutoML方法已經(jīng)找到了最先進的模型,其性能優(yōu)于手工設(shè)計的模型。當然,我們想知道AutoML在序列域中的應(yīng)用是否同樣成功。
在進行基于進化的神經(jīng)架構(gòu)搜索(NAS)之后,我們使用翻譯作為一般的序列任務(wù)的代理,我們找到了Evolved Transformer,這是一種新的Transformer架構(gòu),它展示了對各種自然語言處理(NLP)任務(wù)的有希望的改進。Evolved Transformer不僅實現(xiàn)了最先進的翻譯結(jié)果,而且與原始的Transformer相比,它還展示了語言建模的改進性能。我們是將此新模型作為Tensor2Tensor的部分發(fā)布,它可用于任何序列問題。
開發(fā)技術(shù)
要開始進化NAS,我們有必要開發(fā)新技術(shù),因為用于評估每個架構(gòu)的“適應(yīng)性”的任務(wù)——WMT'14英語-德語翻譯——計算量很大。這使得搜索比在視覺領(lǐng)域中執(zhí)行的類似搜索更加昂貴,這可以利用較小的數(shù)據(jù)集,如CIFAR-10。
這些技術(shù)中的第一種是溫啟動——在初始進化種群中播種Transformer架構(gòu)而不是隨機模型。這有助于在我們熟悉的搜索空間區(qū)域中進行搜索,從而使其能夠更快地找到更好的模型。
第二種技術(shù)是我們開發(fā)的一種稱為漸進動態(tài)障礙(PDH)(Progressive Dynamic Hurdles)的新方法,這種算法增強了進化搜索,以便為最強的候選者分配更多的資源,這與先前的工作相反,其中NAS的每個候選模型被分配相同的評估時的資源量。如果模型明顯不好,PDH允許我們提前終止對模型的評估,從而使有前途的架構(gòu)獲得更多資源。
Evolved Transformer簡介
使用這些方法,我們在翻譯任務(wù)上進行了大規(guī)模的NAS,并發(fā)現(xiàn)了Evolved Transformer(ET)。與大多數(shù)序列到序列(seq2seq)神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)一樣,它有一個編碼器,將輸入序列編碼為嵌入,解碼器使用這些嵌入構(gòu)造輸出序列;在翻譯的情況下,輸入序列是要翻譯的句子,輸出序列是翻譯。
演化變壓器最有趣的特征是其編碼器和解碼器模塊底部的卷積層,在兩個地方都以類似的分支模式添加(即輸入在加到一起之前通過兩個單獨的卷積層)。
Evolved Transformer與原始Transformer編碼器架構(gòu)的比較。注意模塊底部的分支卷積結(jié)構(gòu),它獨立地在編碼器和解碼器中形成。
這一點特別有趣,因為在NAS期間編碼器和解碼器架構(gòu)不共享,因此獨立發(fā)現(xiàn)該架構(gòu)對編碼器和解碼器都很有用,這說明了該設(shè)計的優(yōu)勢。雖然最初的Transformer完全依賴于自我關(guān)注,但Evolved Transformer是一種混合體,利用了自我關(guān)注和廣泛卷積的優(yōu)勢。
對Evolved Transformer的評估
為了測試這種新架構(gòu)的有效性,我們首先將它與我們在搜索期間使用的英語-德語翻譯任務(wù)的原始Transformer進行了比較。我們發(fā)現(xiàn)在所有參數(shù)尺寸下,Evolved Transformer具有更好的BLEU和 perplexity performance,擁有最大增益與移動設(shè)備兼容(約700萬個參數(shù)),證明了參數(shù)的有效使用。在更大的尺寸上,Evolved Transformer在WMT'14 En-De上達到了最先進的性能,BLEU得分為29.8,SacreBLEU得分為29.2。
不同尺寸的WMT'14 En-DeEvolved Transformer與原Transformer的比較。性能的最大提高發(fā)生在較小的尺寸上,而ET在較大的尺寸上也顯示出強度,優(yōu)于最大的Transformer,參數(shù)減少37.6%(要比較的模型用綠色圈出)。
為了測試普遍性,我們還在其他NLP任務(wù)上將ET與Transformer進行了比較。首先,我們研究了使用不同語言對的翻譯,發(fā)現(xiàn)ET表現(xiàn)提升,其邊緣與英語-德語相似;再次,由于其有效使用參數(shù),對于中型模型觀察到了最大的提升。我們還比較了使用LM1B進行語言建模的兩種模型的解碼器,并且看到性能提升近2個perplexity。
未來工作
這些結(jié)果是探索體系結(jié)構(gòu)搜索在前饋序列模型中應(yīng)用的第一步。Evolved Transformer作為Tensor2Tensor的一部分已開源,在那里它可以用于任何序列問題。為了提高可重復(fù)性,我們還開源了我們用于搜索的搜索空間,以及實施漸進動態(tài)障礙的Colab。我們期待著看到研究團體用新模型做了什么,并希望其他人能夠利用這些新的搜索技術(shù)!
-
谷歌
+關(guān)注
關(guān)注
27文章
6211瀏覽量
106438 -
開源
+關(guān)注
關(guān)注
3文章
3467瀏覽量
42923
原文標題:谷歌將AutoML應(yīng)用于Transformer架構(gòu),翻譯結(jié)果飆升,已開源!
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
如何使用MATLAB構(gòu)建Transformer模型

AI助力實時翻譯耳機

transformer專用ASIC芯片Sohu說明

SensiML開源了Analytics Studio AutoML引擎

英偉達推出歸一化Transformer,革命性提升LLM訓練速度
將TI TSC應(yīng)用于各種和多種功能

如何將 THVD8000 應(yīng)用于星型網(wǎng)絡(luò)系統(tǒng)

SensiML開源AutoML解決方案-Piccolo AI發(fā)布
Transformer語言模型簡介與實現(xiàn)過程
Transformer架構(gòu)在自然語言處理中的應(yīng)用
迅為RK3562核心板四核A53+MaliG52架構(gòu),應(yīng)用于商業(yè)平板電腦,視頻會議,智能家居,教育電子,醫(yī)療設(shè)備,邊緣計算,工業(yè)應(yīng)用
使用PyTorch搭建Transformer模型
Transformer 能代替圖神經(jīng)網(wǎng)絡(luò)嗎?

評論