色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

詳解一種簡(jiǎn)單而有效的Transformer提升技術(shù)

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:南大NLP ? 作者:NAACL2021 吳震 ? 2021-04-09 09:50 ? 次閱讀

01研究背景及動(dòng)機(jī)

近些年,Transformer[1]逐漸成為了自然語(yǔ)言處理中的主流結(jié)構(gòu)。為了進(jìn)一步提升Transformer的性能,一些工作通過(guò)引入額外的結(jié)構(gòu)或知識(shí)來(lái)提升Transformer在特定任務(wù)上的表現(xiàn)。盡管如此,過(guò)參數(shù)化(over-parameterization)和過(guò)擬合(overfitting)一直是Transformer中的一個(gè)顯著問(wèn)題。作為一種正則化技術(shù),Dropout常被用來(lái)緩解模型的過(guò)擬合問(wèn)題[2]。和引入額外結(jié)構(gòu)或知識(shí)的工作相比,dropout的一個(gè)優(yōu)勢(shì)是不需要額外的計(jì)算開銷和外部資源。因此,本文的出發(fā)點(diǎn)在于,能否通過(guò)融合不同的dropout技術(shù)來(lái)進(jìn)一步提升Transformer的性能甚至達(dá)到state-of-the-art效果?

為此,我們提出UniDrop技術(shù),從細(xì)粒度到粗粒度將三種不同層次的dropout整合到Transformer結(jié)構(gòu)中,它們分別為feature dropout、structure dropout和data dropout 。Feature dropout (FD),即傳統(tǒng)的dropout技術(shù)[2],通常應(yīng)用在網(wǎng)絡(luò)的隱層神經(jīng)元上。Structure dropout (SD)是一種較粗粒度的dropout,旨在隨機(jī)drop模型中的某些子結(jié)構(gòu)或組件。Data dropout (DD)作為一種數(shù)據(jù)增強(qiáng)方法,通常用來(lái)隨機(jī)刪除輸入sequence的某些tokens。在UniDrop中,我們從理論上分析了這三層dropout技術(shù)在Transformer正則化過(guò)程中起到了不同的作用,并在8個(gè)機(jī)器翻譯任務(wù)上和8個(gè)文本分類任務(wù)上驗(yàn)證了UniDrop的有效性。

02UniDrop

2.1Transformer結(jié)構(gòu)

UniDrop旨在提升Transformer的性能。在UniDrop中,feature dropout和structure dropout的使用與網(wǎng)絡(luò)結(jié)構(gòu)密切相關(guān)。因此,我們簡(jiǎn)單回顧Transformer的網(wǎng)絡(luò)結(jié)構(gòu)。

f27843de-98d3-11eb-8b86-12bb97331649.png

圖1:標(biāo)準(zhǔn)Transformer結(jié)構(gòu)和Feature Dropout

如圖1(a)所示,Transformer由多個(gè)相同的block堆疊而成,每個(gè)block包含兩個(gè)sub-layer,分別為multi-head self-attention layer和position-wise fully connected feed-forward layer,每個(gè)sub-layer后都使用了殘差連接和層正則(Add&Norm)。

Multi-head Attention:Multi-head attention sub-layer包含多個(gè)并行的attention head,每個(gè)head通過(guò)帶縮放的點(diǎn)乘attention將query Q和鍵值對(duì)K、V映射乘輸出,如下式所示:

f2b1ba60-98d3-11eb-8b86-12bb97331649.png

多個(gè)head的輸出最終被拼接在一起并做線性映射作為最終的multi-head attention輸出。

Position-wise Feed-Forward:這一層主要包含兩個(gè)線性映射和一個(gè)ReLU激活函數(shù):

f2beb904-98d3-11eb-8b86-12bb97331649.png

2.2Feature Dropout

如前所述,F(xiàn)eature Dropout (FD)即傳統(tǒng)的dropout技術(shù)[2],可以以一定的概率隨機(jī)抑制網(wǎng)絡(luò)中的某些神經(jīng)元。實(shí)際上,在標(biāo)準(zhǔn)的Transformer實(shí)現(xiàn)中,每個(gè)sub-layer后都默認(rèn)配置了dropout。除此之外,Transformer也在multi-head attention和feed-forward network的激活函數(shù)層添加了dropout,本文將探索它們對(duì)Transformer性能的影響:

FD-1 (attention dropout):根據(jù)公式(1),在multi-head attention中,我們可以獲得attention權(quán)重A=QKT,feature dropout FD-1被應(yīng)用在attention權(quán)重A上。

FD-2 (activation dropout):FD-2被應(yīng)用在feed-forward network sub-layer兩層線性變換間的激活函數(shù)上。

除了上面已有的feature dropout,我們?cè)陬A(yù)實(shí)驗(yàn)中發(fā)現(xiàn)Transformer仍有過(guò)擬合的風(fēng)險(xiǎn)。因此,我們額外提出兩種feature dropout添加到Transformer結(jié)構(gòu)中:

FD-3 (query, key, value dropout):FD-1直接應(yīng)用在attention權(quán)重A上,表示token i和token j之間的connection有可能被drop,一個(gè)更大的FD-1值意味著更大的概率失去sequence中一些關(guān)鍵的connection。為了緩解這種風(fēng)險(xiǎn),我們?cè)赼ttention之前的query Q、key K和value V上分別添加了dropout。

FD-4 (output dropout):我們?cè)趕oftmax分類的線性映射前也添加了dropout。具體而言,對(duì)sequence2sequence任務(wù),我們將FD-4添加到Transformer decoder中,對(duì)于文本分類任務(wù)我們將FD-4添加到Transformer encoder中。

2.3Structure Dropout

為了提升Transformer的泛化性,之前的工作已經(jīng)提出了兩種Structure Dropout (SD),分別是LayerDrop[3]和DropHead[4]。DropHead通過(guò)隨機(jī)舍棄一些attention head,從而防止multi-head attention機(jī)制被某些head主導(dǎo),最終提升multi-head attention的泛化性。相比之下,LayerDrop是一種更高級(jí)別的結(jié)構(gòu)dropout,它能隨機(jī)舍棄Transformer的某些層,從而直接降低Transformer中的模型大小。通過(guò)預(yù)實(shí)驗(yàn)分析,我們將LayerDrop添加到我們的UniDrop中。

2.4Data Dropout

Data Dropout (DD)以一定的概率p隨機(jī)刪除輸入序列中tokens。然而,直接應(yīng)用data dropout很難保留原始高質(zhì)量的樣本,對(duì)于一個(gè)長(zhǎng)度為n的sequence,我們保留住原始sequence的概率為(1-p)n,當(dāng)n較大時(shí),這個(gè)概率將會(huì)非常低。失去原始高質(zhì)量樣本對(duì)很多任務(wù)都是不利的。為了保留原始高質(zhì)量的樣本,同時(shí)又能利用data dropout進(jìn)行數(shù)據(jù)增強(qiáng),我們?cè)赨niDrop中提出了一個(gè)2-stage data dropout方案。對(duì)于給定的sequence,我們以一定的概率 pk保留原始的樣本,當(dāng)data dropout被應(yīng)用時(shí)(概率為1- pk),我們以預(yù)定的概率p來(lái)隨機(jī)刪除序列中的tokens。

2.5UniDrop整合

最終,我們將上面三種不同粒度的dropout技術(shù)集成到我們的UniDrop中,并從理論上分析了feature dropout、structure dropout、data dropout能夠正則Transformer的不同項(xiàng)并且不能相互取代,具體分析可參考論文。Figure 2是UniDrop的簡(jiǎn)單示例。

f2d2db1e-98d3-11eb-8b86-12bb97331649.png

圖2:UniDrop示例

03實(shí)驗(yàn)與分析

我們?cè)谛蛄猩桑C(jī)器翻譯)和文本分類兩個(gè)任務(wù)上來(lái)驗(yàn)證UniDrop的性能。

3.1神經(jīng)機(jī)器翻譯

我們?cè)贗WSLT14數(shù)據(jù)集上進(jìn)行了機(jī)器翻譯實(shí)驗(yàn),共4個(gè)語(yǔ)言對(duì),8個(gè)翻譯任務(wù),baseline為標(biāo)準(zhǔn)的Transformer結(jié)構(gòu),實(shí)驗(yàn)結(jié)果如表1所示:

f33983a0-98d3-11eb-8b86-12bb97331649.png

表1:不同模型在IWSLT14翻譯任務(wù)上的結(jié)果

可以看到,相比于標(biāo)準(zhǔn)的Transformer,我們的UniDrop在所有任務(wù)翻譯任務(wù)上都取得了一致且顯著的提升。為了驗(yàn)證UniDrop中每種dropout的作用,我們進(jìn)行了ablation study實(shí)驗(yàn),也在標(biāo)準(zhǔn)Transformer添加單一的dropout去驗(yàn)證它們的性能。從結(jié)果看,F(xiàn)D、SD和DD都能在一定程度上提升Transformer的性能,并能夠協(xié)同工作,最終進(jìn)一步提升Transformer的泛化性。

為了進(jìn)一步驗(yàn)證UniDrop的優(yōu)越性,我們也在廣泛被認(rèn)可的benchmarkIWSLT14 De→En翻譯任務(wù)上和其他系統(tǒng)進(jìn)行了對(duì)比。這些系統(tǒng)從不同的方面提升機(jī)器翻譯,如訓(xùn)練算法設(shè)計(jì)(Adversarial MLE)、模型結(jié)構(gòu)設(shè)計(jì)(DynamicConv)、引入外部知識(shí)(BERT-fused NMT)等。可以看到,我們的Transformer+UniDrop仍然顯著超過(guò)了其他系統(tǒng)。

f371701c-98d3-11eb-8b86-12bb97331649.png

表2:不同系統(tǒng)在IWSLT14 De→En翻譯任務(wù)上的表現(xiàn)

3.2文本分類

對(duì)于文本分類任務(wù),我們以RoBERTaBASE作為backbone,在4個(gè)GLUE數(shù)據(jù)集上和4個(gè)傳統(tǒng)的文本分類數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果如表3和表4所示:

f386802e-98d3-11eb-8b86-12bb97331649.png

表3:不同模型在GLUE tasks (dev set)上的準(zhǔn)確率

f39a732c-98d3-11eb-8b86-12bb97331649.png

表4:不同模型在傳統(tǒng)文本分類任務(wù)上的準(zhǔn)確率

可以看到,作為一個(gè)強(qiáng)大的預(yù)訓(xùn)練模型,RoBERTaBASE顯著超過(guò)了其他方法。即使如此,UniDrop仍然能夠進(jìn)一步提升RoBERTaBASE的性能,這進(jìn)一步驗(yàn)證了UniDrop對(duì)Transformer模型的有效性。

3.3分析

為了展現(xiàn)UniDrop能夠有效防止Transformer過(guò)擬合,我們畫出了不同模型在IWSLT14 De→En翻譯驗(yàn)證集上的loss曲線,如圖3所示:

f3b2636a-98d3-11eb-8b86-12bb97331649.png

圖3:不同模型在IWSLT14 De→En翻譯上的dev loss

可以看到,標(biāo)準(zhǔn)的Transformer結(jié)構(gòu)隨著訓(xùn)練輪數(shù)的增加,很容易出現(xiàn)過(guò)擬合現(xiàn)象。相比之下,F(xiàn)D、SD、DD都在一定程度上緩解了Transformer的過(guò)擬合問(wèn)題。在所有對(duì)比模型中,我們的UniDrop取得了最低的dev loss,并且dev loss能持續(xù)下降,直到訓(xùn)練結(jié)束。綜合來(lái)看,UniDrop在預(yù)防Transformer過(guò)擬合問(wèn)題上取得了最好的表現(xiàn)。

此外,我們也進(jìn)行了細(xì)粒度的ablation study實(shí)驗(yàn)來(lái)探究不同的feature dropout以及我們2-stage data dropout對(duì)Transformer性能的影響,結(jié)果如表5所示:

f4117ee0-98d3-11eb-8b86-12bb97331649.png

表5:Ablation Study

可以看到,F(xiàn)D-3比FD-1帶來(lái)更多的提升,這也驗(yàn)證了我們之前的分析,僅使用FD-1對(duì)提升multi-head attention的泛化性來(lái)說(shuō)是不夠的。另外,表5表明我們提出的2-stage data dropout策略對(duì)提升性能是有幫助的,這體現(xiàn)了保留原始高質(zhì)量樣本的必要性。

04總結(jié)與展望

過(guò)擬合是Transformer結(jié)構(gòu)中一個(gè)常見的問(wèn)題,dropout技術(shù)常被用來(lái)防止模型過(guò)擬合。本文中,我們提出了一種集成的dropout技術(shù)UniDrop,它由細(xì)粒度到粗粒度,將三種不同類型的dropout(FD、SD、DD)融合到Transformer結(jié)構(gòu)中。我們從理論上分析UniDrop中的三種dropout技術(shù)能夠從不同的方面防止Transformer過(guò)擬合,在機(jī)器翻譯和文本分類任務(wù)上的實(shí)驗(yàn)結(jié)果也體現(xiàn)了UniDrop的有效性和優(yōu)越性,更重要的,它不需要額外的計(jì)算開銷和外部資源。更多的細(xì)節(jié)、結(jié)果以及分析請(qǐng)參考原論文。
編輯:lyn

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Dropout
    +關(guān)注

    關(guān)注

    0

    文章

    13

    瀏覽量

    10151
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    147

    瀏覽量

    6313
  • 自然語(yǔ)言處理
    +關(guān)注

    關(guān)注

    1

    文章

    625

    瀏覽量

    13907

原文標(biāo)題:UniDrop:一種簡(jiǎn)單而有效的Transformer提升技術(shù)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 0人收藏

    評(píng)論

    相關(guān)推薦

    提升技術(shù)實(shí)力,突破職業(yè)瓶頸

    必備的核心競(jìng)爭(zhēng)力。賽盛技術(shù)培訓(xùn)部,作為業(yè)內(nèi)知名的培訓(xùn)機(jī)構(gòu),憑借豐富的經(jīng)驗(yàn)和強(qiáng)大的教學(xué)資源,推出了系列面向工程師的線上實(shí)戰(zhàn)特訓(xùn)課程,旨在幫助學(xué)員快速掌握先進(jìn)的技術(shù)
    的頭像 發(fā)表于 02-11 18:00 ?469次閱讀
    <b class='flag-5'>提升技術(shù)</b>實(shí)力,突破職業(yè)瓶頸

    港大提出SparX:強(qiáng)化Vision Mamba和Transformer的稀疏跳躍連接機(jī)制

    本文分享香港大學(xué)計(jì)算和數(shù)據(jù)科學(xué)學(xué)院俞益洲教授及其研究團(tuán)隊(duì)發(fā)表于 AAAI 2025 的論文——SparX,一種強(qiáng)化 Vision Mamba 和 Transformer 的稀疏跳躍連接機(jī)制,性能強(qiáng)大
    的頭像 發(fā)表于 01-03 09:28 ?470次閱讀
    港大提出SparX:強(qiáng)化Vision Mamba和<b class='flag-5'>Transformer</b>的稀疏跳躍連接機(jī)制

    一種使用LDO簡(jiǎn)單電源電路解決方案

    本期我們介紹一種使用LDO簡(jiǎn)單電源電路解決方案,該方案可以處理12V/24V、多節(jié)鋰離子電池和4節(jié)干電池等相對(duì)較高的輸入電壓。
    的頭像 發(fā)表于 12-04 16:05 ?644次閱讀
    <b class='flag-5'>一種</b>使用LDO<b class='flag-5'>簡(jiǎn)單</b>電源電路解決方案

    Transformer模型的具體應(yīng)用

    如果想在 AI 領(lǐng)域引領(lǐng)輪新浪潮,就需要使用到 Transformer
    的頭像 發(fā)表于 11-20 09:28 ?1212次閱讀
    <b class='flag-5'>Transformer</b>模型的具體應(yīng)用

    自動(dòng)駕駛中直說(shuō)的BEV+Transformer到底是個(gè)啥?

    (Bird’s Eye View)+Transformer”是兩個(gè)方向的技術(shù),BEV是一種全新的3D坐標(biāo)系,而Transformer則是一種
    的頭像 發(fā)表于 11-07 11:19 ?994次閱讀
    自動(dòng)駕駛中<b class='flag-5'>一</b>直說(shuō)的BEV+<b class='flag-5'>Transformer</b>到底是個(gè)啥?

    一種提升無(wú)人機(jī)小物體跟蹤精度的方法

    這篇文章提出了一種新穎的目標(biāo)跟蹤方法SFTrack,針對(duì)無(wú)人機(jī)(UAV)視頻中的獨(dú)特挑戰(zhàn),采用了三簡(jiǎn)單有效的策略,尤其是在處理低置信度檢測(cè)、小規(guī)模物體和無(wú)人機(jī)運(yùn)動(dòng)方面表現(xiàn)出色。通過(guò)在
    的頭像 發(fā)表于 11-01 10:23 ?677次閱讀
    <b class='flag-5'>一種</b><b class='flag-5'>提升</b>無(wú)人機(jī)小物體跟蹤精度的方法

    一種簡(jiǎn)單高效配置FPGA的方法

    本文描述了一種簡(jiǎn)單高效配置FPGA的方法,該方法利用微處理器從串行外圍接口(SPI)閃存配置FPGA設(shè)備。這種方法減少了硬件組件、板空間和成本。
    的頭像 發(fā)表于 10-24 14:57 ?1214次閱讀
    <b class='flag-5'>一種</b><b class='flag-5'>簡(jiǎn)單</b>高效配置FPGA的方法

    英偉達(dá)推出歸Transformer,革命性提升LLM訓(xùn)練速度

    英偉達(dá)團(tuán)隊(duì)近日在AI領(lǐng)域投下了枚震撼彈,他們提出了一種全新的神經(jīng)網(wǎng)絡(luò)架構(gòu)——?dú)wTransformer(nGPT)。這創(chuàng)新架構(gòu)基于超球
    的頭像 發(fā)表于 10-23 11:30 ?676次閱讀

    重啟解決PLC故障的具體表現(xiàn)

    重啟PLC作為一種簡(jiǎn)單而有效的故障排除手段,往往能夠解決許多臨時(shí)性或軟件層面的故障。
    的頭像 發(fā)表于 08-30 14:16 ?1171次閱讀

    一種供電總線技術(shù)POWERBUS二總線

    首先給大家介紹一種總線技術(shù)Powerbus總線,特性: 1.總線可供電,通訊和供電無(wú)需電氣隔離 2.總線抗干擾能力強(qiáng),可與市電并走 3.可支持總線電流20A(2400bps) 4.具備總線短路保護(hù)
    發(fā)表于 07-23 13:38

    Transformer能代替圖神經(jīng)網(wǎng)絡(luò)嗎

    Transformer作為一種在處理序列數(shù)據(jù)方面表現(xiàn)出色的深度學(xué)習(xí)模型,自其提出以來(lái),已經(jīng)在自然語(yǔ)言處理(NLP)、時(shí)間序列分析等領(lǐng)域取得了顯著的成果。然而,關(guān)于Transformer是否能完全代替圖神經(jīng)網(wǎng)絡(luò)(GNN)的問(wèn)題,需
    的頭像 發(fā)表于 07-12 14:07 ?717次閱讀

    Transformer語(yǔ)言模型簡(jiǎn)介與實(shí)現(xiàn)過(guò)程

    在自然語(yǔ)言處理(NLP)領(lǐng)域,Transformer模型以其卓越的性能和廣泛的應(yīng)用前景,成為了近年來(lái)最引人注目的技術(shù)Transformer模型由谷歌在2017年提出,并首次應(yīng)用于
    的頭像 發(fā)表于 07-10 11:48 ?2619次閱讀

    rup是一種什么模型

    RUP(Rational Unified Process,統(tǒng)建模語(yǔ)言)是一種軟件開發(fā)過(guò)程模型,它是一種迭代和增量的軟件開發(fā)方法。RUP是由Rational Software公司(現(xiàn)為IBM的
    的頭像 發(fā)表于 07-09 10:13 ?1912次閱讀

    一種擺脫有線束縛的通信技術(shù)--無(wú)線傳輸

    常見的近距離無(wú)線通信技術(shù)主要有以下幾種:藍(lán)牙(Bluetooth):這是一種近距離、低功耗的無(wú)線通訊標(biāo)準(zhǔn),支持設(shè)備短距離通信(10m左右)。常用于無(wú)線鼠標(biāo)、無(wú)線鍵盤或手持移動(dòng)終端等設(shè)備。ZigBee
    的頭像 發(fā)表于 06-07 08:10 ?2973次閱讀
    <b class='flag-5'>一種</b>擺脫有線束縛的通信<b class='flag-5'>技術(shù)</b>--無(wú)線傳輸

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

    模型仍以Transformer為基礎(chǔ)進(jìn)行訓(xùn)練。Transformer一種基于自注意力機(jī)制的編碼器-解碼器結(jié)構(gòu),其核心由編碼器和解碼器組成,每個(gè)部分均由多個(gè)相同層堆疊而成。自注意力機(jī)制使
    發(fā)表于 05-05 12:17
    主站蜘蛛池模板: 97人摸人人澡人人人超一碰 | 欧洲电影巜肉欲丛林 | 亚洲综合网国产精品一区 | 诱受H嗯啊巨肉各种play | 亚洲精品无码不卡在线播放he | 欧美色妞AV重囗味视频 | 99国产精品久久人妻无码 | 国产区在线不卡视频观看 | 福利视频一二三在线观看 | 高h肉辣文黄蓉 | 性欧美videosex18嫩 | 久久综合中文字幕佐佐木希 | 精品午夜寂寞影院在线观看 | 欧美深夜0000XXXX疯狂 | 草草久久久亚洲AV成人片 | 伊人久久精品线影院 | 免费人成网站永久 | 好看的电影网站亚洲一区 | 日本aa大片 | 久久免费视频在线观看6 | 免费看片A级毛片免费看 | 小黄文纯肉污到你湿 | 久久视频在线视频观看精品15 | 晓雪老师我要进你里面好爽 | 久久九九久精品国产尤物 | 成人欧美一区二区三区白人 | 成人免费一级毛片在线播放视频 | 国产亚洲免费观看 | 国产99视频精品免费播放 | 视频网站入口在线看 | 亚洲精品色情婷婷在线播放 | 成人动漫百度影音 | 亚洲 欧美无码原创区 | 亚洲免费黄色片 | 亚洲精品午夜久久久伊人 | 国产 有码 无码 电影 | 免费被靠视频动漫 | 国产午夜三级一区二区三 | u15女少天堂写真 | 羞羞答答影院在线 | 国偷自产视频一区二区99 |

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品