色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Transformer在下一個token預測任務上的SGD訓練動態

CVer ? 來源:CVer ? 2023-06-12 10:11 ? 次閱讀

【導讀】AI理論再進一步,破解ChatGPT指日可待?

Transformer架構已經橫掃了包括自然語言處理、計算機視覺、語音、多模態等多個領域,不過目前只是實驗效果非常驚艷,對Transformer工作原理的相關研究仍然十分有限。

其中最大謎團在于,Transformer為什么僅依靠一個「簡單的預測損失」就能從梯度訓練動態(gradient training dynamics)中涌現出高效的表征?

最近田淵棟博士公布了團隊的最新研究成果,以數學嚴格方式,分析了1層Transformer(一個自注意力層加一個解碼器層)在下一個token預測任務上的SGD訓練動態。

aca984de-0871-11ee-962d-dac502259ad0.png

論文鏈接:https://arxiv.org/abs/2305.16380

這篇論文打開了自注意力層如何組合輸入token動態過程的黑盒子,并揭示了潛在的歸納偏見的性質。

具體來說,在沒有位置編碼、長輸入序列、以及解碼器層比自注意力層學習更快的假設下,研究人員證明了自注意力就是一個判別式掃描算法(discriminative scanning algorithm):

從均勻分布的注意力(uniform attention)開始,對于要預測的特定下一個token,模型逐漸關注不同的key token,而較少關注那些出現在多個next token窗口中的常見token

對于不同的token,模型會逐漸降低注意力權重,遵循訓練集中的key token和query token之間從低到高共現的順序。

有趣的是,這個過程不會導致贏家通吃,而是由兩層學習率控制的相變而減速,最后變成(幾乎)固定的token組合,在合成和真實世界的數據上也驗證了這種動態。

田淵棟博士是Meta人工智能研究院研究員、研究經理,圍棋AI項目負責人,其研究方向為深度增強學習及其在游戲中的應用,以及深度學習模型的理論分析。先后于2005年及2008年獲得上海交通大學本碩學位,2013年獲得美國卡耐基梅隆大學機器人研究所博士學位。

曾獲得2013年國際計算機視覺大會(ICCV)馬爾獎提名(Marr Prize Honorable Mentions),ICML2021杰出論文榮譽提名獎。

曾在博士畢業后發布《博士五年總結》系列,從研究方向選擇、閱讀積累、時間管理、工作態度、收入和可持續的職業發展等方面對博士生涯總結心得和體會。

揭秘1層Transformer

基于Transformer架構的預訓練模型通常只包括非常簡單的監督任務,比如預測下一個單詞、填空等,但卻可以為下游任務提供非常豐富的表征,實在是令人費解。

之前的工作雖然已經證明了Transformer本質上就是一個通用近似器(universal approximator),但之前常用的機器學習模型,比如kNN、核SVM、多層感知機等其實也是通用近似器,這種理論無法解釋這兩類模型在性能上的巨大差距。

acc68cbe-0871-11ee-962d-dac502259ad0.png

研究人員認為,了解Transformer的訓練動態(training dynamics)是很重要的,也就是說,在訓練過程中,可學習參數是如何隨時間變化的。

文章首先以嚴謹數學定義的方式,形式化描述了1層無位置編碼Transformer的SGD在下一個token預測(GPT系列模型常用的訓練范式)上的訓練動態。

1層的Transformer包含一個softmax自注意力層和預測下一個token的解碼器層。

acd4ddfa-0871-11ee-962d-dac502259ad0.png

在假設序列很長,而且解碼器的學習速度比自注意力層快的情況下,證明了訓練期間自注意力的動態行為:

1. 頻率偏差Frequency Bias

模型會逐漸關注那些與query token大量共現的key token,而對那些共現較少的token降低注意力。

2. 判別偏差Discrimitive Bias

模型更關注那些在下一個要預測的token中唯一出現的獨特token,而對那些在多個下一個token中出現的通用token失去興趣。

這兩個特性表明,自注意力隱式地運行著一種判別式掃描(discriminative scanning)的算法,并存在歸納偏差(inductive bias),即偏向于經常與query token共同出現的獨特的key token

此外,雖然自注意力層在訓練過程中趨向于變得更加稀疏,但正如頻率偏差所暗示的,模型因為訓練動態中的相變(phase transition),所以不會崩潰為獨熱(one hot)。

acdf2b84-0871-11ee-962d-dac502259ad0.png

學習的最后階段并沒有收斂到任何梯度為零的鞍點,而是進入了一個注意力變化緩慢的區域(即隨時間變化的對數),并出現參數凍結和學會(learned)。

研究結果進一步表明,相變的開始是由學習率控制的:大的學習率會產生稀疏的注意力模式,而在固定的自注意力學習率下,大的解碼器學習率會導致更快的相變和密集的注意力模式。

研究人員將工作中發現的SGD動態命名為掃描(scan)和snap:

掃描階段:自注意力集中在key tokens上,即不同的、經常與下一個預測token同時出現的token;其他所有token的注意力都下降。

snap階段:注意力全中幾乎凍結,token組合固定。

aceebd7e-0871-11ee-962d-dac502259ad0.png

這一現象在簡單的真實世界數據實驗中也得到驗證,使用SGD在WikiText上訓練的1層和3層Transformer的最低自注意力層進行觀察,可以發現即使在整個訓練過程中學習率保持不變,注意力也會在訓練過程中的某一時刻凍結,并變得稀疏。
責任編輯:彭菁

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Transformer
    +關注

    關注

    0

    文章

    144

    瀏覽量

    6025
  • 自然語言
    +關注

    關注

    1

    文章

    288

    瀏覽量

    13365
  • ChatGPT
    +關注

    關注

    29

    文章

    1564

    瀏覽量

    7823

原文標題:田淵棟新作:打開1層Transformer黑盒,注意力機制沒那么神秘!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    阿里CEO:下一個增長引擎定是IoT

    張勇說,下一個布局、下一個熱點、下一個增長的引擎定是來自于萬物互聯的時代,來自于圍繞著萬物互聯。我們希望在萬物互聯網時代能夠和所有的合作伙伴形成
    發表于 09-10 11:25 ?825次閱讀

    EMC如何成為下一個設計工程的成功因素

    EMC如何成為下一個設計工程的成功因素?
    的頭像 發表于 08-23 11:32 ?751次閱讀
    EMC如何成為<b class='flag-5'>下一個</b>設計工程的成功因素

    如何在下一個設計中成功集成USB 3.2 IP

    如何影響使用USB Type-C連接器和電纜速度。此外,還討論了USB 3.2的實現,USB 3.2的新功能以及設計人員如何在下一個設計中成功集成USB 3.2 IP。 、USB 3.2應用 許多應用都存在
    的頭像 發表于 03-24 17:23 ?4864次閱讀

    請問ucosii任務調度當任務運行完后是如何跳轉到下一個任務的?

    1.當任務運行完后是如何跳轉到下一個任務的?2.第一個
    發表于 05-10 06:06

    你了解在單GPU就可以運行的Transformer模型嗎

    LSH最近鄰搜索的簡化動畫,兩點在不同的桶這里我們有兩點,它們投影到單位圓,并隨機旋轉3次,角度不同。我們可以觀察到,它們不太可
    發表于 11-02 15:19

    2013年存儲行業預測Top10:大數據席卷而來,下一個大事?

    12月19消息,據InfoStor雜志對存儲行業專家進行的調查,大數據席卷而來,專家對此提出了2013年存儲行業的10大預測。下一個大事是什么?
    發表于 12-19 08:57 ?1817次閱讀

    VR體驗的下一個飛躍是什么?

    對虛擬現實的興奮不在圖表之列,但目前這代VR游戲還是很無聊嗎? VR的下一個重大飛躍是什么?開發人員如何利用這些新功能?
    的頭像 發表于 11-13 06:31 ?2587次閱讀

    蘋果或成下一個諾基亞?

    iPhone11泄露,還有中國特供版!網友:下一個諾基亞
    的頭像 發表于 08-23 11:51 ?3611次閱讀

    下一個十年物聯網產業發展市場預測

    為了“仰望星空”,也為了“腳踏實地”,聚焦下一個十年物聯網產業發展。我們引用了全球行業主流研究院、研究咨詢公司以及大型企業的權威數據,作為對產業航向的預測,希望可以幫助行業伙伴更深的了解行業,并
    的頭像 發表于 01-10 10:36 ?2768次閱讀

    蘋果改變IoT江湖的下一個大招是什么?

    市值2萬億美元的蘋果公司下一個大招是什么?傳言了三年的追蹤器“AirTag”最有可能成為下一個像TWS耳機那樣的爆品。
    的頭像 發表于 01-29 10:41 ?2616次閱讀

    在下一個十年,誰將成為云戰爭的贏家?

    2010年的春天,在中國第二屆IT領袖峰會的分論壇,數字中國聯合會常務理事劉二飛拋出“云計算”話題,稱這是互聯網行業下一個必爭之地,請李彥宏和馬化騰講
    的頭像 發表于 03-03 11:37 ?3168次閱讀

    從預訓練語言模型看MLM預測任務

    為了解決這問題,本文主要從預訓練語言模型看MLM預測任務、引入prompt_template的MLM預測
    的頭像 發表于 11-14 14:56 ?3162次閱讀

    汽車軟件開發的下一個階段是什么樣的?

    過去,軟件開發遵循僵化、緩慢的瀑布方法,并使用高度分散的工具鏈。開發將經歷離散的階段,每個階段都在下一個階段開始之前完成。許多開發過程是手動的,從工具鏈的部分到下一個部分的切換也是
    的頭像 發表于 11-22 10:44 ?807次閱讀

    在下一個物聯網設計中實現無縫互操作性

    指導視頻:在下一個物聯網設計中實現無縫互操作性
    的頭像 發表于 12-26 10:16 ?776次閱讀
    <b class='flag-5'>在下一個</b>物聯網設計中實現無縫互操作性

    晶體管的下一個25年

    晶體管的下一個25年
    的頭像 發表于 11-27 17:08 ?646次閱讀
    晶體管的<b class='flag-5'>下一個</b>25年
    主站蜘蛛池模板: 免费女人光着全身网站| 肉肉描写很细致的黄文| 小草高清视频免费直播| 国产内射AV徐夜夜| 亚洲一卡久久4卡5卡6卡7卡| 精品久久综合1区2区3区激情| 云南14学生真实初次破初视频| 免费观看成人毛片| 大桥未久电影在线观看| 小雪奶水涨翁工帮吸的推荐语录| 黑人开嫩苞| 51无码人妻精品1国产| 日本片bbbxxx| 国产性夜夜春夜夜爽1A片| 一个色综合久久| 破苞流血哭泣 magnet| 国产嫩草影院精品免费网址| 在线高清无码欧美久章草| 欧美激情一区二区三区视频| 国产成年网站v片在线观看| 亚洲中文字幕乱码熟女在线| 免费一区在线观看| 国产精品-区区久久久狼| 在线观看国产高清免费不卡| 青柠视频在线观看高清HD| 国产专区青青草原亚洲| 777EY_卡通动漫_1页| 无码区国产区在线播放| 久久久久国产精品美女毛片| 被黑人掹躁10次高潮| 亚洲综合中文| 日韩中文欧美在线视频| 久久这里只有精品无码3D| 国产伦子沙发午休系列资源曝光| 99国产这里只有精品视频| 亚洲成色WWW久久网站夜月| 男女爽爽无遮挡午夜视频在线观看| 国产色精品久久人妻无码| AV天堂午夜精品一区| 一边啪啪的一边呻吟声口述| 四房色播手机版|