色综合天天综合网看在线影院 ,手机看片国产自拍,在线免费观看亚洲

【導讀】AI理論再進一步，破解ChatGPT指日可待？

Transformer架構已經橫掃了包括自然語言處理、計算機視覺、語音、多模態等多個領域，不過目前只是實驗效果非常驚艷，對Transformer工作原理的相關研究仍然十分有限。

其中最大謎團在于，Transformer為什么僅依靠一個「簡單的預測損失」就能從梯度訓練動態（gradient training dynamics）中涌現出高效的表征？

最近田淵棟博士公布了團隊的最新研究成果，以數學嚴格方式，分析了1層Transformer（一個自注意力層加一個解碼器層）在下一個token預測任務上的SGD訓練動態。

論文鏈接：https://arxiv.org/abs/2305.16380

這篇論文打開了自注意力層如何組合輸入token動態過程的黑盒子，并揭示了潛在的歸納偏見的性質。

具體來說，在沒有位置編碼、長輸入序列、以及解碼器層比自注意力層學習更快的假設下，研究人員證明了自注意力就是一個判別式掃描算法（discriminative scanning algorithm）：

從均勻分布的注意力（uniform attention）開始，對于要預測的特定下一個token，模型逐漸關注不同的key token，而較少關注那些出現在多個next token窗口中的常見token

對于不同的token，模型會逐漸降低注意力權重，遵循訓練集中的key token和query token之間從低到高共現的順序。

有趣的是，這個過程不會導致贏家通吃，而是由兩層學習率控制的相變而減速，最后變成（幾乎）固定的token組合，在合成和真實世界的數據上也驗證了這種動態。

田淵棟博士是Meta人工智能研究院研究員、研究經理，圍棋AI項目負責人，其研究方向為深度增強學習及其在游戲中的應用，以及深度學習模型的理論分析。先后于2005年及2008年獲得上海交通大學本碩學位，2013年獲得美國卡耐基梅隆大學機器人研究所博士學位。

曾獲得2013年國際計算機視覺大會（ICCV）馬爾獎提名（Marr Prize Honorable Mentions），ICML2021杰出論文榮譽提名獎。

曾在博士畢業后發布《博士五年總結》系列，從研究方向選擇、閱讀積累、時間管理、工作態度、收入和可持續的職業發展等方面對博士生涯總結心得和體會。

揭秘1層Transformer

基于Transformer架構的預訓練模型通常只包括非常簡單的監督任務，比如預測下一個單詞、填空等，但卻可以為下游任務提供非常豐富的表征，實在是令人費解。

之前的工作雖然已經證明了Transformer本質上就是一個通用近似器（universal approximator），但之前常用的機器學習模型，比如kNN、核SVM、多層感知機等其實也是通用近似器，這種理論無法解釋這兩類模型在性能上的巨大差距。

研究人員認為，了解Transformer的訓練動態（training dynamics）是很重要的，也就是說，在訓練過程中，可學習參數是如何隨時間變化的。

文章首先以嚴謹數學定義的方式，形式化描述了1層無位置編碼Transformer的SGD在下一個token預測（GPT系列模型常用的訓練范式）上的訓練動態。

1層的Transformer包含一個softmax自注意力層和預測下一個token的解碼器層。

在假設序列很長，而且解碼器的學習速度比自注意力層快的情況下，證明了訓練期間自注意力的動態行為：

1. 頻率偏差Frequency Bias

模型會逐漸關注那些與query token大量共現的key token，而對那些共現較少的token降低注意力。

2. 判別偏差Discrimitive Bias

模型更關注那些在下一個要預測的token中唯一出現的獨特token，而對那些在多個下一個token中出現的通用token失去興趣。

這兩個特性表明，自注意力隱式地運行著一種判別式掃描（discriminative scanning）的算法，并存在歸納偏差（inductive bias），即偏向于經常與query token共同出現的獨特的key token

此外，雖然自注意力層在訓練過程中趨向于變得更加稀疏，但正如頻率偏差所暗示的，模型因為訓練動態中的相變（phase transition），所以不會崩潰為獨熱（one hot）。

學習的最后階段并沒有收斂到任何梯度為零的鞍點，而是進入了一個注意力變化緩慢的區域（即隨時間變化的對數），并出現參數凍結和學會（learned）。

研究結果進一步表明，相變的開始是由學習率控制的：大的學習率會產生稀疏的注意力模式，而在固定的自注意力學習率下，大的解碼器學習率會導致更快的相變和密集的注意力模式。

研究人員將工作中發現的SGD動態命名為掃描（scan）和snap：

掃描階段：自注意力集中在key tokens上，即不同的、經常與下一個預測token同時出現的token；其他所有token的注意力都下降。

snap階段：注意力全中幾乎凍結，token組合固定。

這一現象在簡單的真實世界數據實驗中也得到驗證，使用SGD在WikiText上訓練的1層和3層Transformer的最低自注意力層進行觀察，可以發現即使在整個訓練過程中學習率保持不變，注意力也會在訓練過程中的某一時刻凍結，并變得稀疏。
責任編輯：彭菁

阅读全文

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

Transformer

Transformer

+關注

關注
0

文章
147

瀏覽量
6316
自然語言

自然語言

+關注

關注
1

文章
291

瀏覽量
13557
ChatGPT

ChatGPT

+關注

關注
29

文章
1584

瀏覽量
8645

原文標題：田淵棟新作：打開1層Transformer黑盒，注意力機制沒那么神秘！

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關注！文章轉載請注明出處。

阿里CEO：下一個增長引擎一定是IoT

張勇說，下一個布局、下一個熱點、下一個增長的引擎一定是來自于萬物互聯的時代，來自于圍繞著萬物互聯。我們希望在萬物互聯網時代能夠和所有的合作伙伴形成一

發表于 09-10 11:25 ?868次閱讀

EMC如何成為下一個設計工程的成功因素

EMC如何成為下一個設計工程的成功因素?

發表于 08-23 11:32 ?871次閱讀

如何在下一個設計中成功集成USB 3.2 IP

如何影響使用USB Type-C連接器和電纜速度。此外，還討論了USB 3.2的實現，USB 3.2的新功能以及設計人員如何在下一個設計中成功集成USB 3.2 IP。一、USB 3.2應用許多應用都存在

發表于 03-24 17:23 ?5141次閱讀

ad7616 burst模式讀取數據時，是否可以在下一個convst啟動轉換？

ad7616 burst模式讀取數據時，是否可以在下一個convst啟動轉換，但busy還沒有拉低的情況下繼續讀取上一次轉換的數據嗎？主要是串行讀取時，有可能出現convst臨界的情況，如果這樣可以的話，能夠提升

發表于 04-15 07:50

請問ucosii任務調度當一個任務運行完后是如何跳轉到下一個任務的？

1.當一個任務運行完后是如何跳轉到下一個任務的？2.第一個任

發表于 05-10 06:06

你了解在單GPU上就可以運行的Transformer模型嗎

LSH最近鄰搜索的簡化動畫,兩個點在不同的桶這里我們有兩個點，它們投影到一個單位圓上，并隨機旋轉3次，角度不同。我們可以觀察到，它們不太可

發表于 11-02 15:19

2013年存儲行業預測Top10：大數據席卷而來，下一個大事？

12月19消息，據InfoStor雜志對存儲行業專家進行的調查，大數據席卷而來，專家對此提出了2013年存儲行業的10大預測。下一個大事是什么？

發表于 12-19 08:57 ?1869次閱讀

蘋果或成下一個諾基亞？

iPhone11泄露，還有中國特供版！網友：下一個諾基亞

發表于 08-23 11:51 ?3714次閱讀

下一個十年物聯網產業發展市場預測

為了“仰望星空”，也為了“腳踏實地”，聚焦下一個十年物聯網產業發展。我們引用了全球行業主流研究院、研究咨詢公司以及大型企業的權威數據，作為對產業航向的預測，希望可以幫助行業伙伴更深的了解行業，并

發表于 01-10 10:36 ?2976次閱讀

蘋果改變IoT江湖的下一個大招是什么?

市值2萬億美元的蘋果公司下一個大招是什么？傳言了三年的追蹤器“AirTag”最有可能成為下一個像TWS耳機那樣的爆品。

發表于 01-29 10:41 ?2744次閱讀

在下一個十年,誰將成為云戰爭的贏家?

2010年的春天，在中國第二屆IT領袖峰會的一個分論壇上，數字中國聯合會常務理事劉二飛拋出“云計算”話題，稱這是互聯網行業下一個必爭之地，請李彥宏和馬化騰講

發表于 03-03 11:37 ?3253次閱讀

從預訓練語言模型看MLM預測任務

為了解決這一問題，本文主要從預訓練語言模型看MLM預測任務、引入prompt_template的MLM預測

發表于 11-14 14:56 ?3310次閱讀

汽車軟件開發的下一個階段是什么樣的？

過去，軟件開發遵循僵化、緩慢的瀑布方法，并使用高度分散的工具鏈。開發將經歷離散的階段，每個階段都在下一個階段開始之前完成。許多開發過程是手動的，從工具鏈的一個部分到下一個部分的切換也是

發表于 11-22 10:44 ?911次閱讀

在下一個物聯網設計中實現無縫互操作性

指導視頻：在下一個物聯網設計中實現無縫互操作性

發表于 12-26 10:16 ?906次閱讀

晶體管的下一個25年

晶體管的下一個25年

發表于 11-27 17:08 ?856次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

Transformer在下一個token預測任務上的SGD訓練動態

評論

阿里CEO：下一個增長引擎一定是IoT

EMC如何成為下一個設計工程的成功因素

如何在下一個設計中成功集成USB 3.2 IP

ad7616 burst模式讀取數據時，是否可以在下一個convst啟動轉換？

請問ucosii任務調度當一個任務運行完后是如何跳轉到下一個任務的？

你了解在單GPU上就可以運行的Transformer模型嗎

2013年存儲行業預測Top10：大數據席卷而來，下一個大事？

蘋果或成下一個諾基亞？

下一個十年物聯網產業發展市場預測

蘋果改變IoT江湖的下一個大招是什么?

在下一個十年,誰將成為云戰爭的贏家?

從預訓練語言模型看MLM預測任務

汽車軟件開發的下一個階段是什么樣的？

在下一個物聯網設計中實現無縫互操作性

晶體管的下一個25年

電子發燒友