自監督學習讓 AI 系統能夠從很少的數據中學習知識,這樣才能識別和理解世界上更微妙、更不常見的表示形式。
近年來,AI 產業在開發“可以從大量經過細致標記的數據中學習的 AI 系統”這個研究領域上取得了巨大進步。這種監督學習的范式在訓練專業模型方面有著非常好的成績,這類模型在完成它們針對訓練的任務時表現頗為出色。不幸的是,只靠監督學習,人工智能領域的前景是有局限的。
監督學習是構建更智能的通用模型道路上面臨的一個瓶頸。這種通用模型可以無需大量標記數據就執行多種任務并獲得新技能。實際上,想要標記世界上的所有事物是不可能做到的。還有一些任務根本沒有足夠的標記數據,例如針對一些資源匱乏的語言的翻譯系統。如果 AI 系統能夠超越訓練數據集所指定內容的范疇,對現實做出更深入、更細致的理解,那么它們就會有更多用途,并最終發展出更接近人類的 AI 智能。
在嬰兒時期,我們主要通過觀察來了解世界是如何運轉的。我們學習諸如事物恒久性和重力之類的概念,從而形成了關于世界中各種事物的通用預測模型。隨著我們成長,我們開始觀察世界,對其采取行動,再次觀察并建立假設,以通過嘗試和錯誤來解釋我們的行為是如何改變環境的。
一個可行的假設是,關于世界的通行知識,或者說常識,構成了人類和動物具備的生物智能的主要基礎。這種常識能力對于人類和動物來說都是天然存在的,但是自 AI 研究起步以來,它一直都是一項未解決的挑戰。從某種意義上說,常識就是人工智能領域的暗物質。
常識可以幫助人們學習新技能,而無需為每項任務都做大量的教學指導。例如,我們只需向小孩子展示幾張母牛的畫像,他們最后就能識別出他們看到的任何母牛。相比之下,受監督學習訓練的 AI 系統需要許多母牛圖像的樣本,即便如此也可能無法識別出特殊情況下的母牛(例如躺在沙灘上的牛)。
在幾乎沒有監督的情況下,人們是如何在大約 20 個小時的練習中學會駕駛汽車的呢?相比之下,全自動駕駛系統為什么需要動用我們最優秀的 AI 系統,接受來自人類駕駛員的數千小時數據的訓練?簡單的答案是,人類依賴的是他們之前獲得的有關世界運作方式的背景知識。
我們如何讓機器也能做到這一點呢?
我們相信,自監督學習(self-supervised learning,SSL)是建立這種背景知識,并在 AI 系統中建立一種近似常識形式的最有前途的方法之一。
自監督學習讓 AI 系統能夠從很少的數據中學習知識,這樣才能識別和理解世界上更微妙、更不常見的表示形式。自監督學習在自然語言處理(NLP)領域取得了顯著的成就,包括 Collobert-Weston 2008 模型、Word2Vec、GloVE、fastText,以及最近的 BERT、RoBERTa、XLM-R 等成果。與僅以監督方式做訓練的系統相比,以這種方式進行預訓練的系統所提供的性能要高得多。
我們最新的研究項目 SEER 利用了 SwAV 等方法,在一個包含十億張隨機未標記圖像的大型網絡上做預訓練,進而在各種視覺任務集上獲得了最頂尖的準確性水平。這一進展表明,自監督學習也可以勝任復雜現實環境中的 CV 任務。
在這篇文章中,我們會向大家分享為什么自監督學習可能有助于解鎖智能研究領域的暗物質,以及 AI 產業下一個前沿領域的細節。我們還將重點介紹關于 AI 系統中自監督學習和推理的一些最有希望的新方向,包括在不確定環境下用于預測的基于能量的模型、聯合嵌入方法和潛在變量架構。
自監督學習是預測性學習
自監督學習是利用數據的基礎結構來從數據本身獲取監督信號的。一般來說,自監督學習使用的技術是根據輸入的任何觀察到的或非隱藏的部分,來預測輸入的任何未觀察到的或隱藏的部分(或屬性)。例如,在 NLP 中很常見的例子是,我們可以隱藏句子的一部分,并從其余單詞中預測隱藏的單詞。我們還可以根據當前幀(觀察到的數據)預測視頻中的過去幀或未來幀(隱藏數據)。由于自監督學習使用的是數據本身的結構,因此它可以在多種共現模式(例如視頻和音頻)和大型數據集中利用各種監督信號,而無需依賴標記。
在自監督學習中,訓練系統以從輸入的可見部分(綠色)預測輸入的隱藏部分(灰色)
由于自監督學習是由監督信號推動的,因此與之前使用的術語“無監督學習”相比,“自監督學習”這個術語更容易被接受。無監督學習是一個定義不清、具有誤導性的術語,讓人覺得這種學習根本用不到監督。實際上,自監督學習并不是無監督的,因為它使用的反饋信號比標準的監督學習和強化學習方法要多得多。
自監督的語言與視覺學習
自監督學習對 NLP 產生了特別深遠的影響,使我們能夠在大型的未標記文本數據集上訓練 BERT、RoBERTa、XLM-R 等模型,然后將這些模型用于下游任務。這些模型在自監督階段進行預訓練,然后針對特定任務(例如分類文本主題)進行微調。在自監督的預訓練階段,系統會顯示一段簡短的文本(通常包含 1,000 個單詞),其中一些單詞已被屏蔽或替換。系統經過訓練可以預測被屏蔽或替換的單詞。通過這種方式,系統學會了表示文本的含義,這樣它就可以很好地填寫“正確的”單詞,或者說在上下文中有意義的單詞。
預測輸入的缺失部分是 SSL 預訓練的更常見的任務之一。要完成諸如“()在非洲草原上追趕()”這樣的句子,系統必須知道獅子或獵豹可以追捕羚羊或牛羚,但貓是在廚房而非熱帶草原中追逐老鼠的。訓練的結果是,系統學會了如何表示單詞的含義、單詞在句子中的作用以及整段文本的含義。
但是,這些技術不能輕松擴展到新領域,例如 CV 上。盡管 SSL 取得了令人鼓舞的早期成果,但它尚未在計算機視覺方面帶來我們在 NLP 領域中看到的那種改進(盡管這種情況將會改變)。
主要原因是,在圖像的預測任務中表示不確定性要比在單詞中表示不確定性困難得多。當系統無法準確預測缺失的單詞時(是“獅子”還是“獵豹”?),系統可以對詞匯表中所有可能的單詞打出分數或概率:“獅子”“獵豹”和其他一些掠食者拿到高分,詞匯表中其他單詞的得分都較低。
規模這么大的訓練模型還需要一種在運行時和內存方面都有很高效率,而又不影響準確性的模型架構。幸運的是,FAIR 在架構設計領域的最新創新催生了一個新的模型家族,名為 RegNets,可以完全符合這些需求。RegNet 模型都是 ConvNet,能夠擴展到數十億甚至可能是數萬億的參數,并且可以進行針對優化以適應不同的運行時和內存限制。
但是,當我們預測視頻中丟失的幀或圖像中缺少的色塊時,我們不知道如何有效地表示不確定性。我們無法列出所有可能的視頻幀,也無法給每個可能的視頻幀打出分數,因為它們的數量是無限的。盡管這一問題限制了視覺領域中 SSL 帶來的性能改進,但諸如 SwAV 之類的新 SSL 技術開始打破視覺任務中的準確性記錄。SEER 系統就是一個最佳證明,它使用了一個經過數十億樣本訓練的大型卷積網絡。
對預測中的不確定性建模
為了更好地理解這一挑戰,我們首先需要了解與 NLP 相比,CV 中預測不確定性及其建模的方式。在 NLP 中,缺失單詞的預測工作需要計算詞匯表中每個可能單詞的預測分數。雖然詞匯量本身很大,并且預測缺失單詞會帶來一些不確定性,但系統可以生成詞匯表中所有可能單詞的列表以及該位置可能出現單詞的概率估計。典型的機器學習系統會將預測問題視為分類問題,并使用巨大的所謂的 softmax 層來計算每個結果的分數,進而將原始分數轉換為單詞的概率分布以實現上述目的。使用這種技術,只要存在有限數量的可能結果,預測的不確定性就可以通過所有可能結果的概率分布來表示。
相比之下,在 CV 領域中,預測視頻中“丟失”的幀、圖像中缺少的塊或語音信號中缺失片段的類似任務需要對高維連續對象做預測,而不是對離散結果做預測。給定的視頻幀后面可以跟隨的視頻幀有無數種合理的可能。系統不可能明確表示所有可能的視頻幀并為它們給出預測分數。實際上,我們可能永遠也沒有適當地表示高維連續空間(例如所有可能視頻幀的集合)上概率分布的技術。
這似乎是一個棘手的問題。
自監督方法的統一視角
基于能量的模型(energy-based model,EBM)這一統一框架為 SSL 提供了一種思路。EBM 是一種可訓練的系統,在給定兩個輸入 x 和 y 的情況下,它能告訴我們它們彼此之間的不相容程度。例如,x 可以是一段短視頻剪輯,而 y 可以是另一個建議的視頻剪輯。機器會告訴我們 y 在多大程度上是 x 的良好后續。為了指出 x 和 y 之間的不相容程度,機器會生成一個稱為能量的數字。如果能量較低,則認為 x 和 y 相互趨于相容;否則,x 和 y 被認為是不相容的。
基于能量的模型(EBM)測量觀測值 x 與建議的預測值 y 之間的相容性。如果 x 和 y 相容,則能量很小。如果它們不相容,則能量較大。
EBM 的訓練過程包括兩部分:(1)向其展示 x 和 y 相容的示例并對其進行訓練以產生一個較低的能量(2)找到一種方法來確保對于特定 x,與 x 不相容的 y 值產生的能量比與 x 相容的 y 值更高。第一部分很簡單,但第二部分就是困難所在。
為了進行圖像識別,我們的模型將 x 和 y 這兩個圖像作為輸入。如果 x 和 y 是同一圖像的略有變形的版本,則用它們訓練該模型以使其輸出產生低能量。例如,x 可以是一輛汽車的照片,而 y 可以是同一輛汽車的照片,只是在一天中的不同時間從稍有不同的位置拍攝的,因此相比 x 中的汽車,y 中的汽車可以移動、旋轉、更大、更小,或者顯示的顏色和陰影略有不同。
聯合嵌入,暹羅網絡
一種特別適合這一用途的深度學習架構是所謂的暹羅網絡或稱聯合嵌入(joint embedding)架構。這個想法可以追溯到 Geoff Hinton 實驗室和 Yann LeCun 小組的論文(1990 年代初,這里和這里;2000 年代中,這里,這里,和這里)。它過去一直沒得到很好的重視,但自 2019 年底以來重新成為了熱門話題。聯合嵌入架構由同一網絡的兩個相同(或幾乎相同)的副本組成。一個網絡用 x 輸入,另一個網絡用 y 輸入。這些網絡生成稱為嵌入(embedding)的輸出向量,分別表示 x 和 y。第三個模塊將這些網絡頭對頭連接起來,將能量計算為兩個嵌入向量之間的距離。當模型看到同一圖像的不同變形版本時,可以輕松調整網絡參數,以使它們的輸出靠得更近。這將確保網絡生成對象的幾乎相同的表示(或嵌入),而不管該對象的特定視圖是什么樣子。
聯合嵌入架構。頂部的函數 C 產生一個標量能量,該標量能量測量由共享相同參數(w)的兩個相同的雙胞胎網絡生成的表示向量(嵌入)之間的距離。當 x 和 y 是同一圖像的稍有不同的版本時,系統經過訓練以生成一個低能量,這迫使模型為兩個圖像生成相似的嵌入向量。困難的部分是訓練模型,以便為不同的圖像生成高能量(即,不同的嵌入)。
困難在于當 x 和 y 是不同的圖像時,如何確保網絡生成高能量,即不同的嵌入向量。如果沒有特定的方法,這兩個網絡可能會愉快地忽略它們的輸入,并始終生成相同的輸出嵌入。這種現象稱為崩潰。當發生崩潰時,x 和 y 不匹配的能量不會比 x 和 y 匹配的能量更高。
有兩種避免崩潰的技術:對比方法和正則化方法。
基于能量的 SSL 的對比方法
對比方法基于以下簡單思想:構造不相容的 x 和 y 對,并調整模型的參數,以使相應的輸出能量較大。
用對比方法訓練 EBM 的方法包括同時降低訓練集中相容的(x,y)對的能量(由藍點表示),提高挑選出來的不相容的(x,y)對的能量(以綠點表示)。在這個簡單的示例中 x 和 y 都是標量,但在實際情況下,x 和 y 可以是具有數百萬個維度的圖像或視頻。找出讓能量按照預期方式漲落的不相容對是一大挑戰,需要龐大的計算資源。
通過屏蔽或替換某些輸入詞來訓練 NLP 系統的方法屬于對比方法的類別。但是它們不使用聯合嵌入架構。取而代之的是,他們使用了一種預測架構,其中模型直接生成 y 的預測。模型從文本 y 的一個完整段開始,然后通過屏蔽某些單詞來破壞它,以生成觀察值。損壞的輸入將輸入到一個大型神經網絡,該網絡經過訓練可以重現原始文本 y。未損壞的文本將被重建為自身(低重建錯誤),而已損壞的文本將被重建為自身的未損壞版本(較大的重建錯誤)。如果將重建錯誤解釋為一種能量,它將具有所需的屬性:“干凈”文本的能量較低,而“損壞”文本的能量較高。
訓練模型以恢復輸入的損壞版本的一般性技術被稱為降噪自動編碼器。這個想法的早期形式可以追溯到 1980 年代,2008 年由蒙特利爾大學的 PascalVincent 和同事們復興。這一理念被 Collobert 和 Weston 引入 NLP 領域,并由我們在谷歌的同行在 BERT 論文中發揚光大。
屏蔽語言模型是降噪自動編碼器的一個實例,它本身是對比自監督學習的一個實例。變量 y 是一個文本段;x 是文本中某些單詞被屏蔽的版本。網絡經過訓練可以重建未損壞的文本。
正如我們之前指出的,這種類型的預測架構只能對給定的輸入生成單個預測。由于模型必須能夠預測多個可能的結果,因此預測結果不是單個單詞集,而是針對每個缺失單詞位置的詞匯表中各個單詞的分數系列。
但是我們不能對圖像使用這種技術,因為我們無法枚舉所有可能的圖像。存在解決這一問題的方法嗎?簡單的回答就是不存在。在這個方向上有一些有趣的想法,但是它們尚未產生與聯合嵌入架構一樣好的結果。一種有趣的途徑是潛在變量(latent-variable)預測架構。
潛在變量預測架構。給定一個觀測值 x,該模型必須能夠生成一組由圖中的 S 形色帶表示的多個相容預測。當潛在變量 z 在一個用灰色正方形表示的集合內變化時,輸出在該組合理的預測范圍內變化。
潛在變量預測模型包含一個額外的輸入變量(z)。之所以稱其為潛在,是因為系統從未觀察到它的值。對于經過適當訓練的模型,由于潛在變量在給定的集合上變化,因此輸出預測在與輸入 x 相容的合理預測的集合上變化。
可以使用對比方法來訓練潛在變量模型。生成對抗網絡(GAN)就是一個很好的例子。批評者(或稱鑒別器)可以被視為計算能量,該能量指示輸入 y 是否看起來不錯。生成器網絡經過訓練以生成對比樣本,批評者被訓練到對比樣本以關聯高能量。
但是對比方法有一大問題:它們的訓練效率很低。在諸如圖像之類的高維空間中,一張圖像與另一張圖像的區別可以有很多表現形式。找到涵蓋所有可能與給定圖像不同之處的對比圖像集合幾乎是不可能的任務。就像托爾斯泰名著《安娜·卡列尼娜》中的名言:“幸福的家庭都是相似的;不幸的家庭都有自己的不幸。”看來,這一規則也適用于任何高維對象系列。
怎樣才能在不顯著提高許多不相容對的能量的情況下,確保不相容對的能量高于相容對的能量呢?
基于能量的 SSL 的非對比方法
應用于聯合嵌入架構的非對比方法可能是目前 SSL 視覺領域中最熱門的話題。這個領域還有大片需要探索的未知事物,但它似乎很有希望。
聯合嵌入的非對比方法包括 DeepCluster、ClusterFit、MoCo-v2、SwAV、SimSiam、Barlow Twins、來自 DeepMind 的 BYOL 等等。他們使用各種技巧,例如為一組相似的圖像計算虛擬目標嵌入(DeeperCluster、SwAV、SimSiam),或者通過架構或參數向量來讓兩種聯合嵌入架構出現細微差異(BYOL、MoCo)。BarlowTwins 則試圖最小化嵌入向量各個分量之間的冗余。
從長遠來看,也許更好的選擇是設計潛在變量預測模型的非對比方法。主要的障礙是它們需要一種方法來最小化潛在變量的容量。容納潛在變量變化的集合大小限制了消耗低能量的輸出的大小。通過最小化這一大小,可以自動以正確的方式來排布能量。
這種方法的一個成功例子是變分自編碼器(Variational Auto-Encoder,VAE),其將潛在變量設為“模糊”,從而限制了其容量。但是,尚未證明 VAE 可以為下游的視覺任務提供良好的表示。另一個成功的例子是稀疏建模(sparse modeling),但其用例僅限于簡單的架構。似乎沒有完美的方法可以限制潛在變量的容量。
未來幾年我們面臨的挑戰可能是為潛在變量基于能量的模型設計非對比方法,這種方法應該能成功生成圖像、視頻、語音和其他信號的良好表示形式,并在不需要大量標記數據的情況下在下游監督任務中獲得最佳性能。
推進視覺領域的自監督學習
最近,我們創建并開源了一種稱為 SEER 的,具有十億參數的自監督 CV 新模型,它已被證明可有效處理復雜的高維圖像數據。它基于應用于卷積網絡架構(ConvNet)的 SwAV 方法,可以用大量隨機圖像訓練,而無需任何元數據或注釋。ConvNet 足夠大,可以從龐大而復雜的數據中捕獲和學習每個視覺概念。在對 10 億張隨機、未標記和未整理的公共 Instagram 圖像集合進行預訓練,并在 ImageNet 上進行了監督微調之后,SEER 的表現超過了最先進的自監督系統,在 ImageNet 上的 top-1 準確度達到了 84.2%。
這些結果表明,我們可以將自監督的學習范式拓展到計算機視覺領域。
在 Facebook 應用自監督學習
在 Facebook,我們不僅在多個領域通過基礎、開放的科學研究推進自監督學習技術,我們還將這項前沿工作應用到了生產中,以快速提高我們平臺安全性產品中內容理解系統的準確度,
像我們的預訓練語言模型 XLM 這樣的自監督領域研究正在為 Facebook 上的許多重要應用程序提供動力——包括主動檢測仇恨言論的系統。我們已經部署了 XLM-R,該模型利用了我們的
RoBERT 架構,以改進我們在 Facebook 和 Instagram 上針對多種語言的仇恨語音分類器,這樣即使在訓練數據很少的語言中我們也可以實現仇恨語音檢測。
近年來,自監督學習的進展讓我們倍感鼓舞,盡管要讓這種方法幫助我們發現 AI 智能的暗物質還有很長的路要走。自監督是通往人類水平智能的道路上的重要一步,但這一步背后肯定有許多積累,所謂千里之行始于足下。因此,我們在努力與更大范圍內的 AI 社區合作,以實現我們在未來的某一天創造出具有人類智能的機器的目標。我們的研究已公開發布并在頂級會議上發表。我們還組織了研討會并發布了一些庫,以幫助加快這一領域的研究。
編輯:lyn
-
AI
+關注
關注
87文章
31154瀏覽量
269481 -
人工智能
+關注
關注
1792文章
47442瀏覽量
238990 -
nlp
+關注
關注
1文章
489瀏覽量
22058
原文標題:圖靈獎得主 Yann LeCun 最新文章 :自監督學習,人工智能世界的“暗物質”
文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論