Meta宣布推出一個全新的AI 模型Image Joint Embedding Predictive Architecture (I-JEPA),可通過對圖像的自我監督學習來學習世界的抽象表征,實現比現有模型更準確地分析和完成未完成的圖像。
目前相關的訓練代碼和模型已開源,I-JEPA 論文則計劃在下周的 CVPR 2023 上發表。
根據介紹,I-JEPA 結合了 Meta 首席 AI 科學家 Yann LeCun 所提倡的類人推理方式,幫助避免 AI 生成圖像常見的一些錯誤,比如多出的手指。
I-JEPA 在多項計算機視覺任務上表現出色,且計算效率比其他廣泛使用的計算機視覺模型高得多。
I-JEPA 學習的表征也可以用于許多不同的應用程序,而無需進行大量微調。
例如,項目團隊在 72 小時內使用 16 個 A100 GPU 訓練了一個 632M 參數的視覺轉換器模型,I-JEPA 在 ImageNet 上的 low-shot 分類中性能表現最優,每個類只有 12 個標記示例。
其他方法通常需要 2 到 10 倍的 GPU 時間,并且在用相同數量的數據進行訓練時錯誤率更高。 I-JEPA 背后的想法是以更類似于人類一般理解的抽象表示來預測缺失的信息。
I-JEPA 使用抽象的預測目標,潛在地消除了不必要的 pixel-level 細節,從而使模型學習更多語義特征。
另一個引導 I-JEPA 產生語義表征的核心設計選擇是多塊掩碼策略。
具體來說,項目團隊證明了使用信息豐富的(空間分布的)上下文來預測包含語義信息(具有足夠大的規模)的大塊的重要性。
I-JEPA 中的預測器可以看作是一個原始的(和受限的)世界模型,它能夠從部分可觀察的上下文中模擬靜態圖像中的空間不確定性。
更重要的是,這個世界模型是語義的,因為它預測圖像中不可見區域的高級信息,而不是 pixel-level 細節。
為了解模型捕獲的內容,團隊還訓練了一個隨機解碼器,將 I-JEPA 預測的表征映射回像素空間。
這種定性評估表明該模型正確地捕獲了位置不確定性并生成了具有正確姿勢的高級對象部分(例如,狗的頭、狼的前腿)。
簡而言之,I-JEPA 能夠學習對象部分的高級表示,而不會丟棄它們在圖像中的局部位置信息。
審核編輯:劉清
-
轉換器
+關注
關注
27文章
8741瀏覽量
147679 -
gpu
+關注
關注
28文章
4766瀏覽量
129189 -
計算機視覺
+關注
關注
8文章
1700瀏覽量
46062
原文標題:Meta開源I-JEPA,“類人” AI 模型
文章出處:【微信號:OSC開源社區,微信公眾號:OSC開源社區】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論