色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NeurIPS 2023 | 全新的自監(jiān)督視覺預(yù)訓(xùn)練代理任務(wù):DropPos

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2023-10-15 20:25 ? 次閱讀

wKgaomUt5x-ACdCTAAGMXym4GcM184.png

論文標(biāo)題:

DropPos: Pre-Training Vision Transformers by Reconstructing Dropped Positions

論文鏈接:

https://arxiv.org/pdf/2309.03576

代碼鏈接:

https://github.com/Haochen-Wang409/DropPos

今天介紹我們?cè)?/span>自監(jiān)督視覺預(yù)訓(xùn)練領(lǐng)域的一篇原創(chuàng)工作,目前 DropPos 已被 NeurIPS 2023 接收,相關(guān)代碼已開源,有任何問題歡迎在 GitHub 提出。

wKgaomUt5x-AGHoyAAAl6LOgh3c767.png

TL;DR

我們提出了一種全新的自監(jiān)督代理任務(wù) DropPos,首先在 ViT 前向過程中屏蔽掉大量的 position embeddings(PE),然后利用簡(jiǎn)單的 cross-entropy loss 訓(xùn)練模型,讓模型重建那些無 PE token 的位置信息。這個(gè)及其簡(jiǎn)單的代理任務(wù)就能在多種下游任務(wù)上取得有競(jìng)爭(zhēng)力的性能。 wKgaomUt5x-ASb1ZAAAuhh9-KLM140.png

Motivation

在 MoCo v3 的論文中有一個(gè)很有趣的現(xiàn)象:ViT 帶與不帶 position embedding,在 ImageNet 上的分類精度相差無幾。

wKgaomUt5x-AdJkaAAGHYR2BQYo430.png

▲ 表1. MoCo v3 中的實(shí)驗(yàn)現(xiàn)象(原文第6頁) 這一實(shí)驗(yàn)結(jié)果背后,隱含著「ViT 的建模主要關(guān)注于不同 patch 的 visual appearence,對(duì)于 position 的 awareness 較差」這一信息。即,如果把圖片切 patch 然后再隨機(jī)打亂之后,ViT 能夠在亂序的情況下準(zhǔn)確識(shí)別該圖片的類別。這一點(diǎn)和人類直覺有很大出入。同時(shí),有可能是因?yàn)?ViT 過擬合到了 ImageNet 這個(gè)特定數(shù)據(jù)集導(dǎo)致的。 基于此,我們首先做了一些 tiny experiments,探究 position awareness 與模型的識(shí)別準(zhǔn)確率到底是否有正相關(guān)的關(guān)系。具體來說,我們凍結(jié)了 MoCo v3 和 MAE 的 pre-train/fine-tune 權(quán)重,在其后接一個(gè)全連接層,并用 position classification 這個(gè)任務(wù)做 linear probing。即,在 forward 過程中隨機(jī)丟棄 75% 的 PE,并把 ViT 的 feature 映射到 196 維(一張圖有 14×14 個(gè) patch),期望讓最終的線性層正確分類該 patch 的位置。

wKgaomUt5yCAVVELAAEfrmu0PPI839.png

▲ 表2. Position awareness 對(duì)于下游任務(wù)的影響 表中結(jié)果表明,fine-tune 后的模型權(quán)重,更適合預(yù)測(cè)位置這一任務(wù)。說明「強(qiáng)大的對(duì)位置的建模能力,對(duì)于圖像分類任務(wù)是有益的」?;诖?,我們想探究一種能夠提升 ViT 對(duì)于位置建模能力的全新自監(jiān)督代理任務(wù)。 一種可行的方案是「簡(jiǎn)單地把 ViT 的 PE 隨機(jī)丟棄一部分,然后讓模型預(yù)測(cè)這些不帶 PE 的 token 的精確位置」,即 reconstruct Dropped Positions(DropPos)。

wKgaomUt5yCAed8gAAM-8rHKVIM341.png

▲ 圖1. DropPos 與 CL 和 MIM 的對(duì)比 DropPos 有如下的優(yōu)勢(shì):
  • 對(duì)比 CL,DropPos 不需要精心設(shè)計(jì)的數(shù)據(jù)增強(qiáng)(例如 multi-crop)。
  • 對(duì)比 MIM,DropPos 不需要精心設(shè)計(jì)的掩碼策略和重建目標(biāo)。
下面我們介紹 DropPos 的具體運(yùn)行流程。

wKgaomUt5yCAFfmtAAAtJ0fTuoM718.png

Method

wKgaomUt5yCASSQ-AAOx52KBOos108.png

▲ 圖2. DropPos 的流程圖 即使 DropPos 的想法很直觀也很簡(jiǎn)單,但這類方法一直沒有成為預(yù)訓(xùn)練的主流,主要是由于在設(shè)計(jì)上有以下三個(gè)難點(diǎn):
  1. 如果簡(jiǎn)單地把所有 PE 丟棄,讓模型直接重建每個(gè) patch 的位置,會(huì)導(dǎo)致上下游的 discrepency。因?yàn)橄掠稳蝿?wù)需要 PE,而上游預(yù)訓(xùn)練的模型又完全沒見過 PE。
  2. ViT 對(duì)于 long-range 的建模能力很強(qiáng),這個(gè)簡(jiǎn)單的位置重建任務(wù)可能沒辦法讓模型學(xué)到非常 high-level 的語義特征。
  3. 看上去相似的不同 patch(例如純色的背景)的位置無需被精準(zhǔn)重建,因此決定哪些 patch 的位置需要被重建非常關(guān)鍵。

針對(duì)上述難點(diǎn),我們提出了三個(gè)解決手段:
  1. 針對(duì)問題一,我們采用了一個(gè)簡(jiǎn)單的隨機(jī)丟棄策略。每次訓(xùn)練過程中丟棄 75% 的 PE,保留 25% 的 PE。
  2. 針對(duì)問題二,我們采取了高比例的 patch mask,既能提高代理任務(wù)的難度,又能加快訓(xùn)練的速度。
  3. 針對(duì)問題三,我們提出了 position smoothing 和 attentive reconstruction 的策略。

3.1 DropPos 前向過程

wKgaomUt5yCACzwiAAVXL_R1--s142.png

算法1. DropPos 的前向過程 DropPos 的前向過程包括兩段 mask,分別是第一步 patch mask(類似 MAE),和第二步的 position mask(用可學(xué)習(xí)的 position mask 代替 dropped positions)。具體可以參見上方的偽代碼。

3.2 Objective

我們使用了一個(gè)最簡(jiǎn)單的 cross-entropy loss 作為預(yù)訓(xùn)練的目標(biāo)函數(shù):

wKgaomUt5yCAVq8jAAA_BQl0Sc8745.png

其中,o 是模型的輸出,即第 i 個(gè) patch 的預(yù)測(cè)位置是 j 的 logit,y 是真實(shí)的位置信息。 gamma 是第一步的 patch mask ratio,N 為總 patch 數(shù)量。 是 0-1 的 position mask,1 表示該 patch 帶有 PE,不應(yīng)當(dāng)被重建,而 0 表示該 patch 不帶 PE,需要被重建。 我們接下來引入 position smoothing 和 attentive reconstruction 技術(shù)來松弛這個(gè)問題,以解決相似但不同 patch 的位置重建問題。 3.2.1 Position Smoothing 我們采用一個(gè)高斯核來平滑原本的 position targetswKgaomUt5yGAObccAAArmkbdDAM974.pngwKgaomUt5ySAW9-vAAA_rRBMW0w439.png此處,w(i, j) 表示當(dāng)真實(shí)位置為 i,而預(yù)測(cè)位置為 j 時(shí),平滑后的 position target。 此外,我們還讓 sigma 自大變小,讓模型一開始不要過分關(guān)注精確的位置重建,而訓(xùn)練后期則越來越關(guān)注于精準(zhǔn)的位置重建。 3.2.2 Attentive Reconstruction 我們采用 [CLS] token 和其他 patch 的相似度作為親和力矩陣,作為目標(biāo)函數(shù)的額外權(quán)重。wKgaomUt5ySAHMbeAAA87bNqupg699.pngwKgaomUt5ySALccxAAA4_CySCkw423.png其中 f 為不同 token 的特征,tau 為超參數(shù),控制了 affinity 的平滑程度。 wKgaomUt5ySAX1QEAAAr2pbNr48823.png

Experiments

4.1 與其他方法的對(duì)比

wKgaomUt5ySAKJNiAAR2Qt6CMIo385.pngwKgaomUt5ySAbZfnAAYLKoO_85k333.png

4.2 消融實(shí)驗(yàn)

本文主要有四個(gè)超參:patch mask ratio(gamma),position mask ratio(gamma_pos),sigma,和 tau。wKgaomUt5yWADXvuAAYb7tm27Ko423.pngwKgaomUt5yWAZ3AkAAVY4GYYZXw365.png由表,我們可以得出一些比較有趣的結(jié)論:
  1. 一般來說,更高的 position 重建精度會(huì)帶來更高的下游任務(wù)性能。
  2. 上述結(jié)論存在例外:當(dāng) sigma = 0 時(shí),即不做位置平滑時(shí),位置預(yù)測(cè)精度高,而下游任務(wù)表現(xiàn)反而低;當(dāng) tau = inf 時(shí),即不做 attentive reconstruction 時(shí),位置預(yù)測(cè)精度高,而下游表現(xiàn)反而低。
  3. 因此,過分關(guān)注于預(yù)測(cè)每一個(gè) patch 的精確的位置,會(huì)導(dǎo)致局部最優(yōu),對(duì)于下游任務(wù)不利。

wKgaomUt5yWAfIinAAc8UwSp5q0239.png

上圖是 DropPos 位置重建的可視化結(jié)果,黑色 patch 代表的是前向過程中被 mask 掉的 patch;白色 patch 的位置被錯(cuò)誤重建,而剩余 patch 的位置被精準(zhǔn)重建。 DropPos 在極端情況(例如 gamma=0.75)時(shí),依然可以做到大部分 patch 的精準(zhǔn)重建。 ·


原文標(biāo)題:NeurIPS 2023 | 全新的自監(jiān)督視覺預(yù)訓(xùn)練代理任務(wù):DropPos

文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:NeurIPS 2023 | 全新的自監(jiān)督視覺預(yù)訓(xùn)練代理任務(wù):DropPos

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    知行科技大模型研發(fā)體系初見效果

    11月,知行科技作為共同第一作者提出的Strong Vision Transformers Could BeExcellent Teachers(ScaleKD),以預(yù)訓(xùn)練ViT(視覺
    的頭像 發(fā)表于 12-27 09:38 ?129次閱讀
    知行科技大模型研發(fā)體系初見效果

    KerasHub統(tǒng)一、全面的預(yù)訓(xùn)練模型庫

    深度學(xué)習(xí)領(lǐng)域正在迅速發(fā)展,在處理各種類型的任務(wù)中,預(yù)訓(xùn)練模型變得越來越重要。Keras 以其用戶友好型 API 和對(duì)易用性的重視而聞名,始終處于這一動(dòng)向的前沿。Keras 擁有專用的內(nèi)容庫,如用
    的頭像 發(fā)表于 12-20 10:32 ?121次閱讀

    時(shí)空引導(dǎo)下的時(shí)間序列監(jiān)督學(xué)習(xí)框架

    【導(dǎo)讀】最近,香港科技大學(xué)、上海AI Lab等多個(gè)組織聯(lián)合發(fā)布了一篇時(shí)間序列無監(jiān)督預(yù)訓(xùn)練的文章,相比原來的TS2Vec等時(shí)間序列表示學(xué)習(xí)工作,核心在于提出了將空間信息融入到預(yù)
    的頭像 發(fā)表于 11-15 11:41 ?285次閱讀
    時(shí)空引導(dǎo)下的時(shí)間序列<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b>學(xué)習(xí)框架

    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

    神經(jīng)網(wǎng)絡(luò),特別是預(yù)訓(xùn)練的基礎(chǔ)模型研究得到了廣泛的應(yīng)用,但其仍然主要依賴于在大量樣本上的批量式訓(xùn)練。本報(bào)告將探討實(shí)現(xiàn)模型的增量式訓(xùn)練,針對(duì)深度神經(jīng)網(wǎng)絡(luò)在增量式學(xué)習(xí)新
    的頭像 發(fā)表于 10-18 08:09 ?239次閱讀
    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

    蘋果揭示AI新動(dòng)向:Apple Intelligence模型在谷歌云端芯片上預(yù)訓(xùn)練

    蘋果公司在最新的技術(shù)論文中披露了一項(xiàng)重要信息,其全新的人工智能系統(tǒng)Apple Intelligence所依賴的模型并非傳統(tǒng)上大型科技公司首選的NVIDIA GPU,而是選擇了在谷歌設(shè)計(jì)的云端芯片上進(jìn)行預(yù)訓(xùn)練。這一決定不僅打破了行
    的頭像 發(fā)表于 07-30 15:00 ?558次閱讀

    預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

    預(yù)訓(xùn)練和遷移學(xué)習(xí)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的兩個(gè)重要概念,它們?cè)谔岣吣P托阅?、減少訓(xùn)練時(shí)間和降低對(duì)數(shù)據(jù)量的需求方面發(fā)揮著關(guān)鍵作用。本文將從定義、原理、應(yīng)用、區(qū)別和聯(lián)系等方面詳細(xì)探討預(yù)
    的頭像 發(fā)表于 07-11 10:12 ?1121次閱讀

    大語言模型的預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過在海量無標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使模型學(xué)習(xí)到語言的通用知識(shí),為后續(xù)的任務(wù)微調(diào)奠定基礎(chǔ)。本文將深入探討大
    的頭像 發(fā)表于 07-11 10:11 ?449次閱讀

    LLM預(yù)訓(xùn)練的基本概念、基本原理和主要優(yōu)勢(shì)

    理解和生成自然語言的能力,為各種NLP任務(wù)提供了強(qiáng)大的支持。本文將詳細(xì)介紹LLM預(yù)訓(xùn)練的基本概念、基本原理以及主要優(yōu)勢(shì),并附上相關(guān)的代碼示例。
    的頭像 發(fā)表于 07-10 11:03 ?1114次閱讀

    神經(jīng)網(wǎng)絡(luò)如何用無監(jiān)督算法訓(xùn)練

    神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的重要組成部分,其訓(xùn)練方式多樣,其中無監(jiān)督學(xué)習(xí)是一種重要的訓(xùn)練策略。無監(jiān)督學(xué)習(xí)旨在從未標(biāo)記的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的結(jié)構(gòu)、模式或規(guī)律,從而提取有用的特征表示。這種
    的頭像 發(fā)表于 07-09 18:06 ?844次閱讀

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要概念,尤其是在自然語言處理(NLP)和計(jì)算機(jī)視覺(CV)等領(lǐng)域中得到了廣泛應(yīng)用。預(yù)
    的頭像 發(fā)表于 07-03 18:20 ?2948次閱讀

    【大語言模型:原理與工程實(shí)踐】大語言模型的預(yù)訓(xùn)練

    大語言模型的核心特點(diǎn)在于其龐大的參數(shù)量,這賦予了模型強(qiáng)大的學(xué)習(xí)容量,使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學(xué)習(xí)容量的增加,對(duì)預(yù)訓(xùn)練數(shù)據(jù)的需求也相應(yīng)
    發(fā)表于 05-07 17:10

    【大語言模型:原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

    就無法修改,因此難以靈活應(yīng)用于下游文本的挖掘中。 詞嵌入表示:將每個(gè)詞映射為一個(gè)低維稠密的實(shí)值向量。不同的是,基于預(yù)訓(xùn)練的詞嵌入表示先在語料庫中利用某種語言模型進(jìn)行預(yù)訓(xùn)練,然后將其應(yīng)
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實(shí)踐】核心技術(shù)綜述

    預(yù)訓(xùn)練和微調(diào),直到模型的部署和性能評(píng)估。以下是對(duì)這些技術(shù)的綜述: 模型架構(gòu): LLMs通常采用深層的神經(jīng)網(wǎng)絡(luò)架構(gòu),最常見的是Transformer網(wǎng)絡(luò),它包含多個(gè)注意力層,能夠捕捉輸入數(shù)據(jù)中
    發(fā)表于 05-05 10:56

    名單公布!【書籍評(píng)測(cè)活動(dòng)NO.30】大規(guī)模語言模型:從理論到實(shí)踐

    榜銷售TOP1的桂冠,可想大家對(duì)本書的認(rèn)可和支持! 這本書為什么如此受歡迎?它究竟講了什么?下面就給大家詳細(xì)~~ 本書主要內(nèi)容 本書圍繞大語言模型構(gòu)建的四個(gè)主要階段——預(yù)訓(xùn)練、有監(jiān)督微調(diào)、獎(jiǎng)勵(lì)建模
    發(fā)表于 03-11 15:16

    頂刊TIP 2023!浙大提出:基于全頻域通道選擇的的無監(jiān)督異常檢測(cè)

    Density-based方法:基于密度的方法通常采用預(yù)訓(xùn)練的模型來提取輸入圖像的有意義嵌入向量,測(cè)試圖像時(shí)通過計(jì)算嵌入表示與參考表示分布之間的相似度以得到異常分?jǐn)?shù)。這種方法在MVTec AD等數(shù)據(jù)集上取得了較高的指標(biāo)分?jǐn)?shù),但需要預(yù)
    的頭像 發(fā)表于 01-11 16:02 ?1385次閱讀
    頂刊TIP <b class='flag-5'>2023</b>!浙大提出:基于全頻域通道選擇的的無<b class='flag-5'>監(jiān)督</b>異常檢測(cè)
    主站蜘蛛池模板: 亚洲AV成人无码999WWW| 男女亲吻摸下面吃奶视频| 女人高潮特级毛片| 亚洲色 图| 国产黄a三级三级三级| 男人一生要读的书| 在线观看免费精品国产| 国内精品久久久久久久999下| 色婷婷国产麻豆AV| SM高H黄暴NP辣H调教性奴| 两性色午夜视频免费国产| 亚洲美女视频高清在线看| 国产久久亚洲美女久久| 软糯白嫩双性受h| YELLOW免费观看完整视频| 美女扒开尿口直播| 中文字幕不卡在线视频| 九九热在线视频| 亚洲欧美中文日韩视频| 国产午夜不卡在线观看视频666| 国产产乱码一二三区别免费| 欧美三级aaa| 97在线视频免费| 免费国产黄线在线播放| 在线一本码道高清| 久久www免费人成_看片高清| 亚洲欧美日韩人成 | 果冻传媒2021精品影视| 亚洲 自拍 清纯 综合图区| 国产精品日本一区二区在线播放 | 亚洲国产高清在线| 国产亚洲精品久久久久久一区二区| 宿舍BL 纯肉各种PLAY H| 国产白丝JK被疯狂输出视频| 色欲AV亚洲午夜精品无码| 囯产免费精品一品二区三区视频| 日本三区四区免费高清不卡| 处xxxx.88| 微拍秒拍99福利精品小视频| 国产免费人视频在线观看免费| 亚洲AV国产精品无码精|