色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于視覺transformer的高效時空特征學(xué)習(xí)算法

CVer ? 來源:ECCV 2022 ? 作者:ECCV 2022 ? 2022-12-12 15:01 ? 次閱讀

二、背景

高效的時空建模(Spatiotemporal modeling)是視頻理解和動作識別的核心問題。相較于圖像的Transformer網(wǎng)絡(luò),視頻由于增加了時間維度,如果將Transformer中的自注意力機制(Self-Attention)簡單擴展到時空維度,將會導(dǎo)致時空自注意力高昂的計算復(fù)雜度和空間復(fù)雜度。許多工作嘗試對時空自注意力進(jìn)行分解,例如ViViT和Timesformer。這些方法雖然減小了計算復(fù)雜度,但會引入額外的參數(shù)量。本文提出了一種簡單高效的時空自注意力Transformer,在對比2D Transformer網(wǎng)絡(luò)不增加計算量和參數(shù)量情況下,實現(xiàn)了時空自注意力機制。并且在Sthv1&Sthv2, Kinetics400, Diving48取得了很好的性能。

三、方法

視覺Transofrmer通常將圖像分割為不重疊的塊(patch),patch之間通過自注意力機制(Self-Attention)進(jìn)行特征聚合,patch內(nèi)部通過全連接層(FFN)進(jìn)行特征映射。每個Transformer block中,包含Self-Attention和FFN,通過堆疊Transformer block的方式達(dá)到學(xué)習(xí)圖像特征的目的。

在視頻動作識別領(lǐng)域,輸入的數(shù)據(jù)是連續(xù)采樣的多幀圖像(常用8幀、16幀、32幀等)學(xué)習(xí)視頻的時空特征,不僅要學(xué)習(xí)單幀圖像的空間視覺特征,更要建模幀之間的時域特征。本文提出一種基于視覺transformer的高效時空特征學(xué)習(xí)算法,具體來說,我們通過將patch按照一定的規(guī)則進(jìn)行移動(patch shift),把當(dāng)前幀中的一部分patch移動到其他幀,同時其他幀也會有一部分patch移動到當(dāng)前幀。經(jīng)過patch移動之后,對每一幀圖像的patch分別做Self-Attention,這一步學(xué)習(xí)的特征就同時包含了時空特征。具體思想可以由下圖所示:

9564e2d0-7944-11ed-8abf-dac502259ad0.png

在常用的2D圖像視覺Transformer網(wǎng)絡(luò)結(jié)構(gòu)上,將上述patch shift操作插入到self-attention操作之前即可,無需額外操作,下圖是patch shift transformer block,相比其他視頻transformer的結(jié)構(gòu),我們的操作不增加額外的計算量,僅需進(jìn)行內(nèi)存數(shù)據(jù)移動操作即可。對于patch shift的移動規(guī)則,我們提出幾種設(shè)計原則:1. 不同幀的塊盡可能均勻地分布。2.合適的時域感受野。3.保持一定的移動塊比例。具體的分析,讀者可以參考正文。

我們對通道移動(Channel shift) 與 塊移動(patch shift)進(jìn)行了詳盡的分析和討論,這兩種方法的可視化如下:

95ab73a8-7944-11ed-8abf-dac502259ad0.png

通道移動(Channel shift) 與 塊移動(patch shift)都使用了shift操作,但channel shift是通過移動所有patch的部分channel的特征來實現(xiàn)時域特征的建模,而patch shift是通過移動部分patch的全部channel與Self-attention來實現(xiàn)時域特征的學(xué)習(xí)??梢哉J(rèn)為channel shift的時空建模在空域是稠密的,但在channel上是稀疏的。而patch shift在空域稀疏,在channel上是稠密的。因此兩種方法具有一定的互補性?;诖?,我們提出交替循環(huán)使用 patchshift和channel shift。網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示:

95c20c4e-7944-11ed-8abf-dac502259ad0.png

四、實驗結(jié)果

1. 消融實驗

95eafd70-7944-11ed-8abf-dac502259ad0.png

2. 與SOTA方法進(jìn)行對比

961daf2c-7944-11ed-8abf-dac502259ad0.png

969a1bf2-7944-11ed-8abf-dac502259ad0.png

9761b4dc-7944-11ed-8abf-dac502259ad0.png

3. 運行速度

可以看到,PST的實際推理速度和2D的Swin網(wǎng)絡(luò)接近,但具有時空建模能力,性能顯著優(yōu)于2D Swin。和Video-Swin網(wǎng)絡(luò)相比,則具有明顯的速度和顯存優(yōu)勢。

9789f1a4-7944-11ed-8abf-dac502259ad0.png

4. 可視化結(jié)果

圖中從上到下依次為Kinetics400, Diving48, Sthv1的可視化效果。PST通過學(xué)習(xí)關(guān)聯(lián)區(qū)域的相關(guān)性,并且特征圖能夠反映出視頻當(dāng)中動作的軌跡。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 內(nèi)存
    +關(guān)注

    關(guān)注

    8

    文章

    3045

    瀏覽量

    74205

原文標(biāo)題:ECCV 2022 | 阿里提出:快速動作識別的時空自注意力模型

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    地平線ViG基于視覺Mamba的通用視覺主干網(wǎng)絡(luò)

    Vision Mamba的成功預(yù)示著將視覺表征學(xué)習(xí)轉(zhuǎn)換為線性復(fù)雜度視覺序列表征學(xué)習(xí)具有巨大的潛力。盡管以Vision Mamba為代表的線性視覺
    的頭像 發(fā)表于 01-08 09:33 ?97次閱讀
    地平線ViG基于<b class='flag-5'>視覺</b>Mamba的通用<b class='flag-5'>視覺</b>主干網(wǎng)絡(luò)

    NPU與機器學(xué)習(xí)算法的關(guān)系

    在人工智能領(lǐng)域,機器學(xué)習(xí)算法是實現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復(fù)雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學(xué)習(xí)等機器
    的頭像 發(fā)表于 11-15 09:19 ?556次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

    語言的表達(dá)方式和生成能力。通過預(yù)測文本中缺失的部分或下一個詞,模型逐漸掌握語言的規(guī)律和特征。 常用的模型結(jié)構(gòu) Transformer架構(gòu):大語言模型通?;?b class='flag-5'>Transformer架構(gòu),這是一種能夠處理序列數(shù)據(jù)
    發(fā)表于 08-02 11:03

    opencv圖像識別有什么算法

    OpenCV(Open Source Computer Vision Library)是一個開源的計算機視覺和機器學(xué)習(xí)軟件庫,提供了大量的圖像處理和計算機視覺相關(guān)的算法。以下是一些常見
    的頭像 發(fā)表于 07-16 10:40 ?1157次閱讀

    Transformer能代替圖神經(jīng)網(wǎng)絡(luò)嗎

    Transformer作為一種在處理序列數(shù)據(jù)方面表現(xiàn)出色的深度學(xué)習(xí)模型,自其提出以來,已經(jīng)在自然語言處理(NLP)、時間序列分析等領(lǐng)域取得了顯著的成果。然而,關(guān)于Transformer是否能完全代替圖神經(jīng)網(wǎng)絡(luò)(GNN)的問題,需
    的頭像 發(fā)表于 07-12 14:07 ?505次閱讀

    深度學(xué)習(xí)在工業(yè)機器視覺檢測中的應(yīng)用

    識別等任務(wù)。傳統(tǒng)的機器視覺檢測方法通常依賴于手工設(shè)計的特征和固定的算法,難以應(yīng)對復(fù)雜多變的工業(yè)環(huán)境。而深度學(xué)習(xí)的引入,為工業(yè)機器視覺檢測帶來
    的頭像 發(fā)表于 07-08 10:40 ?1144次閱讀

    機器學(xué)習(xí)算法原理詳解

    機器學(xué)習(xí)作為人工智能的一個重要分支,其目標(biāo)是通過讓計算機自動從數(shù)據(jù)中學(xué)習(xí)并改進(jìn)其性能,而無需進(jìn)行明確的編程。本文將深入解讀幾種常見的機器學(xué)習(xí)算法原理,包括線性回歸、邏輯回歸、支持向量機
    的頭像 發(fā)表于 07-02 11:25 ?1266次閱讀

    機器學(xué)習(xí)的經(jīng)典算法與應(yīng)用

    關(guān)于數(shù)據(jù)機器學(xué)習(xí)就是喂入算法和數(shù)據(jù),讓算法從數(shù)據(jù)中尋找一種相應(yīng)的關(guān)系。Iris鳶尾花數(shù)據(jù)集是一個經(jīng)典數(shù)據(jù)集,在統(tǒng)計學(xué)習(xí)和機器學(xué)習(xí)領(lǐng)域都經(jīng)常被
    的頭像 發(fā)表于 06-27 08:27 ?1704次閱讀
    機器<b class='flag-5'>學(xué)習(xí)</b>的經(jīng)典<b class='flag-5'>算法</b>與應(yīng)用

    通過強化學(xué)習(xí)策略進(jìn)行特征選擇

    來源:DeepHubIMBA特征選擇是構(gòu)建機器學(xué)習(xí)模型過程中的決定性步驟。為模型和我們想要完成的任務(wù)選擇好的特征,可以提高性能。如果我們處理的是高維數(shù)據(jù)集,那么選擇特征就顯得尤為重要。
    的頭像 發(fā)表于 06-05 08:27 ?392次閱讀
    通過強化<b class='flag-5'>學(xué)習(xí)</b>策略進(jìn)行<b class='flag-5'>特征</b>選擇

    視覺Transformer基本原理及目標(biāo)檢測應(yīng)用

    視覺Transformer的一般結(jié)構(gòu)如圖2所示,包括編碼器和解碼器兩部分,其中編碼器每一層包括一個多頭自注意力模塊(self-attention)和一個位置前饋神經(jīng)網(wǎng)絡(luò)(FFN)。
    發(fā)表于 04-03 10:32 ?3796次閱讀
    <b class='flag-5'>視覺</b><b class='flag-5'>Transformer</b>基本原理及目標(biāo)檢測應(yīng)用

    基于Transformer模型的壓縮方法

    基于Transformer架構(gòu)的大型模型在人工智能領(lǐng)域中發(fā)揮著日益重要的作用,特別是在自然語言處理(NLP)和計算機視覺(CV)領(lǐng)域。
    的頭像 發(fā)表于 02-22 16:27 ?687次閱讀
    基于<b class='flag-5'>Transformer</b>模型的壓縮方法

    一文詳解Transformer神經(jīng)網(wǎng)絡(luò)模型

    Transformer模型在強化學(xué)習(xí)領(lǐng)域的應(yīng)用主要是應(yīng)用于策略學(xué)習(xí)和值函數(shù)近似。強化學(xué)習(xí)是指讓機器在與環(huán)境互動的過程中,通過試錯來學(xué)習(xí)最優(yōu)的
    發(fā)表于 02-20 09:55 ?1.5w次閱讀
    一文詳解<b class='flag-5'>Transformer</b>神經(jīng)網(wǎng)絡(luò)模型

    分析 丨AI算法愈加復(fù)雜,但是機器視覺的開發(fā)門檻在降低

    機器視覺系統(tǒng)依賴于機器學(xué)習(xí)(machine learn)和深度學(xué)習(xí)(deep learn),尤其是深度學(xué)習(xí)的重要分支“卷積神經(jīng)網(wǎng)絡(luò)”在圖像識別領(lǐng)域的應(yīng)用,使機器
    的頭像 發(fā)表于 02-19 16:49 ?736次閱讀
    分析 丨AI<b class='flag-5'>算法</b>愈加復(fù)雜,但是機器<b class='flag-5'>視覺</b>的開發(fā)門檻在降低

    計算機視覺的十大算法

    隨著科技的不斷發(fā)展,計算機視覺領(lǐng)域也取得了長足的進(jìn)步。本文將介紹計算機視覺領(lǐng)域的十大算法,包括它們的基本原理、應(yīng)用場景和優(yōu)缺點。這些算法在圖像處理、目標(biāo)檢測、人臉識別等領(lǐng)域有著廣泛的應(yīng)
    的頭像 發(fā)表于 02-19 13:26 ?1305次閱讀
    計算機<b class='flag-5'>視覺</b>的十大<b class='flag-5'>算法</b>

    基于Transformer的多模態(tài)BEV融合方案

    由于大量的相機和激光雷達(dá)特征以及注意力的二次性質(zhì),將 Transformer 架構(gòu)簡單地應(yīng)用于相機-激光雷達(dá)融合問題是很困難的。
    發(fā)表于 01-23 11:39 ?952次閱讀
    基于<b class='flag-5'>Transformer</b>的多模態(tài)BEV融合方案
    主站蜘蛛池模板: 久草网国产自偷拍| 美女被C污黄网站免费观看| 99视频免费看| 中文字幕在线视频观看| 亚洲中文字幕乱倫在线| 亚洲精品国产字幕久久vr| 午夜无码国产理论在线| 天天槽任我槽免费| 色狗综合网| 少妇无码吹潮久久精品AV| 日韩欧无码一区二区三区免费不卡| 欧美精品久久久久性色AV苍井| 男人大臿蕉香蕉大视频| 欧美xxxx性喷潮| 人妻美妇疯狂迎合| 色偷偷亚洲天堂| 四虎视频最新视频在线观看| 天天国产在线精品亚洲| 无码人妻精品国产婷婷| 亚洲AV无码国产精品色午夜情| 校草让我脱了内裤给全班看| 小色哥影院| 亚洲精品无夜久久久久久久久| 亚洲欧美偷拍视频一区| 亚洲一区二区三区高清网| 依恋影院在线观看| 91原创在线| 办公室沙发口爆12P| 国产成人免费观看| 国产一及毛片| 久久免费视频1| 某上海少妇3P黑人完整版BD| 欧美视频 亚洲视频| 色宅男午夜电影网站| 亚洲AV久久无码精品九号软件| 亚洲免费黄色| 69精品人妻一区二区三区蜜桃 | 国产色婷婷亚洲99精品| 黑丝女仆恋上我| 榴莲推广APP网站入口下载安装| 欧美最猛性xxxxx亚洲精品|