亚洲七七久久精品中文国产 ,色婷婷精品,无人区大片免费播放器

二、背景

高效的時空建模(Spatiotemporal modeling)是視頻理解和動作識別的核心問題。相較于圖像的Transformer網(wǎng)絡(luò)，視頻由于增加了時間維度，如果將Transformer中的自注意力機制(Self-Attention)簡單擴展到時空維度，將會導(dǎo)致時空自注意力高昂的計算復(fù)雜度和空間復(fù)雜度。許多工作嘗試對時空自注意力進(jìn)行分解，例如ViViT和Timesformer。這些方法雖然減小了計算復(fù)雜度，但會引入額外的參數(shù)量。本文提出了一種簡單高效的時空自注意力Transformer，在對比2D Transformer網(wǎng)絡(luò)不增加計算量和參數(shù)量情況下，實現(xiàn)了時空自注意力機制。并且在Sthv1&Sthv2, Kinetics400, Diving48取得了很好的性能。

三、方法

視覺Transofrmer通常將圖像分割為不重疊的塊(patch)，patch之間通過自注意力機制(Self-Attention)進(jìn)行特征聚合，patch內(nèi)部通過全連接層(FFN)進(jìn)行特征映射。每個Transformer block中，包含Self-Attention和FFN，通過堆疊Transformer block的方式達(dá)到學(xué)習(xí)圖像特征的目的。

在視頻動作識別領(lǐng)域，輸入的數(shù)據(jù)是連續(xù)采樣的多幀圖像(常用8幀、16幀、32幀等）學(xué)習(xí)視頻的時空特征，不僅要學(xué)習(xí)單幀圖像的空間視覺特征，更要建模幀之間的時域特征。本文提出一種基于視覺transformer的高效時空特征學(xué)習(xí)算法，具體來說，我們通過將patch按照一定的規(guī)則進(jìn)行移動(patch shift)，把當(dāng)前幀中的一部分patch移動到其他幀，同時其他幀也會有一部分patch移動到當(dāng)前幀。經(jīng)過patch移動之后，對每一幀圖像的patch分別做Self-Attention，這一步學(xué)習(xí)的特征就同時包含了時空特征。具體思想可以由下圖所示:

在常用的2D圖像視覺Transformer網(wǎng)絡(luò)結(jié)構(gòu)上，將上述patch shift操作插入到self-attention操作之前即可，無需額外操作，下圖是patch shift transformer block，相比其他視頻transformer的結(jié)構(gòu)，我們的操作不增加額外的計算量，僅需進(jìn)行內(nèi)存數(shù)據(jù)移動操作即可。對于patch shift的移動規(guī)則，我們提出幾種設(shè)計原則:1. 不同幀的塊盡可能均勻地分布。2.合適的時域感受野。3.保持一定的移動塊比例。具體的分析，讀者可以參考正文。

我們對通道移動(Channel shift) 與塊移動(patch shift)進(jìn)行了詳盡的分析和討論，這兩種方法的可視化如下:

通道移動(Channel shift) 與塊移動(patch shift)都使用了shift操作，但channel shift是通過移動所有patch的部分channel的特征來實現(xiàn)時域特征的建模，而patch shift是通過移動部分patch的全部channel與Self-attention來實現(xiàn)時域特征的學(xué)習(xí)?？梢哉J(rèn)為channel shift的時空建模在空域是稠密的，但在channel上是稀疏的。而patch shift在空域稀疏，在channel上是稠密的。因此兩種方法具有一定的互補性?；诖?，我們提出交替循環(huán)使用 patchshift和channel shift。網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示：

四、實驗結(jié)果

1. 消融實驗

2. 與SOTA方法進(jìn)行對比

3. 運行速度

可以看到，PST的實際推理速度和2D的Swin網(wǎng)絡(luò)接近，但具有時空建模能力，性能顯著優(yōu)于2D Swin。和Video-Swin網(wǎng)絡(luò)相比，則具有明顯的速度和顯存優(yōu)勢。

4. 可視化結(jié)果

圖中從上到下依次為Kinetics400, Diving48, Sthv1的可視化效果。PST通過學(xué)習(xí)關(guān)聯(lián)區(qū)域的相關(guān)性，并且特征圖能夠反映出視頻當(dāng)中動作的軌跡。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

內(nèi)存

內(nèi)存

+關(guān)注

關(guān)注
8

文章
3045

瀏覽量
74205

原文標(biāo)題：ECCV 2022 | 阿里提出：快速動作識別的時空自注意力模型

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

地平線ViG基于視覺Mamba的通用視覺主干網(wǎng)絡(luò)

Vision Mamba的成功預(yù)示著將視覺表征學(xué)習(xí)轉(zhuǎn)換為線性復(fù)雜度視覺序列表征學(xué)習(xí)具有巨大的潛力。盡管以Vision Mamba為代表的線性視覺

發(fā)表于 01-08 09:33 ?97次閱讀

NPU與機器學(xué)習(xí)算法的關(guān)系

在人工智能領(lǐng)域，機器學(xué)習(xí)算法是實現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復(fù)雜度的提升，對計算資源的需求也在不斷增長。NPU作為一種專門為深度學(xué)習(xí)等機器

發(fā)表于 11-15 09:19 ?556次閱讀

【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

語言的表達(dá)方式和生成能力。通過預(yù)測文本中缺失的部分或下一個詞，模型逐漸掌握語言的規(guī)律和特征。常用的模型結(jié)構(gòu) Transformer架構(gòu)：大語言模型通?；?b class='flag-5'>Transformer架構(gòu)，這是一種能夠處理序列數(shù)據(jù)