摘要
Transformer,一種基于注意力的編碼器-解碼器模型,已經徹底改變了自然語言處理(NLP)領域。受這些重大成就的啟發,最近在計算機視覺(CV)領域采用類似Transformer的架構進行了一些開創性的工作,這些工作證明了它們在三個基本CV任務(分類、檢測和分割)以及多傳感器數據(圖像、點云和視覺-語言數據)上的有效性。由于其具有競爭力的建模能力,與現代卷積神經網絡(CNN)相比,視覺Transformer在多個基準測試中取得了令人印象深刻的性能改進。本綜述根據三個基本的CV任務和不同的數據流類型,全面調查了100多種不同的視覺Transformer,并提出了一種分類法,根據其動機、結構和應用場景來組織代表性方法。由于它們在訓練設置和專用視覺任務上的差異,論文還評估并比較了不同配置下的所有現有視覺Transformer。此外,論文還揭示了一系列重要但尚未開發的方面,這些方面可能使此類視覺Transformer能夠從眾多架構中脫穎而出,例如,松散的高級語義嵌入,以彌合視覺Transformer與序列式之間的差距。最后,提出了未來有前景的研究方向。
倉庫地址:https://github.com/liuyang-ict/awesome-visual-transformers
本文旨在對最新的視覺Transformer進行更全面的回顧,并對其進行系統分類:
全面性和可讀性:本文根據它們在三個基本CV任務(即分類、檢測和分割)和數據流類型(即圖像、點云、多流數據)上的應用,全面回顧了100多個視覺Transformer。論文選擇了更具代表性的方法,并進行了詳細的描述和分析,但簡要介紹了其他相關工作。本文不僅從一個角度對每個模型進行了詳盡的分析,而且還從某種意義上建立了它們的內部聯系,如漸進、對比和多視角分析。
直觀的比較:由于現有的視覺Transformer針對各種視覺任務遵循不同的訓練方案和超參數設置,本文對不同的數據集和限制進行了多次橫向比較。更重要的是,總結了為每個任務設計的一系列有效組件,包括:(a)具有層次結構的淺局部卷積;(b) neck detector的稀疏注意力空間先驗加速;(c)以及用于分割的通用掩模預測方案;
深入分析:論文進一步深入分析了以下幾個方面:(a)從傳統序列任務到視覺任務的轉換過程;(b) 視覺Transformer和其他神經網絡之間的對應關系;(c)以及不同任務和數據流類型中使用的可學習嵌入(即class token、object query、mask embedding)的相關性。最后,論文概述了一些未來的研究方向。例如,編碼器-解碼器Transformer主干可以通過query embedding來統一多個視覺任務和數據流類型。
原始Transformer
最初的Transformer[1]首先應用于序列到序列自動回歸的任務。與先前的序列轉導模型[49]、[50]相比,這種原始的Transformer繼承了編碼器-解碼器結構,但通過使用multi-head attention機制和point-wise feed-forward網絡,完全放棄了遞歸和卷積。圖4展示了帶有編碼器-解碼器架構的整體Transformer模型。具體而言,它由N個連續的編碼器模塊組成,每個編碼器由兩個子層組成。1) MHSA層聚合編碼器嵌入內的關系;2) 逐位置FFN層提取特征表示。
在自然語言回歸模型中,Transformer源于機器翻譯任務。給定一個單詞序列,Transformer將輸入序列矢量化為單詞嵌入,添加位置編碼,并將生成的向量序列輸入編碼器。在訓練期間,如圖4所示,Vaswani等人根據自回歸任務的規則設計了masking操作,其中當前位置僅取決于先前位置的輸出。基于這種masking,Transformer解碼器能夠并行處理輸入標簽的序列。在推理期間,通過相同的操作處理先前預測的單詞序列以預測下一個單詞。
分類Transformer
隨著NLP中Transformer的顯著發展[2]–[5],最近的工作試圖引入視覺Transformer來進行圖像分類。本節全面回顧了40多個視覺Transformer,并將其分為六類,如圖5所示。首先介紹了Fully-Attentional網絡[24]、[28]和Vision Transformer(ViT)[29],這種原始ViT首先證明了其在多個分類基準上的功效。然后討論了Transformer增強的CNN方法,該方法利用Transformer來增強CNN的表示學習。由于忽略了原始ViT中的局部信息,CNN增強型Transformer采用了適當的卷積inductive bias來增強ViT,而局部注意力增強型Transformer重新設計了patch分區和注意力塊,以提高其局部性。繼CNN[162]中的分層和深層結構之后,分層Transformer用金字塔代替了固定分辨率的柱狀結構,而Deep Transformer防止了注意力圖過于平滑,并增加了其在深層中的多樣性。此外,論文還回顧了現有的基于自監督學習的ViT。最后,本文根據直觀的比較進行了簡短的討論,組織了一個ViT的里程碑,并討論了一個共同的問題以供進一步研究。
Original Visual Transformer
受Transformer在NLP領域取得的巨大成就的啟發[2]-[5],先前視覺任務的技術趨勢[14]-[17],[163]將注意力機制與卷積模型相結合,以增強模型的感受野和全局依賴性。除了這種混合模型,Ramachandran等人考慮了注意力是否可以完全取代卷積,然后提出了一個Stand-Alone自注意力網絡(SANet)[24],與原始基線相比,該網絡在視覺任務上取得了優異的性能。
給定ResNet[11]架構,作者直接將每個bottleneck中的空間卷積層(3*3)替換為局部空間自注意力層,并保持其他結構與ResNet中的原始設置相同。此外,大量消融已經表明,位置編碼和卷積可以進一步提高網絡效率。繼[24]之后,Cordonnier等人設計了一個原型(稱為“Fully-Attentional Network”)[28],包括一個fully vanilla Transformer和一個二次位置編碼。作者還從理論上證明了卷積層可以用具有相對位置編碼和足夠head的單個MHSA層來近似。通過在CIFAR-10上的消融實驗[164],他們進一步驗證了這樣的原型設計確實能夠學習到每個query像素周圍的網格狀圖案,這是他們的理論結論。
與[28]只關注小尺度模型不同,ViT[29]通過大規模預訓練學習進一步探索了vanilla Transformer的有效性,這樣的先鋒工作對社區產生了重大影響。因為vanilla Transformer只接受序列輸入,ViT中的輸入圖像首先被拆分成一系列不重疊的patch,然后被投影到patch嵌入中。將一維可學習位置編碼添加到patch embeddings上以保留空間信息,然后將joint embeddings饋送到編碼器中,如圖6所示。與BERT[5]類似,將學習的 [class] token與patch embeddings附加在一起,以聚合全局表示,并將其用作分類的輸入。此外,2D插值補充了預訓練的位置編碼,以在饋送圖像是任意分辨率時保持patche的一致順序。通過使用大規模私有數據集(JFT-300M[165])進行預訓練,與最流行的CNN方法相比,ViT在多個圖像識別基準(ImageNet[166]和CIFAR-100[164])上取得了相似甚至更好的結果。然而,它的泛化能力往往會受到有限訓練數據的侵蝕。
Transformer Enhanced CNNs
如上所述Transformer有兩個關鍵:MHSA和FFN。卷積層和MHSA之間存在近似值[28],Dong等人認為,Transformer可以借助跳躍連接和FFN[167]進一步減輕MHSA的強偏置。最近,一些方法試圖將Transformer集成到CNN中以增強表示學習。VTs[51]將輸入圖像的語義概念解耦到不同的通道中,并通過編碼器塊(即VT塊)將它們緊密關聯。這種VT塊替代了最后的卷積階段,以增強CNN模型的語義建模能力。與先前直接用注意力結構代替卷積的方法不同,Vaswani等人提出了一種概念上的重新定義,即具有MHSA的連續bottleneck block可以被表述為Bottleneck Transformer(BoTNet)[52]塊。采用相對位置編碼[168]進一步模擬原始Transformer.。基于ResNet[11],BoTNet在ImageNet基準上的參數設置類似,優于大多數CNN模型,并進一步證明了混合模型的有效性。
CNN Enhanced Transformer
Inductive bias被定義為關于數據分布和解空間的一組假設,其在卷積中的表現為局部性和平移不變性[169]。由于局部鄰域內的協方差很大,并且在圖像中逐漸趨于平穩,CNN可以在偏差的幫助下有效地處理圖像。然而,當有足夠的數據可用時,強偏差也限制了CNN的上限。最近的努力試圖利用適當的CNN bias來增強Transformer。相關算法有DeiT[40]、ConViT[53]、CeiT[54]、LocalViT[55]、ResT[57]、CPVT[56]、CvT[36]、CoAtNet)[39]等。
Local Attention Enhanced Transformer
ViT[29]中的coarse patchify過程忽略了局部圖像信息。除了卷積,研究人員提出了一種局部注意力機制,以動態關注相鄰元素并增強局部提取能力。代表性方法之一是Swin Transformer[35]。類似于TSM[173](圖7(a)),Swin利用沿空間維度的移位窗口來建模全局和邊界特征。具體而言,兩個連續的window-wise attention可以促進cross-window相互作用(圖7(b)-(c)),類似于CNN中的感受野擴展。這種操作將計算量由降低至。其他相關算法TNT[59]、Twins[60]、ViL[61]、VOLO[44]可以參考具體論文。
Hierarchical Transformer
由于ViT[29]在整個Transformer層中采用具有固定分辨率的柱狀結構,忽略了細粒度特征,并帶來了沉重的計算成本。繼分層模型之后,Tokens to Token ViT(T2T-ViT)首先引入了分層Transformer的范例,并采用overlapping unfold操作進行下采樣。然而,這種操作帶來了沉重的內存和計算成本。因此,Pyramid Vision Transformer(PVT)[41]利用非重疊的patch分區來減少特征大小。此外,PVT中的spatial-reduction attention(SRA)層被應用于通過學習低分辨率key-value pairs來進一步降低計算成本。在經驗上,PVT使Transformer適應許多基準上的密集預測任務,這些基準需要大量輸入和細粒度特征,并且具有計算效率。此外,PiT[64]和CvT[36]都分別利用池化和卷積來進行token下采樣。具體而言,CvT[36]通過用卷積投影替換線性層來改進PVT[41]的SRA。基于convolutional bias,CvT[36]可以適應任意大小的輸入,而無需位置編碼。
Deep Transformer
經驗上,增加模型的深度是可以增強其學習能力[11]的。最近的工作將深度結構應用于Transformer,并進行了大量實驗,通過分析cross-patch[67]和cross-layer[37]、[66]的相似性以及殘差的貢獻[42]來研究其可擴展性。在Deep Transformer中,來自較深層的特征往往不太具有代表性(attention collapse[66]),并且patch被映射到不可區分的潛在表示中(patch over-smoothing[67])。為了解決上述限制,這些方法從兩個方面提出了相應的解決方案。
從模型結構的角度來看,Touvron等人在圖像Transformers中提出了有效的Class-attention(CaiT[42]),包括兩個階段:1)沒有class token的多個self-attention階段。在每一層中,利用由small values初始化的可學習對角矩陣來動態更新channel權重,從而為channel調整提供一定的自由度;2) 最后class-attention階段是凍結patch embeddings。之后的class token被插入到模型全局表示中,類似于具有編碼器-解碼器結構的DETR。這種顯式分離基于這樣一個假設,即class token對于前向傳遞中的patch embeddings梯度無效。通過蒸餾訓練策略[40],CaiT在沒有外部數據的情況下在imagenet-1k上實現了新的SOTA(86.5%的TOP1精度)。Deep Transformer遭受attention collapse和過度平滑問題的困擾,但仍在很大程度上保留了不同head之間注意力圖的多樣性。基于這一觀察,Zhou等人提出了Deep Vision Transformer(DeepViT)[66],該Transformer聚合cross-head attention maps,并通過使用線性層重新生成新的注意力圖,以增加跨層特征多樣性。此外,Refiner[37]應用線性層來擴展注意力圖的維度(間接增加head數量),以促進多樣性。然后,采用分布式局部注意力(DLA)來實現對局部特征和全局特征的更好建模,這是通過影響注意力圖的head-wise卷積來實現的。
從訓練策略的角度來看,Gong等人提出了deep Transformer的三個Patch Diversity損失,這可以顯著鼓勵patch的多樣性并抵消過度平滑問題[67]。類似于[175],patch-wise余弦損失最小化了patch之間的成對余弦相似性。patch-wise對比度損失通過其在早期層中的對應patch使較深的patch正則化。受Cutmix[176]的啟發,patch-wise混合損失混合了兩個不同的圖像,并迫使每個patch只關注來自同一圖像的patch,而忽略不相關的patch。與LV-ViT[43]相比,它們具有相似的損失功能,但動機不同。前者側重于patch多樣性,而后者側重于關于token標記的數據增強。
Transformers with Self-Supervised Learning
自監督Transformer在NLP領域取得了巨大的成功[5],但視覺Transformer仍停留在監督的預訓練階段[35],[40]。最近的工作還試圖以生成和判別的方式為ViT設計各種自監督學習方案。生成式的相關工作有iGPT[68]、BEiT[70]、dVAE[147]。判別式的相關工作有[72]、DINO[73]。
討論
算法評估和比較分析:在論文的分類法中,所有現有的監督模型被分為六類。表一總結了這些現有ViT在ImageNet-1k基準上的性能。為了客觀直觀地評估它們,論文使用以下三張圖來說明它們在不同配置下在ImageNet-1k上的性能。圖8(a)總結了2242個輸入大小下每個模型的精度。圖8(b)以FLOP為水平軸,重點關注其在更高分辨率下的性能。圖8(c)側重于具有外部數據集的預訓練模型。根據這些比較結果,論文簡要總結了在效率和可伸縮性方面的幾項性能改進,如下所示:
與大多數結構改進方法相比,DeiT[40]和LV-ViT[43]等基本訓練策略更適用于各種模型、任務和輸入;
局部性對于Transformer是必不可少的,這反映在VOLO[44]和Swin[35]分別在分類和密集預測任務上的優勢;
卷積patchify stem(ViTc[58])和早期卷積階段(CoAtNet[39])可以顯著提高Transformer器的精度,尤其是對于大模型。論文推測原因是因為這些設計引入了比ViT中的non-overlapping patch projection更嚴格的高級特征[29];
deep Transformer,如Refined-ViT[37]和CaiT[42],具有巨大的潛力。隨著模型尺寸與channel尺寸成二次增長,未來可以進一步研究deep Transformer中的相關權衡策略;
CeiT[54]和CvT[36]在訓練中小型模型(0到40M)有顯著優勢,這表明輕量模型的這種混合注意力block值得進一步探索。
ViT發展趨勢綜述
當論文的系統學與這些模型的時間線匹配時,我們可以清楚地跟蹤Transformer用于圖像分類的發展趨勢(圖1)。作為一種自注意機制,視覺Transformer主要根據NLP中的樸素結構(ViT[29]和iGPT[68])或CV中基于注意力的模型(VTs[51]和BoTNet[52])進行重新設計。
然后,許多方法開始將CNN的層次結構或深層結構擴展到ViT。T2T-ViT[63]、PVT[41]、CvT[36]和PiT[64]都有一個動機,即將分層結構遷移到Transformer中,但它們實現的下采樣方式不同。CaiT[42]、Diverse Patch[67]、DeepViT[66]和Refiner[37]關注deep Transformer中的問題。此外,一些方法轉向內部組件以進一步增強先前Transformer的圖像處理能力,即位置編碼[56]、[179]、[180]、MHSA[28]和MLP[167]。
下一波Transformer是局部范式。其中大多數通過引入局部注意機制[35]、[44]、[59]、[60]或卷積[53]–[55]將局部性引入Transformer。如今,最新監督Transformer正在探索結構組合[39]、[58]和scaling laws[38]、[181]。除了有監督的Transformer,自監督學習在ViT[68]–[70]、[72]–[74]中占據了很大一部分。然而,目前尚不清楚哪些任務和結構對CV中的自監督Transformer更有利。
關于備選方案的簡要討論:在ViT的開發過程中,最常見的問題是ViT能否完全取代傳統的卷積。通過回顧過去一年的性能改進歷史,這里沒有任何相對劣勢的跡象。ViT已經從一個純粹的結構回歸到一個混合的形式,而全局信息已經逐漸回歸到帶有局部bias的混合階段。盡管ViT可以等同于CNN,甚至具有更好的建模能力,但這種簡單有效的卷積運算足以處理淺層中的局部性和語義特征。未來,兩者結合的精神將推動圖像分類取得更多突破。
檢測Transformer
在本節中,論文將回顧用于目標檢測的ViT,它可以分為兩個部分:Transformer Neck和Transformer Backbone。對于neck,論文主要關注為Transformer結構指定的一種新表示,稱為object query,即一組可學習的參數等價地聚集了全局特征。最近的變體試圖在收斂加速或性能改進方面解決最優融合范式。除了專門為檢測任務設計的neck外,一部分主干檢測器還考慮了特定的策略。最后,論文對它們進行了評估,并分析了這些檢測器的一些潛在方法。
Transformer Neck
首先回顧DETR[30]和Pix2seq[75],它們是最初的Transformer檢測器,重新定義了兩種不同的目標檢測范式。隨后,論文主要關注基于DETR的變體,從五個方面改進了Transformer檢測器的準確性和收斂性:稀疏注意力、空間先驗、結構重新設計、分配優化和預訓練模型。
原始檢測器:DETR[30]是第一個端到端Transformer檢測器,它消除了手工設計的表示[182]-[185]和非最大抑制(NMS)后處理,這將目標檢測重新定義為集合預測問題。詳細地說,一小組可學習的位置編碼,稱為object query,被并行饋送到Transformer解碼器中,以從圖像特征中聚合實例信息。然后,預測頭直接從解碼器的輸出query產生檢測結果。在訓練過程中,在預測目標和GT之間使用二分匹配策略,以識別一對一的標簽分配,從而在沒有NMS的情況下消除推理時的冗余預測。在反向傳播中,匈牙利損失包括所有分類結果的對數似然損失和所有匹配對的box損失。
總之,DETR為端到端目標檢測提供了一種新的范例。object query在與圖像特征交互期間逐漸學習實例表示。二分匹配允許直接的集合預測很容易適應一對一的標簽分配,從而消除了傳統的后處理。DETR在COCO基準上實現了具有競爭力的性能,但在小目標上存在收斂速度慢和性能差的問題。
另一項開創性工作是Pix2seq[75],將通用目標檢測視為一項語言建模任務。給定一個圖像輸入,執行一個vanilla sequential Transformer來提取特征并自動回歸生成一系列目標描述(即類標簽和邊界框)。這種簡化但更復雜的圖像caption方法是在這樣的假設下得出的,即如果模型同時了解目標的位置和標簽,則可以教導其生成具有指定序列的描述[75]。與DETR相比,Pix2seq在小目標上獲得了更好的結果。如何將這兩種概念結合起來值得進一步考慮。
稀疏注意力:在DETR中,query和特征圖之間的密集交互耗費了難以承受的資源,并減緩了DETR的收斂速度。因此,最近的努力旨在設計依賴于數據的稀疏注意力來解決這些問題。
繼[186]之后,Zhu等人開發了Deformable DETR,以通過多尺度deformable attention顯著改善訓練收斂性和檢測性能[76]。與原始DETR相比,deformable attention模塊僅對一小部分關鍵點進行采樣,以進行全特征聚合。這種稀疏注意力可以很容易地擴展到多尺度特征融合,而無需FPN[187]的幫助,因此稱為多尺度可定義注意力(MSDA),如圖10所示。其他相關算法ACT[77]、PnP[78]、Sparse DETR[79]可以參考具體論文。
空間先驗:與由內容和幾何特征[182]、[188]直接生成的anchor或其他表示不同,object query通過隨機初始化隱式建模空間信息,這與邊界框弱相關。空間先驗應用的主流是具有經驗空間信息的一階段檢測器和具有幾何坐標初始化或感興趣區域(RoI)特征的兩階段檢測器。一階段相關算法有SMCA[80]、Conditional DETR[81]、Anchor DETR[82]、DAB-DETR[83]。二階段相關算法有Efficient DETR[84]、Dynamic DETR[85]。
結構重新設計:除了關注交叉注意力的修改之外,一些工作重新設計了僅編碼器的結構,以直接避免解碼器的問題。TSP[86]繼承了集合預測[30]的思想,并去除了解碼器和object query以加速收斂。這種僅編碼器的DETR重用先前的表示[182]、[188],并生成一組固定大小的感興趣特征(FoI)[188]或proposal[182],這些proposal隨后被饋送到Transformer編碼器。此外,匹配蒸餾被應用于解決二分匹配的不穩定性,特別是在早期訓練階段。Fang等人[87]將DETR的編碼器-解碼器 neck和ViT的僅編碼器主干合并為僅編碼器檢測器,并開發了YOLOS,一種純序列到序列轉換器,以統一分類和檢測任務。它繼承了ViT的結構,并用固定大小的可學習檢測token替換了單個類token。這些目標token首先在分類任務上進行預訓練,然后在檢測基準上進行微調。
二分匹配優化:在DETR[30]中,二分匹配策略迫使預測結果在訓練期間完成一對一的標簽分配。這樣的訓練策略簡化了檢測管道,并在無需NMS幫助的情況下直接構建端到端系統。為了深入了解端到端檢測器的功效,Sun等人致力于探索一對一預測的理論觀點[192]。基于多次消融和理論分析,他們得出結論,一對一匹配策略的分類成本是顯著避免重復預測的關鍵因素。即便如此,DETR仍面臨著由二分匹配引起的多重問題。Li等人[90]利用denoisingDETR(DN-DETR)來減輕二部分匹配的不穩定性。具體地說,一系列有輕微擾動的目標應該重建它們的真實坐標和類。去噪(或重建)部分的主要成分是防止匹配部分和噪聲部分之間信息泄漏的注意力掩碼,以及指示擾動的指定標簽嵌入。其他工作還有DINO[91]。
預訓練:靈感來自預訓練的語言Transformer[3],[5],相關工作有UP-DETR[88]、FP-DETR[89]。
Transformer Backbone
前文已經回顧了許多基于Transformer的圖像分類主干[29]、[40]。這些主干可以很容易地并入各種框架(例如,Mask R-CNN[189]、RetinaNet[184]、DETR[30]等),以執行密集預測任務。例如,像PVT[41]、[65]這樣的分層結構將ViT構造為一個高分辨率到低分辨率的過程,以學習多尺度特征。局部增強結構將主干構建為局部到全局的組合,可以有效地提取短距離和長距離視覺相關性,并避免二次計算開銷,如Swin Transformer[35]、ViL[61]和Focal Transformer[62]。表III包括密集預測任務的這些模型的更詳細比較。除了通用Transformer主干,特征金字塔Transformer(FPT)[92]通過使用self-attention、自上而下的cross-attention和自底向上的cross channel attention,結合了空間和尺度的特性。繼[193]之后,HRFormer[93]向Transformer介紹了多分辨率的優點以及非重疊的局部self-attention。HRViT[94]重新設計了異質分支和十字形注意力模塊。
討論
論文在表II中總結了Transformer neck檢測器的五個部分,密集預測任務的Transformer backbone的更多細節參見表III。大多數neck提升集中在以下五個方面:
1)提出了稀疏注意力模型和評分網絡,以解決冗余特征交互問題。這些方法可以顯著降低計算成本并加速模型收斂;
2)將顯式空間先驗分解為所選特征初始化和由可學習參數提取的位置信息,將使檢測器能夠精確預測結果;
3)在Transformer解碼器中擴展了多尺度特征和逐層更新,用于小目標細化;
4)改進的二分匹配策略有利于避免冗余預測以及實現端到端目標檢測;
5)僅編碼器結構減少了整個Transformer堆棧層,但過度增加了FLOPs,而編碼器-解碼器結構是FLOPs和參數之間的良好權衡,但更深的解碼器層可能會導致長時間訓練過程和過度平滑的問題。
此外,有許多Transformer主干用于改進分類性能,但很少有針對密集預測任務的工作。未來,論文預計Transformer主干將與深度高分辨率網絡合作,以解決密集預測任務。
分割Transformer
Patch-Based 和 Query-Based Transformer是分割的兩種主要應用方式。后者可以進一步細分為Object Query 和 Mask Embedding兩類。
Patch-Based Transformer
由于感受野擴展策略[194],CNN需要多個解碼器堆棧來將高級特征映射到原始空間分辨率。相反,基于patch的Transformer由于其全局建模能力和分辨率不變性,可以很容易地與用于分割mask預測的簡單解碼器結合。Zheng等人擴展了用于語義分割任務的ViT[29],并通過使用解碼器的三種方式來實現逐像素分類,提出了SEgmentation TRansformer(SETR)[95]:naive上采樣(naive)、漸進上采樣(PUP)和多級特征聚合(MLA)。SETR展示了ViT用于分割任務的可行性,但它也帶來了不可接受的額外GPU開銷。TransUNet[96]是第一個用于醫學圖像分割的方法。形式上,它可以被視為帶有MLA解碼器的SETR的變體[95],或者是U-Net[195]和Transformer的混合模型。由于Transformer編碼器強大的全局建模能力,Segformer[97]設計了一個只有四個MLP層的輕量級解碼器。當使用多種損壞類型的圖像進行測試時,Segformer顯示出比CNN更好的性能和更強的魯棒性。
Query-Based Transformer
Query embedding是一組從圖像輸入中逐漸學習的臨時語義/實例表示。與patch嵌入不同,query可以更“公平”地集成來自特征的信息,并自然地與集合預測損失結合[30],用于去除后處理。現有的基于query的模型可以分為兩類。一種是由檢測和分割任務同時驅動的(稱為object queries)。另一個僅由分割任務(稱為mask embeddings)監督。
Object Queries:基于object queries的方法有三種訓練方式(圖11)。如圖11(a)所示的Panoptic DETR[30]。圖11(b)所示的Cell-DETR[98]和VisTR[99],以及如圖11(c)所示的QueryInst[100]
Mask Embeddings:另一個框架使用query直接預測掩碼,論文將這種基于掩碼的學習查詢稱為mask embedding。與object queries不同,mask embedding僅由分割任務監督。如圖11(d)所示,兩個不相交的query集被并行用于不同的任務,box學習被視為進一步增強的輔助損失,相關算法有ISTR[101]、SOLQ[102]。對于語義和box-free實例分割,一系列基于query的Transformer直接預測掩碼,而不需要框分支的幫助(圖11(e)),相關算法如Max-DeepLab[31]、Segmenter[103]、Maskformer[104]等。
討論
論文根據三個不同的任務總結了上述Transformer。表IV(a)側重于ADE20K(170類)。可以表明,當在具有大量類的數據集上進行訓練時,ViT的分割性能顯著提高。表IV(b)側重于實例分割的COCO測試數據集。顯然,在分割和檢測任務中,帶有掩模嵌入的ViT超過了大多數主流模型。然而,APbox和APseg之間存在巨大的性能差距。通過級聯框架,QueryInst[100]在各種Transformer模型中實現了SOTA。將ViT與混合任務級聯結構相結合,值得進一步研究。表IV(c)側重于全景分割。Max-DeepLab[31]通常通過掩碼預測形式解決全景分割任務中的前景和背景問題,而Maskformer[104]成功地將這種格式用于語義分割,并將語義和實例分割任務統一為一個模型。基于它們在全景分割領域的表現,我們可以得出結論,ViT可以將多個分割任務統一到一個box-free框架中,并進行掩模預測。
3D視覺Transformer
隨著3D采集技術的快速發展,雙目/單目圖像和LiDAR(Light Detection and Ranging)點云成為3D識別的流行傳感數據。與RGB(D)數據不同,點云表示更關注距離、幾何圖形和形狀信息。值得注意的是,由于其稀疏性、無序性和不規則性的特點,這種幾何特征非常適合Transformer。隨著2D ViT的成功,開發了大量的3D分析方法。本節展示了3D ViT在表示學習、認知映射和特定處理之后的簡要回顧。
表示學習
與傳統的手工設計的網絡相比,ViT更適合于從點云學習語義表示,在點云中,這種不規則和排列不變的性質可以轉化為一系列具有位置信息的并行嵌入。鑒于此,Point Transformer[105]和PCT[106]首先證明了ViT對3D表示學習的有效性。前者將hierarchical Transformer[105]與下采樣策略[203]合并,并將其先前的vector attention block[25]擴展到3D點云。后者首先聚集相鄰點云,然后在全局off-set Transformer上處理這些相鄰嵌入,其中來自圖卷積網絡(GCN)的知識遷移被應用于噪聲緩解。值得注意的是,由于點云的固有坐標信息,位置編碼(ViT的重要操作)在兩種方法中都有所減少。PCT直接處理坐標,無需位置編碼,而Point Transformer添加了可學習的相對位置編碼以進一步增強。繼[105]、[106]之后,Lu等人利用local-global聚合模塊3DCTN[107]來實現局部增強和成本效率。給定多步長下采樣組,使用具有max-pooling操作的顯式圖卷積來聚合每個組內的局部信息。將得到的組嵌入級聯并饋送到改進的Transformer[105]、[106]中,用于全局聚合。Park等人提出了Fast Point Transformer[108],通過使用voxel-hashing鄰域搜索、體素橋接相對位置編碼和基于余弦相似性的局部關注來優化模型效率。
為了進行密集預測,Pan等人提出了一種定制的基于點云的Transformer主干(Pointformer)[109],用于在每個層中分別參與局部和全局交互。與以往的局部-全局形式不同,采用局部關注后的坐標細化操作來更新質心點而不是曲面點。局部-全局交叉注意力模型融合了高分辨率特征,然后是全局注意力。Fan等人返回到Single-stride Sparse Transformer(SST)[110],而不是下采樣操作,以解決小目標檢測的問題。與Swin[35]類似,連續Transformer塊中的移位組被用于分別處理每組token,這進一步緩解了計算問題。在基于體素的方法中,Voxel Transformer(VoTr)[111]采用兩步voxel Transformer來有效地操作空和非空體素位置,包括通過local attention和dilated attention。VoxSeT[112]進一步將self-attention分解為兩個交叉關注層,一組潛在編碼將它們鏈接起來,以在隱藏空間中保存全局特征。
一系列自監督Transformer也被擴展到3D空間,例如Point BERT[113]、Point MAE[114]和MaskPoint[115]。具體而言,Point BERT[113]和Point MAE[114]直接將先前的工作[70]、[71]轉移到點云,而MaskPoint[115]通過使用與DINO(2022)[91]類似的對比解碼器來改變生成訓練方案,以進行自訓練。基于大量實驗,論文得出結論,這種生成/對比自訓練方法使ViT能夠在圖像或點云中有效。
Cognition Mapping
鑒于豐富的表示特征,如何將實例/語義認知直接映射到目標輸出也引起了相當大的興趣。與2D圖像不同,3D場景中的目標是獨立的,可以由一系列離散的表面點直觀地表示。為了彌補這一差距,一些現有的方法將領域知識轉移到2D主流模型中。繼[30]之后,3DETR[116]通過最遠點采樣和傅里葉位置嵌入將端到端模塊擴展到3D目標檢測,以用于object queries初始化。Group Free 3D DETR[117]應用了比[116]更具體和更強的結構。詳細地說,當object queries時,它直接從提取的點云中選擇一組候選采樣點,并在解碼器中逐層迭代地更新它們。Sheng等人提出了一種典型的兩階段方法,該方法利用Channel-wise Transformer3D檢測器(CT3D)[118]同時聚合每個提案中的點云特征的proposal-aware嵌入和channel-wise上下文信息。
對于單目傳感器,MonoDTR[119]和MonoDETR[120]在訓練過程中使用輔助深度監督來估計偽深度位置編碼(DPE)。DETR3D[121]引入了一種多目3D目標檢測范式,其中2D圖像和3D位置都通過攝像機變換矩陣和一組3D object queries相關聯。TransFusion[122]通過連續通過兩個Transformer解碼器層與object queries交互,進一步利用了LiDAR點和RGB圖像的優點。
Specific Processing
受傳感器分辨率和視角的限制,點云在真實場景中存在不完整、噪聲和稀疏性問題。為此,PoinTr[123]將原始點云表示為一組局部點云代理,并利用幾何感知編碼器-解碼器Transformer將中心點云代理向不完整點云方向遷移。SnowflakeNet[124]將點云補全的過程公式化為類似雪花的生長,它通過point-wise splitting deconvolution策略從父點云逐步生成子點云。相鄰層的skip-Transformer進一步細化父層和子層之間的空間上下文特征,以增強它們的連接區域。Choe等人將各種生成任務(例如降噪、補全和超分辨率)統一為點云重構問題,因此稱為PointRecon[125]。基于體素散列,它覆蓋了絕對尺度的局部幾何結構,并利用PointTransformerlike[105]結構將每個體素(query)與其相鄰體素(value-key)進行聚合,以便從離散體素到一組點云集進行細粒度轉換。此外,增強的位置編碼適用于體素局部attention方案,通過使用L1損失的負指數函數作為樸素位置編碼的權重來實現。值得注意的是,與masked生成自訓練相比,補全任務直接生成一組完整點云,而不需要不完整點云的顯式空間先驗。
多傳感器數據流Transformer
在現實世界中,多個傳感器總是互補使用,而不是單個傳感器。為此,最近的工作開始探索不同的融合方法,以有效地協同多傳感器數據流。與典型的CNN相比,Transformer自然適合于多流數據融合,因為它的非特定嵌入和動態交互注意機制。本節根據數據流源(同源流和異源流)詳細介紹了這些方法。
Homologous Stream
同源流是一組具有相似內在特征的多傳感器數據,如多視圖、多維和多模態視覺流數據。根據融合機制,它們可以分為兩類:交互融合和遷移融合。
交互融合:CNN的經典融合模式采用channel級聯操作。然而,來自不同模態的相同位置可能是各向異性的,這不適合CNN的平移不變偏差。相反,Transformer的空間級聯操作使不同的模態能夠超越局部限制進行交互。
對于局部交互,MVT[126]在空間上連接來自不同視圖的patch嵌入,并通過使用模式不可知的Transformer來加強它們的交互。為了減輕多模態特征的冗余信息,MVDeTr[127]將特征圖的每個視圖投影到地平面上,并將多尺度可變形注意力[76]擴展到多視圖設計。其他相關算法TransFuser[128]、COTR[129]可參考論文。
對于全局交互,Wang等人[130]利用共享主干提取不同視圖的特征。代替COTR[129]中的逐像素/逐patch級聯,提取的逐視圖全局特征在空間上進行級聯,以在Transformer中進行視圖融合。考慮到不同相機視圖之間的角度和位置差異,TransformerFusion[132]首先將每個視圖特征轉換為具有其相機視圖的內部和外部的嵌入向量。這些嵌入然后被饋送到global Transformer中,該global Transformer的注意力權重用于幀選擇,以便有效地計算。為了在3D檢測中統一多傳感器數據,FUTR3D[131]將類DETR解碼器中的object queries投影到一組3D參考點中云。這些點云及其相關特征隨后從不同的模態中采樣并在空間上連接以更新object queries。
遷移融合:與Transformer編碼器通過self-attention實現的交互式融合不同,另一種融合形式更像是通過交叉關注機制從源數據到目標數據的遷移學習。例如,Tulder等人[133]在中間主干特征中插入了兩個協作的交叉注意力Transformer,用于橋接未配準的多視圖醫學圖像。代替pixel-wise 注意力形式,進一步開發了token-pixel交叉注意力,以減輕繁重的計算。Long等人[134]提出了一種用于多視圖圖像深度估計的對極時空Transformer。給定包含一系列靜態多視點幀的單個視頻,首先將相鄰幀連接起來,然后將對極線扭曲到中心相機空間中。最終得到的幀volume作為源數據,通過交叉注意力與中心幀進行融合。對于空間對齊的數據流,DRT[135]首先通過使用卷積層顯式地建模不同數據流之間的關系圖。隨后將生成的map輸入到雙路徑交叉注意力中,以并行構建局部和全局關系,從而可以收集更多的區域信息用于青光眼診斷。
Heterologous Stream
ViT在異源數據融合方面也表現出色,尤其是在視覺語言表示學習方面。盡管不同的任務可能采用不同的訓練方案,例如監督/自監督學習或緊湊/大規模數據集,但論文僅根據其認知形式將其分為兩類:1)視覺語言-預訓練,包括視覺-語言預訓練(VLP)[204]和對比語言-圖像預訓練(CLIP)[146];2)Visual Grounding如Phrase Grounding(PG)、參考表達理解(REC)。更多比較見表五。
視覺-語言預訓練:由于有限的標注數據,早期的VLP方法通常依賴于現成的目標檢測器[204]和文本編碼器[5]來提取數據特定的特征以進行聯合分布學習。給定圖像-文本對,在視覺基因組(VG)上預先訓練的目標檢測器[205]首先從圖像中提取一組以目標為中心的RoI特征。然后將用作視覺標記的RoI特征與用于預定義任務預訓練的文本嵌入合并。基本上,這些方法分為雙流和單流融合。雙流方法包括ViLBERT[137]、LXMERT[138]。單流方法包括VideoBERT[136]、VisualBERT[139]、VL-BERT[140]、UNITER[141]、Oscar[142]、Unified VLP[143]。然而,這些方法嚴重依賴于視覺提取器或其預定義的視覺詞匯表,導致了降低VLP表達能力上限的瓶頸。一些算法如VinVL[145]、ViLT[144]、UniT[149]、SimVLM[150]嘗試解決這個問題。除了傳統的帶有多任務監督的預訓練方案外,另一條最新的對比學習路線已經開發出來。相關算法有CLIP[146]、ALIGN[148]、Data2Vec[151]。
Visual Grounding:與VLP相比,Visual Grounding具有更具體的目標信號監督,其目標是根據目標對象的相應描述來定位目標對象。在圖像空間中,Modulated DETR(MDETR)[152]將其先前的工作[30]擴展到phrase grounding預訓練,該訓練在一個描述中定位并將邊界框分配給每個instance phrase。其他相關算法Referring Transformer[155]、VGTR[154]、TransVG[153]、LanguageRefer[157]、TransRefer3D[158]、MVT 2022[159]、TubeDETR[160]可以參考具體論文。
討論和結論
近期改進總結
對于分類,深度分層Transformer主干對于降低計算復雜度[41]和避免深層中的過平滑特征[37]、[42]、[66]、[67]是有效的。同時,早期卷積[39]足以捕獲低層特征,這可以顯著增強魯棒性并降低淺層的計算復雜性。此外,卷積投影[54]、[55]和局部注意力機制[35]、[44]都可以改善ViT的局部性。前者[56]、[57]也可能是替代位置編碼的新方法;
對于檢測,Transformer neck從編碼器-解碼器結構中受益,其計算量比僅編碼器Transformer 檢測器少[87]。因此,解碼器是必要的,但由于其收斂較慢,因此需要更多的空間先驗[76],[80]–[85]。此外,前景采樣的稀疏注意力[76]和評分網絡[78]、[79]有助于降低計算成本并加速ViT的收斂;
對于分割,編碼器-解碼器Transformer模型可以通過一組可學習的mask embedding[31]、[103]、[202]將三個分割子任務統一為mask預測問題。這種box-free方法在多個基準測試中實現了最新的SOTA性能[202]。此外,特定的混合任務與基于框的ViT[100]級聯,該模型在實例分割方面表現出了更高的性能;
對于3D視覺,具有評分網絡的局部分層Transformer可以有效地從點云數據中提取特征。全局建模能力使Transformer能夠輕松聚合曲面點,而不是復雜的局部設計。此外,ViT可以處理3D視覺識別中的多傳感器數據,如多視圖和多維數據;
視覺-語言預訓練的主流方法已經逐漸放棄了預訓練的檢測器[144],并專注于基于大規模噪聲數據集[148]的潛在空間中不同數據流之間的對齊[146]或相似性[151]。另一個問題是使下游視覺任務適應預訓練方案,以進行zero-shot遷移[146];
最近流行的多傳感器數據融合架構是單流方法,它在空間上連接不同的數據流并同時執行交互。基于單流模型,最近的許多工作致力于尋找一個潛在空間,使不同的數據流語義一致。
ViT的討論
盡管ViT模型有了很大的發展,但“基本”理解仍然不夠。因此,論文將重點審查一些關鍵問題,以獲得深入和全面的理解。
Transformer如何彌合語言和視覺之間的鴻溝
Transformer最初是為機器翻譯任務設計的[1],其中句子的每個單詞都被視為表示高級語義信息的基本單元。這些詞可以嵌入到低維向量空間中的表示中。對于視覺任務,圖像的每個像素都不能攜帶語義信息,這與傳統NLP任務中的特征嵌入不匹配。因此,將這種特征嵌入(即單詞嵌入)轉移到CV任務中的關鍵是構建圖像到向量的轉換并有效地保持圖像的特征。例如,ViT[29]在強松弛條件下將圖像轉換為具有多個低層信息的patch嵌入。
Transformer、Self-Attention與CNN的關系
從CNN的角度來看,其inductive bias主要表現為局部性、平移不變性、權重共享和稀疏連接。這種簡單的卷積內核可以在低級語義處理中高效地進行模板匹配,但由于過度的偏差,其上限低于Transformers。
從self-attention機制的角度來看,當采用足夠數量的head時,它們理論上可以表示任何卷積層[28]。這種完全注意力操作可以結合局部和全局注意力,并根據特征關系動態生成注意力權重。盡管如此,它的實用性仍然不如SOTA CNN,因為精度更低,計算成本更高。
從Transformer的角度來看,Dong等人證明,當在沒有short connection或FFN的深層上訓練self-attention層時,self-attention表現出對“token uniformity”的強烈感應偏差[167]。可以得出結論,Transformer由兩個關鍵組件組成:self-attention聚合token的關系,以及按位置的FFN從輸入中提取特征。盡管ViT具有強大的全局建模能力,CNN可以有效地處理低級特征[39]、[58],增強ViT的局部性[53]、[81],并通過填充[56]、[57]、[172]附加位置特征。
不同視覺任務的可學習嵌入
各種可學習的嵌入被設計用于進行不同的視覺任務。從目標任務的角度來看,這些嵌入可以分為class token、object query和mask embedding。從結構上看,這些ViT主要采用兩種不同的模式,編碼器和編碼器-解碼器。如圖15所示,每個結構由三個嵌入級別組成。在位置級別上,編碼器Transformer中可學習嵌入的應用被分解為initial token[29]、[87]和later token[42]、[103],而可學習位置編碼[30]、[81]、,[202]和可學習的解碼器輸入嵌入[76]被應用于編碼器-解碼器結構。在數量層面上,編碼器僅設計應用不同數量的token。例如,ViT[29]、[40]家族和YOLOS[87]將不同數量的token添加到初始層中,而CaiT[42]和Segmenter[103]利用這些token來表示不同任務中最后幾層的特征。在編碼器-解碼器結構中,解碼器的可學習位置編碼(object query[30]、[81]或mask embedding[202])被顯式地加入到解碼器輸入[30],[202]或隱式地加入到解碼器輸入[80],[81]。與恒定輸入不同,Deformable DETR[76]采用可學習嵌入作為輸入,并關注編碼器輸出。
在多頭注意力機制的啟發下,使用多個初始token的策略有望進一步提高分類性能。然而,DeiT[40]指出,這些額外的token將朝著相同的結果收斂,并且不會對ViT有利。從另一個角度來看,YOLOS[87]提供了一種范例,通過使用多個初始token來統一分類和檢測任務,但這種編碼器的設計只會導致更高的計算復雜度。根據CaiT[42]的觀察,較后的class token可以略微降低Transformer的FLOPs并提高性能(從79.9%提高到80.5%)。Segmenter[103]也展示了分割任務的策略效率。
與具有多個后期token的僅編碼器Transformer不同,編碼器-解碼器結構減少了計算成本。它通過使用一小組object query(mask embedding)在檢測[30]和分割[202]領域標準化了ViT。通過組合后期token和object query(mask embedding),像Deformable DETR[76]這樣的結構,它將object query和可學習解碼器嵌入(相當于后期token)作為輸入,可以將不同任務的可學習嵌入統一到Transformer編碼器解碼器中。
未來研究方向
ViT已經取得了重大進展,并取得了令人鼓舞的結果,在多個基準上接近甚至超過了SOTA CNN方法。然而,ViT的一些關鍵技術仍然不足以應對CV領域的復雜挑戰。基于上述分析,論文指出了未來研究的一些有前景的研究方向。
集合預測:由于損失函數的相同梯度,多類token將一致收斂[40]。具有二分損失函數的集合預測策略已廣泛應用于ViT,用于許多密集預測任務[30],[202]。因此,自然要考慮分類任務的集合預測設計,例如,多類token Transformer通過集合預測預測混合patch中的圖像,這與LV-ViT中的數據增強策略類似[43]。此外,集合預測策略中的一對一標簽分配導致早期過程中的訓練不穩定,這可能會降低最終結果的準確性。使用其他標簽分配和損失改進集合預測可能有助于新的檢測框架。
自監督學習:Transformer的自監督預訓練使NLP領域標準化,并在各種應用中取得巨大成功[2],[5]。由于自監督范式在CV領域的流行,卷積孿生網絡使用對比學習來實現自監督預訓練,這與NLP領域中使用的masked自動編碼器不同。最近,一些研究試圖設計自監督的ViT,以彌合視覺和語言之間的預訓練方法的差異。它們中的大多數繼承了NLP領域中的masked自動編碼器或CV領域中的對比學習方案。ViT沒有特定的監督方法,但它徹底改變了GPT-3等NLP任務。如前文所述,編碼器-解碼器結構可以通過聯合學習解碼器嵌入和位置編碼來統一視覺任務。因此,值得進一步研究用于自監督學習的編碼器-編碼器Transformer。
結論
自從ViT證明了其在CV任務中的有效性之后,ViT受到了相當大的關注,并削弱了CNN在CV領域的主導地位。本文全面回顧了100多個ViT模型,這些模型相繼應用于各種視覺任務(即分類、檢測和分割)和數據流(如圖像、點云、圖像文本對和其他多個數據流)。對于每個視覺任務和數據流,提出了一種特定的分類法來組織最近開發的ViT,并在各種主流基準上進一步評估其性能。通過對所有這些現有方法的綜合分析和系統比較,本文總結了顯著的性能改進,還討論了ViT的三個基本問題,并進一步提出了未來投資的幾個潛在研究方向。我們希望這篇綜述文章能幫助讀者在決定進行深入探索之前更好地理解各種視覺Transformer。
參考
[1] A Survey of Visual Transformers
審核編輯 :李倩
-
編碼器
+關注
關注
45文章
3651瀏覽量
134776 -
神經網絡
+關注
關注
42文章
4774瀏覽量
100911 -
自然語言處理
+關注
關注
1文章
619瀏覽量
13592
原文標題:一文詳解視覺Transformer在CV中的現狀、趨勢和未來方向(分類/檢測/分割/多傳感器融合)
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論