LLM的Transformer是否可以直接處理視覺Token？

宣傳一下最近的新工作，個人感覺是讀博以來做得最難最累但是成就感也最大的一個項目。它起源自一個很簡單的問題——自LLM誕生以來，我們見到了很多把LLM接到Vision Backbone后面的算法，那么有兩個自然的問題：

LLM的Transformer是否可以直接處理視覺Token？

LLM的Transformer是否可以提升處理視覺Token的Performance？

我們的工作回答了這兩個問題 (答案是Yes) 而且解釋了其中的原因：在語言模型中Pretrain的Transformer可以用作視覺任務的Encoder Layer。代碼已經開源，歡迎大家點贊關注我們的Paper和GitHub。

Frozen Transformers in Language Models Are Effective Visual Encoder Layers 代碼：github.com/ziqipang/LM4VisualEncoding

論文：https://arxiv.org/abs/2310.12973

1. LLM的Transformer可以處理視覺Token嗎？

在LLM的加持下，很多Vision-language Model 會直接把來自圖像的Embedding輸入給LLM，并讓LLM作為Decoder輸出文字、類別、檢測框等。但是在這些模型中，LLM并不會直接處理來自圖像的Token，它們更多地是 (1)?處理提前設計好的語義Token，例如CLIP中的cls token；(2)?處理被壓縮過的Token，例如BLIP里面經過information bottleneck的token。那么LLM是否可以直接作用于其它模態的Token呢，即LLM是否可以用作Encoder，而不只是Decoder呢？

1.1 實驗方法

驗證這個事情非常簡單，以ViT為例，我們只需要：

取出某一個LLM的Transformer Layer (例如LLaMA的最后一個Transformer)，請注意這里只需要一個Transformer Block而不是整個LLM；

把它加入到最后一個Encoder Block后面，只需要額外兩個Linear Layers把Feature Dimensions拉齊；

凍結LLM的Transformer，但是正常訓練其它部分。

以ViT為例，我們的模型結構非常簡單，只需要額外兩個線性層

1.2 和現在的Vision-language Model的異同

是否需要Pretraining？我們的方法重在提升Encoding能力，所以我們既支持Train-from-scratch，也支持Finetune，而不是必須要依賴預訓練好的Backbones。

是否需要Language？雖然我們用的是LLM的Transformer，但是我們的Framework獨立于使用Language (比如Prompts或者Alignment)，而不是像Vision-language Models一樣必須要Language。

可以處理多少模態？我們的Framework可以泛化到多個模態和任務，而不是只能處理圖像。

Encoder和Decoder有什么區別？Encoder需要直接和Visual tokens打交道，比如和HxW個圖像token的信息做Cross-attention去改變cls token。

現在已經有這么多Vision-language Models了，你們的研究有什么用？首先，我們的研究和現在的vision-language Models不矛盾而且互相補充——現在vision-language model研究如何把視覺embedding輸入給LLM，而我們的研究聚焦如何提供更好的embedding。

1.3 一個預訓練的LLaMA Transformer在許多不同模態、任務的Encoder上都有用

在論文中，我們發現把LLM的Transformer用作視覺Encoder可以泛化到極其多樣的場景。

2D語義：圖像分類 (image classification)

點云：點云分類 (point cloud classification)

視頻：動作識別 (action recognition)

無語義，回歸任務：軌跡預測 (motion forecasting)

2D多模態：2D VQA和圖像搜索 (2D VQA and Retrieval)

3D多模態：3D VQA

在這些任務中，我們的模型不只要處理圖像上像patch一樣的Token，還要處理

點云中無規則的3D點

視頻中形狀是TxHxW的長方體形狀的token

軌跡預測里面來自Agent和高精地圖的Polylines

多模態任務中混合了圖像和語言的Token

ImageNet, 圖像分類

2D/3D 語言多模態任務

自動駕駛，軌跡預測

2. 為什么預訓練的LLM Transformer有用：Information Filtering Hypothesis

雖然我們在許多任務和模態上都看到了性能的提升，但是如何解釋這一點呢？我們在研究的過程中感覺如果把加了LLM的提升都歸結于"LLM包含了可以泛化的知識"，其實比較偷懶而且不一定正確。所以我們研究了Token在加LLM transformer前后的變化提出了Information Filtering假設：

LLM Transformer模塊能夠在訓練的過程中篩選和目標任務相關的Visual Tokens并且放大他們的貢獻。

這個結論是我們paper里面可能最重要的發現。

2.1 在ViT上的觀察 —— LLM Transformer篩選出了前景

為什么可以這么說呢？我們看下圖中我們對ViT的Token Activation的可視化：為了體現不同Token的貢獻，我們從本身Activation的大小(L2-norm)和頻率大小進行了可視化(做傅里葉變換后算角度的L2-norm)。

可以看到：在有了LLM Transformer之后，ViT的Activation能更干凈地集中到前景區域，而這個性質只有在無監督學習的ViT中(e.g. DINO)中可以見到，在監督學習的ViT中很少見。

另一方面，我們對比了有/沒有LLM transformer對于Attention weight的影響：普通的ViT的Attention Weight幾乎是完全Noisy的 (和DINO的觀察吻合)，在加了LLMTransformer之后 (1) 有極少的Attention Head體現出了干凈的前景分割的樣子，但是 (2) 它們的數量較少不足以解釋Token Activation更顯著地好。

因此，我們觀察到的提升來自有用的Feature被放大了，這也是為什么我們稱之為information filtering hypothesis。

2.2 在其它任務的也可以篩選有用的Token

類似的“information filtering”現象不只在ViT和圖像分類上有，在其它任務上，LLM Transformer也有效地提升了對目標任務最有用的Token。這里我們舉兩個例子：

在動作識別中，加了LLaMA的Transformer可以更好地集中到前景的手和物體(low threshold)，也更多地篩選出了手和物體有實際動作的幀(high threshold)。

在3D VQA中，我們可視化了點云Token的大小?？梢钥吹?，那些真正和預測目標、或者問題相關的點得到了更大的關注：比如在左圖中，"behind me"的點云顯著得到了更大的Activation (顏色更亮了)。

3. 一點Ablation Study

那么我們觀察到的現象，即LLM的Transformer可以提升Visual Encoding，是否和不同的層、LLM有關呢？

多種LLM Transformer都可以提升Visual Encoding。例如用LLaMA和OPT的不同Transformer層都會有提升，而且不同層之間也會體現不同的規律。

只有足夠大的LLM才有提升Visual Encoding的效果。例如只有足夠大的OPT才會提升Visual Encoding的效果。

4. 后記

最后寫一些沒有寫在Paper里面的自己的感受和思考：

在論文中最讓我感到興奮的不是結合了LLM在很多Task上都有提升，而是在我們Information filtering假設的分析中看到了質變：神經網絡能夠更好地學習到那些和任務最相關的Token。

那么為什么會有這樣的效果？我猜測是LLM的Transformer的參數矩陣，例如FFN的矩陣，有一些很好的性質，例如在某些情況下是一個高通濾波器。我們可以從反面思考，如果一個參數矩陣是隨機初始化(低通濾波器)，或者干脆就是一個單位矩陣，那么必然不可能去篩選出來有用的Token，并且放大他們的貢獻。

在嘗試解釋這個現象的時候，我們發現用transfer learning的工具來分析會非常有難度，因為我們不能保證vision和language確實在一層transformer之后就align了。最終，一個比較合理的直覺是受到了我本科同學許逸倫"A Theory of Usable Information Under Computational Constraints"這篇Paper的啟發：我們可以把LLM Transformer看作一種Decipher，它提升了Feature的有用性，使得一層MLP或者Decoder的有限計算資源可以把Feature映射到和真實結果Mutual Information更高的空間中。事實上，這也契合我們Information filtering的觀察。

編輯：黃飛

閱讀全文

神經網絡(98386) 神經網絡(98386)
自動駕駛(162872) 自動駕駛(162872)
無監督學習(2732) 無監督學習(2732)
高通濾波器(10802) 高通濾波器(10802)

對比解碼在LLM上的應用

為了改進LLM的推理能力，University of California聯合Meta AI實驗室提出將Contrastive Decoding應用于多種任務的LLM方法。實驗表明，所提方法能有效改進LLM的推理能力。讓我們走進論文一探究竟吧！

2023-09-21 11:37:55

327

LLM3225

LLM3225 - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R15H

LLM3225-R15H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R18H

LLM3225-R18H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R33H

LLM3225-R33H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R56H

LLM3225-R56H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R68H

LLM3225-R68H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

Token、Cookie、Session之間的聯系概述

一分鐘理解 Token、Cookie、Session 的基佬關系

2019-07-25 15:41:09

是否可以使用內部FPGA的資源連接到總線

你好！我正在設計一個MIL-STD控制器。該標準意味著使用直接或變壓器耦合連接到總線。我是否可以使用內部FPGA的資源來完成此連接方法，ori是否必須使用其他外部設備？先謝謝你！以上來自于谷歌翻譯

2018-09-30 11:19:29

視覺傳感器的工作原理、應用和選型

系統信息的直接來源，主要由一個或者兩個圖形傳感器組成，有時還要配以光投射器及其他輔助設備。視覺傳感器的主要功能是獲取足夠的機器視覺系統要處理的最原始圖像。

2020-08-05 07:53:42

視覺傳感器的工作原理、應用和選型

2020-08-12 07:33:53

ABBYY FineReader 和 ABBYY PDF Transformer+功能比對

ABBYY FineReader 12是市場領先的文字識別（OCR），可快速方便地將掃描紙質文檔、PDF文件和數碼相機的圖像轉換成可編輯、可搜索信息。ABBYY PDF Transformer

2017-09-01 10:45:12

ABBYY PDF Transformer+兩步驟使用復雜文字語言

ABBYY PDF Transformer+讓您可創建或轉換希伯來語、意第緒語、日語、中文、泰語、韓語和阿拉伯語的文檔。那么如何順利使用這些復雜語言文字呢？小編教你兩步驟輕松快速處理包含以下復雜語言

2017-10-16 10:17:05

ABBYY PDF Transformer+創建PDF文檔的幾種方式

Transformer+，您可：從紙質文檔創建可搜索的PDF選擇掃描設置，以獲取最佳的文件大小和圖像質量，并創建可搜索的PDF文件。附加的選項包括自動圖像處理、MRC 壓縮和多頁掃描。從文件創建PDF用多種流行格式

2017-09-18 15:44:28

AD5423 nSYNC硬件上是否可以直接接GND，還是必須用IO口來控制？

1. nLDAC硬件上是否可以直接接GND ？ 2. nSYNC 硬件上是否可以直接接GND，還是必須用IO口來控制？ 3. 當有4片AD5423 的時候， 4片AD5423的nSYNC應該怎么處理，是否應該分開接不同的IO口，還是連在一起用一個IO口控制即可？

2023-12-05 07:25:07

Json Web Token是什么？有哪些應用呢

請求頭里），并且在之后的請求里附帶此token，服務器每次會解簽名token，驗證通過則返回資源。另外服務端要支持CORS跨來源資源共享）策略，服務器處理完請求之后，會再返回結果中加

2022-10-18 14:34:25

LV視覺處理是否有高斯濾波處理方法的模塊（萌新發問）？

如題，是否有直接可以調用的函數，以及求某塊區域中心類似的問題可以直接使用的函數？只看到均值濾波...是不是這一塊要自己編寫？

2017-12-03 11:53:35

LabVIEW Vision Assistant的圖像處理，NI視覺助手教程免費閱讀

點擊學習>>《龍哥手把手教你學LabVIEW視覺設計》視頻教程LabVIEW Vision Assistant的圖像處理，NI視覺助手教程免費閱讀非常好的一份教程，特別的詳細，比英文版

2013-09-17 16:34:02

MAX6651如果只利用四路TACH用于監控風扇轉速，FB和OUT是否可以不做處理，直接浮空？

請教一下，MAX6651如果只利用四路TACH用于監控風扇轉速，FB和OUT是否可以不做處理，直接浮空？

2024-01-03 08:30:14

PDF Transformer+“調整亮度”警告消息解決辦法

在掃描期間，如果亮度設置不正確，ABBYY PDF Transformer+將顯示警告消息。用黑白模式掃描時，也可能需要調整亮度設置。下面小編給大家講講ABBYY PDF Transformer

2017-10-13 14:20:44

PSoC?是否可以處理PCM信號？

我看到PSoC? 6 有 PDM -> PCM 轉換器但我想知道PSoC?是否可以處理 PCM 信號如果是的話，它將使用哪些引腳

2024-03-04 07:55:31

PictureBox控件怎么轉換labivew可以直接處理的圖像？

附件是大華CCD的demo程序，通過.net控件讀取圖像，但是讀取的圖像在picturebox控件顯示，沒辦法直接處理，我查了下picturebox的函數，沒找到轉換數組之類的節點屬性，請問有什么方法可以轉換成vison控件可以直接處理的格式？

2017-04-06 09:05:10

Spartan-3A或6部分可以直接驅動lan變壓器嗎？

嗨集團，我正在嘗試使用Spartan-3A或6系列FPGA直接驅動lan變壓器進行定制設計。Spartan-3A或6部分可以直接驅動lan變壓器嗎？我不關心信號電平匹配以太網標準與否，因為這是定制

2019-05-29 08:12:29

labview做視覺處理找圓

`如圖所示，用labview做視覺處理，想找到圓圈中間8個圓的輪廓，哪位大神知道怎么弄？`

2019-03-22 09:31:50

你了解在單GPU上就可以運行的Transformer模型嗎

最近，谷歌推出了Reformer架構，Transformer模型旨在有效地處理處理很長的時間序列的數據(例如，在語言處理多達100萬個單詞)。Reformer的執行只需要更少的內存消耗，并且即使在

2022-11-02 15:19:41

光學視覺對中系統

　　視覺對中系統是以現代光學為基礎，運用數字圖像處理、計算機通信和機器視覺系統為一體的現代視覺系統的綜合運用?！　?b class="flag-6" style="color: red">視覺對中系統可以檢查元器件引腳以及測量引腳寬度、間距和數量，從而檢測被貼元器件。這對

2018-09-03 11:06:41

如何更改ABBYY PDF Transformer+旋轉頁面

；自動旋轉全部頁面——讓程序自動選擇頁面的方向，并在必要時進行糾正。此外，您還可以通過單擊頁面窗格項部的兩個按鈕之一對圖像進行旋轉。想要了解關于ABBYY PDF Transformer+基礎教程的更多內容，點擊進入ABBYY中文教程中心（abbyychina.com），查找您想要知道的內容。

2017-10-16 10:19:26

如何更改ABBYY PDF Transformer+界面語言

在安裝ABBYY PDF Transformer+時會讓您選擇界面語言。此語言將用于所有消息、對話框、按鈕和菜單項。在特殊情況下，您可能需要在安裝完成后更改界面語言以適應需求，方法其實很簡單，本文

2017-10-11 16:13:38

怎么實現基于SOPC的運動視覺處理系統的設計？

2021-06-04 06:33:28

機器視覺系統應用于標簽外觀視覺檢查！

`機器視覺系統可以快速獲取大量信息，而且易于自動處理，也易于同設計信息以及加工控制信息集成，因此，在現代自動化生產過程中，人們將機器視覺系統廣泛地用于工況監視、成品檢驗和質量控制等領域。下面我們就來

2019-11-18 16:13:34

計算機視覺論文速覽

AI視野·今日CS.CV 計算機視覺論文速覽transformer、新模型、視覺語言模型、多模態、clip、視角合成

2021-08-31 08:46:46

詳解ABBYY PDF Transformer+中的Bates編號

ABBYY PDF Transformer+ 可讓您將 Bates 編號添加到 PDF 文檔。Bates 編號可方便文檔搜索和檢索，并更加有利于電子歸檔。下面小編給小伙伴們講講ABBYY PDF

2017-11-14 10:28:31

詳解ABBYY PDF Transformer+從多個文件創建PDF文檔

ABBYY PDF Transformer+可以從多個文件創建PDF文檔。您可以合并多種受支持格式的文件以及圖像和純圖像PDF文檔，還可從列表中的每個文件創建一個單獨的PDF文檔。下面小編就給大家講

2017-10-18 10:14:10

詳解ABBYY PDF Transformer+從文件創建PDF文檔

文件與PDF/A 兼容(M)。如果您正從圖像或純圖像PDF中創建PDF文檔，請確保選擇了必要的圖像處理選項。4. 單擊打開。ABBYY PDF Transformer+將從所選文件中創建一個PDF文檔

2017-10-17 14:13:42

請問D26是否可以直接NC？

spec上D26連接enable，我用的是RGB VSYNC 模式，無enable pin，D26是否可以直接NC？

2019-06-17 09:08:16

關于區塊鏈應用—Token的討論

Token是區塊鏈中的重要概念之一，在專業的“鏈圈”人看來，它更準確的翻譯是“通證”，代表的是區塊鏈上的一種權益證明，而非貨幣。

2018-07-06 16:08:00

585

為什么說Token是區塊鏈經濟的鑰匙

破解了Token的含義，也就抓住了研究區塊鏈經濟的鑰匙。現在對Token比較通行的理解是將其看做“可流通的權益證明憑證”，簡稱“通證”。這個定義雖然相對準確并逐漸受人認可，但領域外的人并不熟悉。而Token本身的存在機理仍存在極大爭議。

2018-12-14 11:02:42

1153

什么是Token通證經濟

Token又稱通證，在網絡技術中，Token原指令牌，代表的是一種權利或者說是權益證明，就像是：房產證，身份證，學歷等等。如果要用一句話來定義這種經濟模式，可以理解為：一種用激勵機制來改變生產關系的價值驅動經濟模型。

2019-06-04 09:51:44

2586

谷歌將AutoML應用于Transformer架構,翻譯結果飆升!

為了探索AutoML在序列域中的應用是否能夠取得的成功，谷歌的研究團隊在進行基于進化的神經架構搜索（NAS）之后，使用了翻譯作為一般的序列任務的代理，并找到了Evolved Transformer這一新的Transformer架構。

2019-06-16 11:29:22

2842

視覺新范式Transformer之ViT的成功

? 這是一篇來自谷歌大腦的paper。這篇paper的主要成果是用Transformer[1]取代CNN，并證明了CNN不是必需的，甚至在大規模數據集預訓練的基礎上在一些benchmarks做到

2021-02-24 09:31:23

6455

刪掉Transformer中的這幾層性能變好了？

基于Transformer結構的各類語言模型（Bert基于其encoder,Gpt-2基于其decoder）早已經在各類NLP任務上大放異彩，面對讓人眼花繚亂的transformer堆疊方式，你是否

2021-03-08 10:27:06

3036

如何讓Transformer在多種模態下處理不同領域的廣泛應用？

的多模態領域的任務。例如，ViT專門用于視覺相關的任務，BERT專注于語言任務，而VILBERT-MT只用于相關的視覺和語言任務。一個自然產生的問題是：我們能否建立一個單一的Transformer，能夠在多種模態下處理不同領域的廣泛應用？最近，Facebook的一個人工智能研究團隊進行了

2021-03-08 10:30:19

2380

Transformer模型的多模態學習應用

隨著Transformer在視覺中的崛起，Transformer在多模態中應用也是合情合理的事情，甚至以后可能會有更多的類似的paper。

2021-03-25 09:29:59

9836

解析Transformer中的位置編碼 -- ICLR 2021

引言 Transformer是近年來非常流行的處理序列到序列問題的架構，其self-attention機制允許了長距離的詞直接聯系，可以使模型更容易學習序列的長距離依賴。由于其優良的可并行性以及可觀

2021-04-01 16:07:28

11918

詳解一種簡單而有效的Transformer提升技術

近些年，Transformer［1］逐漸成為了自然語言處理中的主流結構。為了進一步提升Transformer的性能，一些工作通過引入額外的結構或知識來提升Transformer在特定任務上的表現。

2021-04-09 09:50:57

5973

我們可以使用transformer來干什么？

：transformer是什么？transformer能干啥？為什么要用transformer？transformer能替代cnn嗎？怎么讓transformer運行快一點？以及各種個樣的transformer

2021-04-22 10:49:38

11518

如何使用Transformer來做物體檢測？

如果你只是想了解如何使用模型，可以直接跳到代碼部分。結構 DETR模型由一個預訓練的CNN骨干（如ResNet）組成，它產生一組低

2021-04-25 10:45:49

2296

時控開關是否可以直接接燈?

時控開關有手動開、關和定時自動開關兩種控制方式，可以作為普通控制開關使用，亦可以作為自動定時開關使用。

2021-06-13 17:20:00

1919

使用跨界模型Transformer來做物體檢測！

用了Transformer 架構開發的一個目標檢測模型。在這篇文章中，我將通過分析DETR架構的內部工作方式來幫助提供一些關于它的直覺。下面，我將解釋一些結構，但是如果你只是想了解如何使用模型，可以直接跳到代碼部分

2021-06-10 16:04:39

1913

是否可以用AI視覺技術減少公司人力投入？

，對流水線進行不定時抽檢，但抽檢的形式無法覆蓋所有生產單品，還會造成效率低下、人力浪費的情況，影響企業的生產效益。是否可以用AI視覺技術完成產品配件品控，減少公司人力投入？珠海華創智能是一家關注計算機軟硬件

2021-06-17 10:39:44

1116

Inductor and Flyback Transformer Design .pdf

Inductor and Flyback Transformer Design .pdf(繼電保護必須加電源開關嗎)-Inductor and Flyback Transformer Design .pdf

2021-07-26 14:50:20

Transformer的復雜度和高效設計及Transformer的應用

有幫助。本文涉及25篇Transformer相關的文章，對原文感興趣的讀者可以關注公眾號回復： ACL2021Transformers，下載本文所涉及的所有文章～本文主要內容：前言 ACL 2021

2021-09-01 09:27:43

5635

用于語言和視覺處理的高效 Transformer能在多種語言和視覺任務中帶來優異效果

白皮書《Transformer-LS：用于語言和視覺處理的高效 Transformer》中提出了“長-短 Transformer” （Transformer-LS），這是一種高效的 Transformer 架構，用于為語言和視覺任務模擬中具有線性復雜度的長序列。

2021-12-28 10:42:18

1309

MCU內置的12位ADC 是否可以直接用于額溫槍方案嗎？

MCU內置的12位ADC是否可以直接用于額溫槍方案？答案：可以的，而且完全能達到國家對紅外溫度計的相關標準要求。疫情期間，除口罩外，快速測溫的額溫槍也成為搶手貨，各種優秀的額溫槍方案不斷出現。

2022-02-09 10:49:14

Transformer模型結構，訓練過程

notebook的形式完成，本身就是直接可以運行的代碼實現，總共有400行庫代碼，在4個GPU上每秒可以處理27,000個tokens。

2022-06-20 14:26:50

3155

基于卷積的框架有效實現及視覺Transformer背后的關鍵成分

來自清華大學和 Meta AI 的研究者證明了視覺 Transformer 的關鍵，即輸入自適應、長程和高階空間交互，也可以通過基于卷積的框架有效實現。

2022-09-09 15:44:25

879

Transformer常用的輕量化方法

引言：近年來，Transformer模型在人工智能的各個領域得到了廣泛應用，成為了包括計算機視覺，自然語言處理以及多模態領域內的主流方法。

2022-10-25 14:10:41

4289

普通視覺Transformer（ViT）用于語義分割的能力

本文探討了普通視覺Transformer（ViT）用于語義分割的能力，并提出了SegViT。以前基于ViT的分割網絡通常從ViT的輸出中學習像素級表示。不同的是，本文利用基本的組件注意力機制生成語義分割的Mask。

2022-10-31 09:57:41

3801

視覺Transformer在CV中的現狀、趨勢和未來方向

全面性和可讀性：本文根據它們在三個基本CV任務（即分類、檢測和分割）和數據流類型（即圖像、點云、多流數據）上的應用，全面回顧了100多個視覺Transformer。論文選擇了更具代表性的方法

2022-11-08 14:20:35

2123

加速ViT模型新思路！Meta推出Token Merging

更重要的是，token剪枝是動態的過程，需要根據不同的圖像或句子確定token剪枝的不同數量。雖然這有利于提高準確性，但卻不夠實用實用性，因為這種情況下，數據不能再進行批處理。

2022-12-06 15:48:57

313

基于視覺transformer的高效時空特征學習算法

視覺Transofrmer通常將圖像分割為不重疊的塊(patch)，patch之間通過自注意力機制(Self-Attention)進行特征聚合，patch內部通過全連接層(FFN)進行特征映射。每個

2022-12-12 15:01:56

996

一種顯著降低Transformer計算量的輕量化方法

然而，transformer的原始公式在輸入令牌（token）數量方面具有二次計算復雜度。鑒于這個數字通常從圖像分類的14^2到圖像去噪的128^2 = 16K不等，內存和計算的這一限制嚴重限制了它的適用性。

2023-01-10 14:12:48

843

Transformer的興起：提高實時視覺處理的準確度

2012 年，名為 AlexNet 的卷積神經網絡（CNN）贏得了 ImageNet 大規模視覺識別挑戰賽 (ILSVRC)，這是一項年度計算機視覺競賽。任務是讓您的機器學習并“分類”1000 個不同的圖像（基于 ImageNet 數據集）。

2023-01-12 11:01:41

972

介紹一種基于Transformer的大語言模型

大模型的研究者和大公司出于不同的動機站位 LLM，研究者出于對 LLM 的突現能力 (emergent ability) 的好奇和對 LLM 對 NLP 領域能力邊界的拓展、而大公司可能更多出自于商業利益考量；

2023-02-21 18:05:10

940

ChatGPT語言模型核心技術之Transformer

Transformer的主要優點是它可以并行地處理輸入序列中的所有位置，因此在訓練和推理時都有著很好的效率。此外，Transformer沒有使用循環結構，因此它不會受長序列的影響，并且在處理長序列時不會出現梯度消失或爆炸的問題。

2023-03-08 15:36:00

494

關于Transformer的核心結構及原理

Thinking Like Transformers 這篇論文中提出了 transformer 類的計算框架，這個框架直接計算和模仿 Transformer 計算。使用 RASP 編程語言，使每個程序編譯成一個特殊的 Transformer。

2023-03-08 09:39:00

488

正則化方法DropKey: 兩行代碼高效緩解視覺Transformer過擬合

美圖影像研究院（MT Lab）與中國科學院大學在 CVPR 2023 上發表了一篇文章，提出一種新穎且即插即用的正則化器 DropKey，該正則化器可以有效緩解 Vision Transformer 中的過擬合問題。

2023-04-17 11:35:34

794

如何利用LLM做多模態任務？

大型語言模型LLM（Large Language Model）具有很強的通用知識理解以及較強的邏輯推理能力，但其只能處理文本數據。雖然已經發布的GPT4具備圖片理解能力，但目前還未開放多模態輸入接口并且不會透露任何模型上技術細節。因此，現階段，如何利用LLM做一些多模態任務還是有一定的研究價值的。

2023-05-11 17:09:16

648

邱錫鵬團隊提出具有內生跨模態能力的SpeechGPT，為多模態LLM指明方向

LLM 與通用人工智能（AGI）之間仍存在顯著差距。首先，大多數當前 LLM 只能感知和理解多模態內容，而不能自然而然地生成多模態內容。其次，像圖像和語音這樣的連續信號不能直接適應接收離散 token 的 LLM。

2023-05-22 14:38:06

417

LLM性能的主要因素

目前主要的模型的參數 LLaMA系列是否需要擴中文詞表不同任務的模型選擇影響LLM性能的主要因素 Scaling Laws for Neural Language Models OpenAI的論文

2023-05-22 15:26:20

1148

如何利用LLM做多模態任務？

大型語言模型LLM（Large Language Model）具有很強的通用知識理解以及較強的邏輯推理能力，但其只能處理文本數據。雖然已經發布的GPT4具備圖片理解能力，但目前還未開放多模態輸入接口

2023-05-22 15:57:33

466

愛芯元智AX650N成端側、邊緣側Transformer最佳落地平臺

Transformer是當前各種大模型所采用的主要結構，而ChatGPT的火爆讓人們逐漸意識到人工智能有著更高的上限，并可以在計算機視覺領域發揮出巨大潛能。相比于在云端用GPU部署Transformer大模型，在邊緣側、端側部署Transformer最大的挑戰則來自功耗

2023-05-30 11:04:02

615

Transformer在下一個token預測任務上的SGD訓練動態

? 【導讀】 AI理論再進一步，破解ChatGPT指日可待？ Transformer架構已經橫掃了包括自然語言處理、計算機視覺、語音、多模態等多個領域，不過目前只是實驗效果非常驚艷

2023-06-12 10:11:33

466

CVPR 2023 | 清華大學提出LiVT，用視覺Transformer學習長尾數據

Transformer 處理長尾分布數據的能力和特性，還有待進一步挖掘。目前，已有的長尾識別模型很少直接利用長尾數據對視覺 Transformer（ViT）進行訓練。基于現成的預訓練權重進行研究可能會導致不公平的比較結果，因此有必要對視覺 Transformer 在長尾數據下的表現進行系

2023-06-18 21:30:02

315

基于Transformer的大型語言模型（LLM）的內部機制

本文旨在更好地理解基于 Transformer 的大型語言模型（LLM）的內部機制，以提高它們的可靠性和可解釋性。隨著大型語言模型（LLM）在使用和部署方面的不斷增加，打開黑箱并了解它們的內部

2023-06-25 15:08:49

991

我們能否擴展現有的預訓練 LLM 的上下文窗口

? ? 在大家不斷升級迭代自家大模型的時候，LLM（大語言模型）對上下文窗口的處理能力，也成為一個重要評估指標。 ? 比如 OpenAI 的 gpt-3.5-turbo 提供 16k token

2023-06-30 11:09:01

379

2D Transformer 可以幫助3D表示學習嗎？

預訓練的2D圖像或語言Transformer：作為基礎Transformer模型，具有豐富的特征表示能力。作者選擇了先進的2D Transformer模型作為基礎模型，例如Vision Transformers (ViTs) 或者語言模型（如BERT）。

2023-07-03 10:59:43

387

基于 Transformer 的分割與檢測方法

來源：機器之心 SAM （Segment Anything ）作為一個視覺的分割基礎模型，在短短的 3 個月時間吸引了很多研究者的關注和跟進。如果你想系統地了解 SAM 背后的技術，并跟上內卷的步伐

2023-07-05 10:18:39

463

MCU內置的12位ADC是否可以直接用于額溫槍方案嗎？

2023-08-17 16:43:59

457

最新綜述！當大型語言模型（LLM）遇上知識圖譜：兩大技術優勢互補

LLM 是黑箱模型，缺乏可解釋性，因此備受批評。LLM 通過參數隱含地表示知識。因此，我們難以解釋和驗證 LLM 獲得的知識。此外，LLM 是通過概率模型執行推理，而這是一個非決斷性的過程。對于 LLM 用以得出預測結果和決策的具體模式和功能，人類難以直接獲得詳情和解釋。

2023-07-10 11:35:00

1354

LLM對程序員的沖擊和影響

LLM 對軟件研發的單點提效，我之前錄制過一段視頻，大家可以直接觀看，里面有詳細的演示，我在這里就不再贅述了。

2023-07-24 15:39:06

766

RetNet架構和Transformer架構對比分析

微軟研究院最近提出了一個新的 LLM 自回歸基礎架構 Retentive Networks （RetNet）[1,4]，該架構相對于 Transformer 架構的優勢是同時具備:訓練可并行、推理成本低和良好的性能，不可能三角。

2023-07-26 10:44:47

933

使用 Vision Transformer 和 NVIDIA TAO，提高視覺 AI 應用的準確性和魯棒性

的 Transformer 架構應用于視覺數據的機器學習模型。相比基于 CNN 的同類模型具有一些優勢，并能夠并行處理大規模輸入的數據。

2023-08-04 17:40:02

331

汽車領域擁抱Transformer需要多少AI算力？

Transformer在汽車領域應用自然是針對視覺的，ChatGPT3這種至少需要八張英偉達A100顯卡的大模型是絕對無法出現在汽車上的。

2023-08-17 14:57:01

512

掌握基于Transformer的目標檢測算法的3個難點

Transformer來源于自然語言處理領域，首先被應用于機器翻譯。后來，大家發現它在計算機視覺領域效果也很不錯，而且在各大排行榜上碾壓CNN網絡。

2023-08-22 14:52:21

413

Transformers是什么意思？人工智能transformer怎么翻譯？

Transformers是什么意思？transformer怎么翻譯？人工智能transformer怎么翻譯？ Transformers是一個包含自然語言處理中的基礎技術的深度神經網絡。它可以將源語言

2023-08-22 15:59:24

1945

BEV人工智能transformer

BEV人工智能transformer? 人工智能Transformer技術是一種自然語言處理領域的重要技術，廣泛應用于自然語言理解、機器翻譯、文本分類等任務中。它通過深度學習算法從大規模語料庫中自動

2023-08-22 15:59:28

549

大模型基礎Transformer結構的原理解析

該研究的結果適用于一般數據集，可以擴展到交叉注意力層，并且研究結論的實際有效性已經通過徹底的數值實驗得到了驗證。該研究建立一種新的研究視角，將多層 transformer 看作分離和選擇最佳 token 的 SVM 層次結構。

2023-09-07 10:50:33

746

從原理到代碼理解語言模型訓練和推理，通俗易懂，快速修煉LLM

要理解大語言模型（LLM），首先要理解它的本質，無論預訓練、微調還是在推理階段，核心都是next token prediction，也就是以自回歸的方式從左到右逐步生成文本。

2023-09-19 16:25:47

519

在線研討會 | 利用生成式 AI 改變視覺 AI 應用

研討會時間： 2023 年 11 月 3 日（周五）上午?11:00? （北京時間）生成式 AI、大語言模型（LLM）和視覺 Transformer 提供了前所未有的功能，世界各地的開發者們都在

2023-11-01 20:25:03

298

Long-Context下LLM模型架構全面介紹

隨著ChatGPT的快速發展，基于Transformer的大型語言模型(LLM)為人工通用智能(AGI)鋪平了一條革命性的道路，并已應用于知識庫、人機界面和動態代理等不同領域。然而，存在一個普遍

2023-11-27 17:37:36

440

怎樣使用Accelerate庫在多GPU上進行LLM推理呢？

大型語言模型(llm)已經徹底改變了自然語言處理領域。隨著這些模型在規模和復雜性上的增長，推理的計算需求也顯著增加。

2023-12-01 10:24:52

396

用上這個工具包，大模型推理性能加速達40倍

作者：英特爾公司沈海豪、羅嶼、孟恒宇、董波、林俊編者按：只需不到9行代碼，就能在CPU上實現出色的LLM推理性能。英特爾 ?Extension for Transformer 創新

2023-12-01 20:40:03

552

如何利用OpenVINO加速LangChain中LLM任務

LangChain 是一個高層級的開源的框架，從字面意義理解，LangChain 可以被用來構建 “語言處理任務的鏈條”，它可以讓AI開發人員把大型語言模型（LLM）的能力和外部數據結合起來，從而

2023-12-05 09:58:14

325

更深層的理解視覺Transformer，對視覺Transformer的剖析

最后是在ADE20K val上的LeaderBoard，通過榜單也可以看出，在榜單的前幾名中，Transformer結構依舊占據是當前的主力軍。

2023-12-07 09:39:15

357

一文詳解LLM模型基本架構

LLM 中非常重要的一個概念是 Token，我們輸入給 LLM 和它輸出的都是 Token。Token 在這里可以看做語言的基本單位，中文一般是詞或字（其實字也是詞）。比如：”我們喜歡 Rust

2023-12-25 10:38:38

657

Transformer壓縮部署的前沿技術：RPTQ與PB-LLM

隨著人工智能技術的迅速發展，Transformer在自然語言處理、機器翻譯、問答系統等領域取得了顯著的性能提升。

2024-01-24 14:05:29

217

LLM推理加速新范式！推測解碼（Speculative Decoding）最新綜述

這個問題隨著LLM規模的增大愈發嚴重。并且，如下左圖所示，目前LLM常用的自回歸解碼（autoregressive decoding）在每個解碼步只能生成一個token。這導致GPU計算資源利用率

2024-01-29 15:54:24

261

基于Transformer模型的壓縮方法

基于Transformer架構的大型模型在人工智能領域中發揮著日益重要的作用，特別是在自然語言處理（NLP）和計算機視覺（CV）領域。

2024-02-22 16:27:19

211

已全部加載完成

搜索歷史

LLM的Transformer是否可以直接處理視覺Token？

評論