色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

視覺語言預訓練(VLP)模型的最新進展

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2022-04-02 17:26 ? 次閱讀

讓機器做出與人類相似的反應一直是 AI 研究不懈追求的目標。為了讓機器具有感知和思考的能力,研究人員進行了一系列相關研究,如人臉識別、閱讀理解和人機對話,通過這些任務訓練和評估機器在特定方面的智能。一般來講,領域專家通過手工構建標準數據集,然后在這些數據集上訓練和評估相關模型。然而,由于相關技術的限制,訓練模型往往需要大量的標注數據,以獲得更好、更強大的模型。

基于 Transformer 架構的預訓練模型緩解了這個問題。它們首先通過自監督學習進行預訓練,從大規模未標記數據中訓練模型,從而學習通用表示。它們在下游任務上僅使用少量手動標記的數據進行微調就能取得令人驚訝的效果。自 BERT 被應用于 NLP 任務以來,各種預訓練模型在單模態領域快速發展,例如 Vision Transformer (ViT) 和 Wave2Vec。大量工作表明它們有利于下游單模態任務,并避免從頭開始訓練新模型。

與單模態領域類似,多模態領域也存在高質量標注數據較少的問題。我們不禁會問,上述預訓練方法能否應用于多模態任務?研究人員已經對這個問題進行了探索并取得了重大進展。

在本文中,來自中國科學院自動化研究所、中國科學院大學的研究者調查了視覺 - 語言預訓練(vision-language pre-training,VLP)最新進展和新領域,包括圖像 - 文本預訓練和視頻 - 文本預訓練。VLP 通過對大規模數據的預訓練來學習不同模態之間語義對應關系。例如,在圖像 - 文本預訓練中,研究者期望模型將文本中的狗與圖像中的狗外觀相關聯。在視頻 - 文本預訓練中,研究者期望模型將文本中的對象 / 動作映射到視頻中的對象 / 動作。

視覺語言預訓練(VLP)模型的最新進展

為了實現這一目標,研究者需要巧妙地設計 VLP 對象和模型架構,以允許模型挖掘不同模態之間的關聯。

為了讓讀者更好地全面掌握 VLP,該研究首先從特征提取、模型架構、預訓練目標、預訓練數據集和下游任務五個方面回顧其最近進展。然后,文章詳細總結了具體的 VLP 模型。最后,文章討論了 VLP 的新領域。據了解,這是對 VLP 領域的首次調查。研究者希望這項調查能夠為 VLP 領域的未來研究提供啟示。

VLP 綜述

VLP 五個方面回顧及其最近進展

在特征處理方面:論文主要介紹了 VLP 模型如何進行預處理和表示圖像、視頻和文本以獲得對應特征。

為了充分利用單模態預訓練模型,VLP 隨機初始化標準 transformer 編碼器來生成視覺或文本表示。從視覺來講,VLP 利用預訓練視覺 transformer(例如 ViT 和 DeiT)對 ViT-PF 進行編碼。從文本來講,VLP 使用預訓練文本 transformer(例如 BERT)對文本特征進行編碼。為簡單起見,該研究將這些 transformer 命名為 Xformer。

在模型架構方面:論文從兩個不同的角度介紹 VLP 模型架構:(1)從多模態融合的角度來觀察單流與雙流架構(2)從整體架構設計來比較編碼器以及編碼器 - 解碼器對比。

單流架構是指將文本和視覺特征組合在一起,然后饋入單個 transformer 塊,如下圖 1 (a) 所示。單流架構通過合并注意力來融合多模態輸入。單流架構的參數效率更高,因為兩種模式都使用相同的參數集。

雙流架構是指文本和視覺特征沒有組合在一起,而是獨立饋入到兩個不同的 transformer 塊,如圖 1 (b) 所示。這兩個 transformer 塊不共享參數。為了獲得更高的性能,交叉注意力(如 圖 1 (b) 中的虛線所示)用于實現跨模態交互。為了實現更高的效率,視覺 transformer 塊和文本 transformer 塊之間也可以不采用交叉注意力。

視覺語言預訓練(VLP)模型的最新進展

許多 VLP 模型只采用編碼器架構,不同模態表示直接饋入輸出層。相比之下,其他 VLP 模型提倡使用 transformer 編碼器 - 解碼器架構,不同模態表示首先饋入解碼器,然后饋入輸出層。

在預訓練目標方面:論文通過使用不同的預訓練目標來預訓練 VLP 模型,并將預訓練目標總結為四類:完成、匹配、時間和特定類型。

完成(completion)指的是利用未掩碼部分來重建掩碼元素。以掩碼語言建模 (MLM) 為例,其最早由 taylor 提出,由于 BERT 將其作為預訓練任務而廣為人知。VLP 模型中的 MLM 類似于預訓練語言模型 (PLM) 中的 MLM,它不僅可以通過其余文本 token 來預測掩碼文本 token,還可以通過視覺 token 來預測掩碼文本 token。根據經驗,遵循 BERT 的 VLP 模型以 15% 的掩碼率隨機掩碼每個文本輸入 token,并在 80% 的時間使用特殊 token [MASK]、10% 的時間使用隨機文本 token,剩余 10% 的時間使用原始 token 來替換被掩碼掉的文本。不過在普林斯頓大學陳丹琦等人的論文《Should You Mask 15% in Masked Language Modeling?》中,作者發現:在有效的預訓練方案下,他們可以掩蔽 40-50% 的輸入文本,并獲得比默認的 15% 更好的下游性能。

在掩碼視覺建模 (MVM) 中,與 MLM 一樣,MVM 對視覺(圖像或視頻)區域或 patch 進行采樣,并且通常以 15% 的概率掩碼其視覺特征。VLP 模型需要在給定剩余的視覺特征和所有文本特征的情況下重建掩碼的視覺特征。

視覺 - 語言匹配 (VLM) 是最常用的預訓練目標,用于對齊視覺和語言。在單流 VLP 模型中,研究者使用特殊 token [CLS] 表示作為兩種模態的融合表示。在雙流 VLP 模型中,研究者將特殊視覺 token [CLSV] 視覺表示和特殊文本 token [CLST] 文本表示連接起來,作為兩種模態的融合表示。VLP 模型將兩種模態的融合表示提供給 FC 層和 sigmoid 函數以預測 0 到 1 之間的分數,其中 0 表示視覺和語言不匹配,1 表示視覺和語言匹配。在訓練期間,VLP 模型在每一步從數據集中采樣正對或負對。

在預訓練數據集方面:大多數用于 VLP 的數據集是通過組合跨多模態任務的公共數據集構建而成。這里,一些主流語料庫及其詳細信息如下表 1 所示。

視覺語言預訓練(VLP)模型的最新進展

在下游任務方面:各種各樣的任務需要視覺和語言知識融合。本小節論文介紹了此類任務的基本細節和目標,并將其分為五類:分類、回歸、檢索、生成和其他任務,其中分類、回歸和檢索任務也稱為理解任務。

在分類任務中,其包括視覺問答 (VQA)、視覺推理和合成問答 (GQA)、視覺 - 語言推理 (VLI)、自然語言視覺推理 (NLVR)、視覺常識推理 (VCR) 等。在 VQA 中,提供圖像或視頻視覺輸入,它通常被認為是一個分類任務,模型從一個選擇池中預測出最合適的答案;在 GQA 中,我們可以將 GQA 視為 VQA 的升級版,旨在推進自然場景視覺推理的研究;在 VLI 中,給定具有對齊字幕的視頻剪輯作為前提,并與基于視頻內容的自然語言假設配對,模型需要推斷該假設是否與給定視頻剪輯相矛盾。

在回歸任務中,多模態情感分析 (MSA) 旨在利用多模態信號(如視覺、語言等)檢測視頻中的情緒。它是作為一個連續的強度變量來預測話語的情感走向。

在檢索任務中,視覺 - 語言檢索 (VLR) 通過適當的匹配策略來理解視覺(圖像或視頻)和語言,其包括兩個子任務,視覺到文本檢索和文本到視覺檢索,其中視覺到文本檢索是根據視覺從更大的描述池中獲取最相關的文本描述,反之亦然。

在生成任務中,視覺字幕 (VC) 旨在為給定的視覺(圖像或視頻)輸入生成語義和語法上合適的文本描述。此外,論文還介紹了其他下游任務,例如多模態機器翻譯 (MMT)、視覺語言導航 (VLN) 和光學字符識別 (OCR) 等。

SOTA VLP 模型

圖像 - 文本 VLP 模型。VisualBERT 被稱為第一個圖像 - 文本預訓練模型,使用 Faster R-CNN 提取視覺特征,并將視覺特征和文本嵌入連接起來,然后將連接后的特征饋送到單個由 BERT 初始化的 transformer 中。許多 VLP 模型在調整預訓練目標和預訓練數據集時遵循與 VisualBERT 相似的特征提取和架構。最近,VLMO 利用圖像 patch 嵌入和文本詞嵌入,將組合嵌入與模態專家一起輸入到單個 transformer 中,并取得了令人印象深刻的性能。METER 探索了如何使用單模態預訓練模型,并提出一種雙流架構模型來處理多模態融合,從而在許多下游任務上實現了 SOTA 性能。

視頻 - 文本 VLP 模型。VideoBERT 被稱為第一個視頻 - 文本預訓練模型,其擴展 BERT 模型以同時處理視頻和文本。VideoBERT 使用預訓練的 ConvNet 和 S3D 來提取視頻特征并將它們與文本詞嵌入連接起來,并饋送到以 BERT 進行初始化的 transformer。在訓練 VideoBERT 時,ConvNet 和 S3D 被凍結,這表明該方法不是端到端的。最近,受 ViT 的啟發,Frozen 和 Region-Learner 首先將視頻剪輯處理成幀,并根據 ViT 處理每一幀圖像的方法獲得 patch 嵌入。Frozen 和 Region-Learner 以端到端的方式優化自身并實現 SOTA 性能。

下表 2 總結了更多現有的主流 VLP 模型:

視覺語言預訓練(VLP)模型的最新進展

未來,在現有工作的基礎上,研究者希望 VLP 可以從以下幾個方面進一步發展:

結合聲學信息,以往的多模態預訓練研究大多強調語言和視覺的聯合建模,而忽略了隱藏在音頻中的信息;

知識學習和認知,盡管現有的 VLP 模型已經取得了顯著的性能,但它們本質上是擬合大規模多模態數據集,讓 VLP 模型更有知識對于未來的 VLP 很重要;

提示優化,通過設計離散或連續提示并將 MLM 用于特定的下游任務,這些模型可以減少微調大量參數的計算成本,彌合預訓練和微調之間的差距。

原文標題:多模態綜述 | 一文了解Language-Vision預訓練最新進展和新領域

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    31490

    瀏覽量

    269907
  • 模型
    +關注

    關注

    1

    文章

    3298

    瀏覽量

    49071
  • Transformer
    +關注

    關注

    0

    文章

    145

    瀏覽量

    6032

原文標題:多模態綜述 | 一文了解Language-Vision預訓練最新進展和新領域

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    中國龍芯CPU及產品最新進展

    本內容向大家講解了中國龍芯CPU是什么意思,龍芯CPU最新產品及龍芯CPU最新進展情況
    發表于 12-07 17:09 ?2.8w次閱讀

    【大語言模型:原理與工程實踐】大語言模型訓練

    語言模型的核心特點在于其龐大的參數量,這賦予了模型強大的學習容量,使其無需依賴微調即可適應各種下游任務,而更傾向于培養通用的處理能力。然而,隨著學習容量的增加,對
    發表于 05-07 17:10

    風光互補技術及應用新進展

    風光互補技術及應用新進展   [hide]風光互補技術及應用新進展.rar[/hide] [此貼子已經被作者于2009-10-22 11:52:24編輯過]
    發表于 10-22 11:51

    風光互補技術原理及最新進展

    風光互補技術原理及最新進展摘要: 簡要回顧國內外風電、光伏技術與應用發展態勢,結合風光互補系統應用, 分析、介紹了風光互補LED路燈照明系統、智能控制器設計、分布式供電電源、風光互補水泵系統,并著重
    發表于 10-26 13:45

    DIY懷表設計正式啟動,請關注最新進展。

    ``我們的電子懷表正式啟動,強烈邀請各電子工程師嚴重關注,本次PCB板由華強PCB(http://www.hqpcb.com/ )提供。DIY懷表設計正式啟動,請關注最新進展。做電子的如
    發表于 01-13 09:27

    車聯網技術的最新進展

    `直播主題及亮點:在介紹中國車聯網的發展歷史的基礎上,分析目前的車聯網產品類型和技術路線,分析5G的技術特點、優勢和未來市場發展趨勢,介紹北斗與GPS的區別和北斗衛星的最新進展和應用。針對即將成為車
    發表于 09-21 14:01

    介紹IXIAIP測試平臺和所提供測試方案的最新進展

    介紹IXIAIP測試平臺和所提供測試方案的最新進展
    發表于 05-26 06:46

    ITU-T FG IPTV標準化最新進展如何?

    ITU-T FG IPTV標準化最新進展如何?
    發表于 05-27 06:06

    CMOS圖像傳感器最新進展及發展趨勢是什么?

    CMOS圖像傳感器最新進展及發展趨勢是什么?
    發表于 06-08 06:20

    VisionFive 2 AOSP最新進展即將發布!

    非常開心地在這里和大家提前預告,我們即將發布VisionFive 2 集成 AOSP的最新進展!請大家多多期待吧~ 此次通過眾多社區成員的支持和貢獻(https://github.com
    發表于 10-08 09:15

    UWB通信技術最新進展及發展趨勢

    UWB通信技術最新進展及發展趨勢,下來看看
    發表于 02-07 12:44 ?11次下載

    利用視覺語言模型對檢測器進行訓練

    訓練通常被用于自然語言處理以及計算機視覺領域,以增強主干網絡的特征提取能力,達到加速訓練和提高模型
    的頭像 發表于 08-08 15:33 ?1444次閱讀

    多維度剖析視覺-語言訓練的技術路線

    (如BERT\GPT等)的啟發,視覺-語言訓練 (Vision-Language Pre-training, VLP) 逐漸受到關注,成為
    的頭像 發表于 02-23 11:15 ?946次閱讀

    ASML***的最新進展

    、與 Mike在SEMICON 上的一些討論以及 ASML 最近的財報電話會議中的一些內容。以分享了ASML光刻機的最新進展。
    的頭像 發表于 07-30 10:39 ?2380次閱讀
    ASML***的<b class='flag-5'>最新進展</b>

    5G最新進展深度解析.zip

    5G最新進展深度解析
    發表于 01-13 09:06 ?1次下載
    主站蜘蛛池模板: NANANA在线观看高清影院 | 果冻传媒在线播放 免费观看 | 午夜影视不充值观看 | 国产精品麻豆a在线播放 | 日本XXXXZZX片免费观看 | 一本久道视频无线视频 | 男女XX00上下抽搐动态图 | 亚洲精品一卡二卡三卡四卡2021 | 超碰人人草在线视频 | 99久久99久久免费精品蜜桃 | 国产精品亚洲精品日韩电影 | a级成人免费毛片完整版 | 好色美女小雅 | 国产白丝JK被疯狂输出视频 | 亚洲一区免费香蕉在线 | 国产精品乱码色情一区二区视频 | 在线国产三级 | 国产偷抇久久精品A片蜜臀AV | 精品久久电影网 | 毛片手机在线观看 | 国产又黄又硬又粗 | NANANA在线观看高清影院 | 嫩草影院地址一地址二 | 全免费午夜一级毛片 | 久久国内精品视频 | 乳女教师欲乱动漫无修版动画 | 青柠在线电影高清免费观看 | 色婷婷五月综合久久中文字幕 | 国产一区二区三区在线看片 | 免费观看成人www精品视频在线 | 亚洲呦女专区 | 亚洲国产cao | 7723日本高清完整版在线观看 | 毛片网站网址 | 久久久精品3d动漫一区二区三区 | 色欲AV精品人妻一区二区麻豆 | 婷婷精品国产亚洲AV在线观看 | 伊人亚洲综合青草青草久热 | 亚欧日韩毛片在线看免费网站 | 老师洗澡让我吃她胸的视频 | 国产精品嫩草影院在线观看免费 |