色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

簡述文本與圖像領域的多模態學習有關問題

自然語言處理愛好者 ? 來源:哈工大SCIR ? 作者:李曉辰 ? 2021-08-26 16:29 ? 次閱讀

來自:哈工大SCIR

本期導讀:近年來研究人員在計算機視覺和自然語言處理方向均取得了很大進展,因此融合了二者的多模態深度學習也越來越受到關注。本期主要討論結合文本和圖像的多模態任務,將從多模態預訓練模型中的幾個分支角度,簡述文本與圖像領域的多模態學習有關問題。

1. 引言

近年來,計算機視覺和自然語言處理方向均取得了很大進展。而融合二者的多模態深度學習也越來越受到關注,在基于圖像和視頻的字幕生成、視覺問答(VQA)、視覺對話、基于文本的圖像生成等方面研究成果顯著,下圖1展示了有關多模態深度學習的應用范疇。

在這些任務中,無論是文本還是語音,自然語言都起到了幫助計算機“理解”圖像內容的關鍵作用,這里的“理解”指的是對齊語言中蘊含的語義特征與圖像中蘊含的圖像特征。本文主要關注于結合文本和圖像的多模態任務,將從多模態預訓練模型中的幾個分支來分析目前圖像與文本的多模態信息處理領域的有關問題。

2. 多模態預訓練模型

學習輸入特征的更好表示是深度學習的核心內容。在傳統的NLP單模態領域,表示學習的發展已經較為完善,而在多模態領域,由于高質量有標注多模態數據較少,因此人們希望能使用少樣本學習甚至零樣本學習。最近兩年出現了基于Transformer結構的多模態預訓練模型,通過海量無標注數據進行預訓練,然后使用少量有標注數據進行微調即可。

多模態預訓練模型根據信息融合的方式可分為兩大類,分別是Cross-Stream類和Single-Stream類。

(1)Cross-Stream類模型是指將不同模態的輸入分別處理之后進行交叉融合,例如ViLBERT[1]。2019年Lu Jiasen等人將輸入的文本經過文本Embedding層后被輸入到Transformer編碼器中提取上下文信息。

使用預訓練Faster R-CNN生成圖片候選區域提取特征并送入圖像Embedding層,然后將獲取好的文本和圖像表示通過Co-attention-transformer模塊進行交互融合,得到最后的表征。

(2)Single-Stream類模型將圖片、文本等不同模態的輸入一視同仁,在同一個模型進行融合,例如VL-BERT[2]。2020年,Su Weijie等人提出了VL-BERT,它采用transformer作為主干,將視覺和語言嵌入特征同時輸入模型。

3. 統一多模態模型

在之前的模型中,單模態數據集上訓練的模型只能做各自領域的任務,否則它們的表現會大幅下降。要想學習多模態模型必須圖文結合才行。這種多模態圖文對數據數據量少,獲取成本高。2021年,百度的Li Wei等人[3]提出的UNIMO模型,統一了單模態、多模態模型的訓練方式,既可以利用海量的單模態數據,又能將多模態信號統一在一個語義空間內促進理解。

UNIMO的核心網絡是Transformer,同時為圖像和文本輸入學習統一的語義表示。圖像和文本數據分別通過預訓練的Faster R-CNN和Bert進行特征提取和表示,多模態圖文對數據被轉換為圖像表示序列和文本表示序列的拼接。

這三種類型數據共享模型參數,經過多層注意力機制后得到圖像文本信息統一的語義表示,UNIMO結構如圖4所示。其訓練方式類似Bert, 此外論文還提出了一種跨模態對比學習的新預訓練方法。

在多模態任務上, UNIMO超過了諸如ViLBERT、VLP、UNITER、Oscar、Villa等最新的多模預訓練模型。而且在單模態任務上也取得了不錯的效果,如圖5(b)所示。

4. 視覺物體錨點模型

前面的幾個模型只是將圖像區域特征和文本特征連接起來作為輸入,并不參考任何對齊線索,利用Transformer的self-attention機制,讓模型自動學習整張圖像和文本的語義對齊方式。Oscar的作者[4]提出把物體用作圖像和文本語義層面上的錨點(Anchor Point),以簡化圖像和文本之間的語義對齊的學習任務。

使用Faster R-CNN等預訓練物體檢測器 ,將圖像表示為一組圖像區域特征,每個圖像區域特征分配一個物體標簽,同時使用預訓練后的BERT得到物體標簽的詞嵌入表示。

該模型在共享空間中顯式地將圖像和文本關聯在一起,物體則扮演圖像、文本語義對齊中錨點的角色。在此例中,由于視覺重疊區域,“狗”和“沙發”在圖像區域特征空間中相似,在單詞嵌入空間中有所差異。

經過實驗測試,該模型的性能在多個任務上已經超過SOTA模型。下表中 SoTAS、 SoTAB、和SoTAL分別表示小規模模型、與Bert-base和Bert-large規模相近的VLP模型。OscarB和OscarL分別是基于Bert-base和Bert-large訓練的Oscar模型。

5. 總結

目前多模態研究已經取得了較大進展,但如果以構建能感知多模態信息并利用多模態信息跨越語義鴻溝的智能系統為目標,那么現在的研究仍處于初級階段,既面臨著挑戰,也存在著機遇。在未來,多模態表示學習、多模態情感分析以及任務導向的大規模多模態人機交互系統等方向的發展值得我們關注。

Reference

[1] Lu J , Batra D , Parikh D , et al. ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks[J]。 2019.

[2] Su W , Zhu X , Y Cao, et al. VL-BERT: Pre-training of Generic Visual-Linguistic Representations[J]。 2019.

[3] Li W , Gao C , Niu G , et al. UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning[J]。 2020.

[4] Li X , Yin X , Li C , et al. Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks[M]。 2020.

原文:李曉辰

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 圖像
    +關注

    關注

    2

    文章

    1091

    瀏覽量

    40669
  • 計算機視覺
    +關注

    關注

    8

    文章

    1702

    瀏覽量

    46225
  • 深度學習
    +關注

    關注

    73

    文章

    5527

    瀏覽量

    121833
  • 自然語言處理

    關注

    1

    文章

    623

    瀏覽量

    13710

原文標題:多模態預訓練模型簡述

文章出處:【微信號:NLP_lover,微信公眾號:自然語言處理愛好者】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    階躍星辰開源模態模型,天數智芯迅速適配

    近日,頭部大模型創業公司階躍星辰在行業內引起了軒然大波,宣布正式開源兩款Step系列模態模型——Step-Video-T2V視頻生成模型和Step-Audio語音交互模型。這一消息迅速引發了行業
    的頭像 發表于 02-19 14:30 ?214次閱讀

    一文詳解視覺語言模型

    視覺語言模型(VLM)是一種模態、生成式 AI 模型,能夠理解和處理視頻、圖像文本
    的頭像 發表于 02-12 11:13 ?433次閱讀
    一文詳解視覺語言模型

    2025年Next Token Prediction范式會統一模態

    各種模態的信息(如圖像、視頻和音頻片段)分解為最小的單元序列(Token),以便 Transformer 結構為基礎的 NTP 模型學習。 Tokenization 方法可以分為離散(Discrete
    的頭像 發表于 01-21 10:11 ?129次閱讀
    2025年Next Token Prediction范式會統一<b class='flag-5'>多</b><b class='flag-5'>模態</b>嗎

    體驗MiniCPM-V 2.6 模態能力

    模態組網
    jf_23871869
    發布于 :2025年01月20日 13:40:48

    商湯日日新模態大模型權威評測第一

    剛剛,商湯科技日日新SenseNova模態大模型,在權威綜合評測權威平臺OpenCompass的模態評測中取得榜單第一。
    的頭像 發表于 12-20 10:39 ?447次閱讀

    一文理解模態大語言模型——上

    /understanding-multimodal-llms 在過去幾個月中, OpenVINO? 架構師 Yury閱讀了眾多有關模態大語言模型的論文和博客,在此基礎上,推薦了一篇解讀
    的頭像 發表于 12-02 18:29 ?603次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態</b>大語言模型——上

    淺析OpenVINO 2024.5的新功能

    ,事實上在安全、監控或醫療保健等某些領域至關重要。它代表了從處理文本到處理不同輸入和生成不同形式輸出的重大演變。例如,模態模型可以接收長視頻,并以
    的頭像 發表于 11-25 17:12 ?353次閱讀

    AI大模型的最新研究進展

    。例如,在醫療領域,生成式AI可以幫助醫生生成診斷報告、治療方案等;在教育領域,AI大模型可以生成個性化的學習資源和建議。 模態融合與交互
    的頭像 發表于 10-23 15:19 ?839次閱讀

    利用OpenVINO部署Qwen2模態模型

    模態大模型的核心思想是將不同媒體數據(如文本圖像、音頻和視頻等)進行融合,通過學習不同模態
    的頭像 發表于 10-18 09:39 ?691次閱讀

    Meta發布模態LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了一項重要技術突破,成功推出了模態LLAMA 3.2人工智能模型。這一創新模型不僅能夠深度解析文本信息,還實現了對圖像內容的精準理解,標志著Met
    的頭像 發表于 09-27 11:44 ?495次閱讀

    云知聲推出山海模態大模型

    在人工智能技術的浩瀚星海中,模態交互技術正成為引領未來的新航標。繼OpenAI的GPT-4o掀起滔天巨浪后,云知聲以創新之姿,推出了其匠心獨運的山海模態大模型,正式宣告“Her時代
    的頭像 發表于 08-27 15:20 ?464次閱讀

    依圖模態大模型伙伴CTO精研班圓滿舉辦

    大模型在不同行業領域的應用前景;7月19日, “依圖科技模態大模型伙伴CTO精研班”在杭州圓滿舉辦,讓更多的伙伴們深度體驗了依圖模態大模
    的頭像 發表于 07-23 15:16 ?519次閱讀

    卷積神經網絡在文本分類領域的應用

    在自然語言處理(NLP)領域文本分類一直是一個重要的研究方向。隨著深度學習技術的飛速發展,卷積神經網絡(Convolutional Neural Network,簡稱CNN)在圖像
    的頭像 發表于 07-01 16:25 ?884次閱讀

    李未可科技正式推出WAKE-AI模態AI大模型

    文本生成、語言理解、圖像識別及視頻生成等模態交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+語音打造新一代 LLM-Based的自然交互,同時
    發表于 04-18 17:01 ?687次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態</b>AI大模型

    蘋果發布300億參數MM1模態大模型

    近日,科技巨頭蘋果公司在一篇由多位專家共同撰寫的論文中,正式公布了其最新的模態大模型研究成果——MM1。這款具有高達300億參數的模態模型系列,由密集模型和混合專家(MoE)變體組
    的頭像 發表于 03-19 11:19 ?1006次閱讀
    主站蜘蛛池模板: 国产一级做a爰片久久毛片男 | 亚洲AV久久无码精品九号软件 | 重口味av | xiah俊秀| 国产成人自产拍免费视频 | 鬼灭之刃花街篇免费樱花动漫 | 国精产品一区二区三区 | 依人青青青在线观看 | 99久久精品免费国产一区二区三区 | 久久高清一本无码 | 影音先锋男人av橹橹色 | 久久这里只有精品2 | 男助理憋尿PLAY灌尿BL出去 | 69式国产真人免费视频 | xxxxxx日本处大片免费看 | 自拍偷拍12p | 永久免费看A片无码网站四虎 | 青娱乐国产精品视频 | 国产自产第一区c国产 | 国产成人精品视频播放 | 榴莲推广APP网站入口官网 | 男女后进式猛烈xx00动态图片 | caoporn 超碰免费视频 | 嫩草影院久久精品 | 精品一区二区三区高清免费观看 | 红桃传媒少妇人妻网站无码抽插 | 午夜福利体验免费体验区 | ewp绞死vk失禁编 | 麻豆成人AV久久无码精品 | 久久精品国产亚洲AV忘忧草蜜臀 | 99国产在线精品视频 | 六六影院午夜伦理 | 嗯 用力啊 嗯 c我 啊哈老师 | 97人妻AV天天澡夜夜爽 | 亚洲精品无码久久久久A片 亚洲精品无码国产爽快A片百度 | 亚洲精品第一页中文字幕 | 桃隐社区最新最快地址 | 百性阁综合社区 | 棉袜足j吐奶视频 | 2020国产成人免费视频 | 经典WC女厕所里TV |