色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

微軟亞研提出VL-BERT,現取得了當前單模型的最好效果

JqWP_youuav ? 來源:陳年麗 ? 2019-09-03 15:04 ? 次閱讀

機器之心發布

來自中科大、微軟亞研院的研究者們提出了一種新型的通用視覺-語言預訓練模型(Visual-Linguistic BERT,簡稱 VL-BERT),該模型采用簡單而強大的 Transformer 模型作為主干網絡,并將其輸入擴展為同時包含視覺與語言輸入的多模態形式,適用于絕大多數視覺-語言下游任務。

為了讓 VL-BERT 模型利用更為通用的特征表示,作者在大規模圖片描述生成數據集 ConceptualCaptions 中進行 VL-BERT 的預訓練,實驗證明此預訓練過程可以顯著提高下游的視覺-語言任務的效果,包含視覺常識推理、視覺問答與引用表達式理解等。值得一提的是,在視覺常識推理排行榜中,VL-BERT 取得了當前單模型的最好效果。

適用于下游任務的通用特征表示預訓練是深度網絡成功的標志之一。在計算機視覺領域,深度網絡在 ImageNet 數據集進行圖像分類的預訓練過程,被發現可廣泛提高多種圖像識別任務的效果。在自然語言處理領域中,Transformer 模型在大規模語料庫中使用語言模型進行預訓練的過程,也被證明可廣泛提高多種自然語言處理任務的效果。

但對于計算機視覺和自然語言處理領域交叉的任務,例如圖像標題生成、視覺問答、視覺常識推理等,缺少這種預訓練的通用多模態特征表示。

一般來說,之前的視覺-語言模型分別使用計算機視覺或自然語言處理領域中的預訓練模型進行初始化,但如果目標任務數據量不足,模型容易過擬合從而損失性能。并且對于不同的視覺-語言任務,其網絡架構一般是經過特殊設計的,由此很難通過視覺-語言聯合預訓練的過程幫助下游任務。

由此,在本文中,提出了一種可廣泛應用于視覺-語言任務的預訓練通用特征表示,稱為 Visual-LinguisitcBERT,簡稱 VL-BERT,其架構如下圖所示:

VL-BERT 的主干網絡使用 TransformerAttention 模塊,并將視覺與語言嵌入特征作為輸入,其中輸入的每個元素是來自句子中的單詞、或圖像中的感興趣區域(Region of Interests,簡稱 RoIs)。在模型訓練的過程中,每個元素均可以根據其內容、位置、類別等信息自適應地聚合來自所有其他元素的信息。在堆疊多層 TransformerAttention 模塊后,其特征表示即具有更為豐富的聚合與對齊視覺和語言線索的能力。

為了更好地建模通用的視覺-語言表示,在大規模視覺-語言語料庫中對 VL-BERT 進行了預訓練。采用的預訓練數據集為圖像標題生成數據集,Conceptual Captions,其中包含了大約 330 萬個圖像標題對。

VL-BERT 的預訓練主要采用三個任務:a) 屏蔽語言模型(Masked Language Modeling),即隨機屏蔽掉語句中的一些詞,并預測當前位置的詞是什么;b) 屏蔽 RoI 分類(MaskedRoIClassification),即隨機屏蔽掉視覺輸入中的一些 RoIs,并預測此空間位置對應 RoI 的所屬類別;c) 圖像標題關聯預測(Sentence-Image Relationship Prediction),即預測圖像與標題是否屬于同一對。

在預訓練結束后,使用微調來進行下游任務的訓練。本文中主要在三個視覺-語言下游任務中進行微調,即視覺常識推理(VisualCommonsenseReasoning)、視覺問答(VisualQuestionAnswering)與引用表達式理解(ReferringExpressionComprehension),下面將分別介紹。

視覺常識推理任務即給定圖片與相關問題,機器不僅需要回答問題,還需要提供理由來證明答案的正確性。此任務(Q-》AR)被分解為兩個子任務,即視覺問答(Q-》A,給定圖片與問題,輸出正確答案),以及視覺推理(QA-》R,給定圖片、問題與答案,輸出正確的理由)。

下面以視覺問答子任務為例,此任務的輸入為問題、答案與圖像的 RoIs,并預測此答案是否為正確答案。除此之外,作者發現微調時增加與預訓練類似的 RoI 分類損失也會進一步提升性能,如下:

視覺問答任務即給定圖片,回答與圖片輸入相關的問題。由此模型的輸入即為問題與圖像,基本元素為單詞或 RoI,最終對答案進行預測,如下:

引用表達式理解任務是使用給定的引用表達式來定位圖像中的相關對象,由此輸入為查詢(引用表達式)與圖片中的 RoIs,并預測哪個 RoI 為查詢輸入的引用,如下:

下面將介紹論文中的一些主要實驗結果:

a)在視覺常識推理(Visual Commonsense Reasoning)任務中,與當前最好方法的結果比較如下:

b)在視覺問答(Visual Question Answering)任務中,與當前最好方法的結果比較如下:

c)在引用表達式理解(Referring Expression Comprehension)任務中,與當前最好方法的結果比較如下:

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 微軟
    +關注

    關注

    4

    文章

    6627

    瀏覽量

    104441
  • 機器
    +關注

    關注

    0

    文章

    784

    瀏覽量

    40808

原文標題:牛人發明無人機自動建房,空中噴“水泥”,網友:建筑工人要失業

文章出處:【微信號:youuav,微信公眾號:無人機網】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    大連理工提出基于Wasserstein距離(WD)的知識蒸餾方法

    的機制,應用于中間層蒸餾時存在問題,其無法處理不重疊的分布且無法感知底層流形的幾何結構。 為了解決這些問題,大連理工大學的研究人員提出了一種基于 Wasserstein 距離(WD)的知識蒸餾方法。所提出方法在圖像分類和目標檢測任務上均
    的頭像 發表于 01-21 09:45 ?103次閱讀

    基于移動自回歸的時序擴散預測模型

    回歸取得了比傳統基于噪聲的擴散模型更好的生成效果,并且獲得了人工智能頂級會議 NeurIPS 2024 的 best paper。 然而在時間序列預測領域,
    的頭像 發表于 01-03 14:05 ?191次閱讀
    基于移動自回歸的時序擴散預測<b class='flag-5'>模型</b>

    微軟科技2025年的新年祝福

    2024即將畫上句號,在過去的一年里,很微軟 AI持續創新和突破,并取得了矚目的成就。
    的頭像 發表于 01-02 09:09 ?257次閱讀

    【「具身智能機器人系統」閱讀體驗】2.具身智能機器人大模型

    取得了令人矚目的效果。 閱讀感悟 從傳統的手動編程到借助大模型實現智能化、自主化,從單一模態的交互到多模態信息的深度融合,再到擴散模型的應用,機器人控制技術正在以驚人的速度進化。這不
    發表于 12-29 23:04

    通義千問發布第二代視覺語言模型Qwen2-VL

    。Qwen2-VL系列模型在多模態處理領域取得了突破性進展,于多個權威測評中嶄露頭角,刷新了多項最佳成績記錄,展現出強大的視覺理解與語言交互能力。
    的頭像 發表于 09-03 16:31 ?614次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型自其問世以來,在自然語言處理(NLP)領域取得了巨大的成功,并成為了許多先進模型(如BERT、GPT等)的基礎。本文將深入解讀如何使用PyTorch框架搭建T
    的頭像 發表于 07-02 11:41 ?1835次閱讀

    微軟推出首個基于AI的天氣預報系統

    微軟近日發布了其首個大型大氣基礎模型Aurora,該模型在天氣預測領域開啟了全新的高精度時代。Aurora的發布標志著微軟在人工智能和氣象科學領域的深度融合
    的頭像 發表于 06-07 15:44 ?556次閱讀

    德:下半年將推出50μm以下無襯底芯片Micro產品

    近日,利德在接受行業機構調研時,再次確認了Micro LED作為公司核心戰略產品的地位。利德在Micro LED領域已經取得了顯著的技術突破和市場應用。
    的頭像 發表于 06-06 10:20 ?768次閱讀

    谷歌提出大規模ICL方法

    谷歌DeepMind團隊近日取得了一項突破性的研究成果。他們提出了強化和無監督兩種新型的ICL(In-Context Learning)學習方法,這一創新技術能夠在多個領域顯著提升模型的性能。
    的頭像 發表于 05-14 14:17 ?399次閱讀

    微軟將推出自AI大模型

    微軟正在緊鑼密鼓地訓練一款全新的自人工智能大模型——“MAI-1”。據悉,這款模型規模龐大,足以與谷歌的Gemini和OpenAI的ChatGPT相媲美。
    的頭像 發表于 05-13 11:30 ?697次閱讀

    微軟5000億參數大模型曝光

    微軟近日曝光了其內部正在秘密研發的巨型AI模型——MAl-1,這款模型擁有驚人的5000億參數。據微軟首席技術官Kevin Scott確認,MAl-1的研發工作確實在穩步推進中,并且該
    的頭像 發表于 05-08 09:56 ?485次閱讀

    微軟AI大模型即將問世

    微軟正悄然醞釀一項重大技術突破,據內部消息人士透露,公司正全力訓練一款名為“MAI-1”的自人工智能大模型。這款模型備受期待,其規模龐大,足以與谷歌的Gemini和OpenAI的Ch
    的頭像 發表于 05-07 14:46 ?520次閱讀

    微軟MSN天氣服務引入全新AI模型

    微軟在天氣預測領域取得了突破性的進展,為MSN天氣服務引入了全新的AI預測模型。該模型微軟Start團隊精心研發,并基于他們在arXiv上
    的頭像 發表于 05-07 09:25 ?614次閱讀

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    之后,成為文本建模領域的熱門架構。不僅如此,它還對自然語言處理領域產生了深遠的影響。基于Transformer的預訓練模型,如GPT系列和BERT系列,已在多種任務上取得了卓越的成績。目前的大型語言
    發表于 05-05 12:17

    拐點已?智能駕駛或將重塑汽車產業格局

    隨著GPT大模型和FSD端到端的出現,基于“數據-算力”的方法拋棄了傳統的算法和編程CODING,取得了巨大的進展。通過Scaling law數據規模(百萬輛車視頻數據),終于實現了像人一樣駕駛的效果
    發表于 04-08 10:01 ?578次閱讀
    拐點已<b class='flag-5'>現</b>?智能駕駛或將重塑汽車產業格局
    主站蜘蛛池模板: 色综合 亚洲 自拍 欧洲 | 鲁大师影院在线视频在线观看 | 高清观看ZSHH96的视频素材 | 日日摸夜夜嗷嗷叫日日拍 | 最新高清无码专区 | 欧美黑人经典片免费观看 | 欧美又粗又大AAAA片 | 免费无码一区二区三区蜜桃大 | 国产99九九久久无码熟妇 | 高H纯肉NP 弄潮NP男男 | 偷拍 自怕 亚洲 在线 | 学校女性奴sm训练调教 | 欧美一区二区三区男同 | 国产互换后人妻的疯狂VIDEO | 成人精品在线视频 | 国产欧美一区二区三区视频 | adc影院欢迎您大驾光临入口 | 国产午夜在线观看视频播放 | 多人乱肉高hnp | 丰满的美女射精动态图 | 精品视频在线播放 | 老熟女重囗味GRANNYBBW | 午夜男女爽爽羞羞影院在线观看 | 男女性杂交内射妇女BBWXZ | 日本三区四区免费高清不卡 | 亚洲免费观看在线视频 | 美女叉腿掰阴大胆艺术照 | 亚洲成色爱我久久 | 老师洗澡让我吃她胸的视频 | 国产亚洲人成在线视频 | 欧美乱妇15p图 | 97人人碰免费视频公开 | 榴莲黄版无限刷 | 亚洲AV无码A片在线观看蜜桃 | 国产精品资源在线观看网站 | 国内精品日本久久久久影院 | 美女被C污黄网站免费观看 美女白虎穴 | 日本高清免费一本视频在线观看 | 国产在线精彩亚洲久久 | 小女生RAPPER入口 | 天堂草原天黑黑 |