色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Transformer模型的多模態學習應用

深度學習實戰 ? 來源:CSDN技術社區 ? 作者:Facebook Amusi ? 2021-03-25 09:29 ? 次閱讀

導讀

隨著Transformer在視覺中的崛起,Transformer在多模態中應用也是合情合理的事情,甚至以后可能會有更多的類似的paper。先來解釋一下什么多模態,模態譯作modality,多模態譯作multimodel。多模態學習主要有一下幾個方向:表征、轉化、對齊、融合和協同學習。人就是生活在一個多模態的世界里面,文字、視覺、語言都是不同的模態,當我們能夠同時從視覺、聽覺、嗅覺等等來識別當前發生的事情,實際上我們就是在做了多模態的融合。而Transformer is All You Need這篇論文(從Attention is All You Need開始大家都成了標題黨,X is All You Need)是屬于協同學習(Co-learning)的范疇,將多個不同的tasks一起訓練,共享模型參數

689857c6-8d02-11eb-8b86-12bb97331649.png

68f430be-8d02-11eb-8b86-12bb97331649.png

背景介紹

這篇論文出自Facebook AI Research,文章提出了UniT,Unified Transformer model,用一個Transformer模型去同時學習多個不同的tasks,甚至這些tasks的領域都可能不同,從目標檢測到語言理解,一共訓練了7個tasks8個datasets,但是各個beachmark上都取得了不錯的成績。Transformer在各種不同的領域中都取得了極大的成功,例如NLP、images、video和audio,不僅在以上領域表現出色,甚至在一些vision-and-language reasoning的tasks上,比如VQA(visual question answering)也有很強的表現。但是現有的一些多模態的模型基本都是關注某一個領域的不同task或者就是用將近N倍的參數去處理N個不同的領域問題。在17年谷歌提出的《One Model To Learn Them All》[1]中也使用了Transformer encoder-decoder的架構,但是不同的是,它對于每個task都需要一個與之對應的decoder,如下圖。類似的還有MT-DNN[2]和VILBERT-MT[3]等等。

6b1f8bcc-8d02-11eb-8b86-12bb97331649.png

UniT: One transformer to learn them all

用單個模型去訓練跨模態的任務,UniT包括對于不同的task對于的encoder,因為不同模態的數據需要經過處理才能放到同一個網絡,就和人獲得不同模態的信息需要不同的器官一樣。然后這些信息會經過一個共享decoder,最后各個task會有對應的簡單的head進行最后的輸出。UniT有兩種不同模態的輸入:圖像和文本。也就是說只需要兩個對應的encoder就可以訓練7種不同的任務,可以形象地比喻這個網絡有兩個不同的器官(Image encoder和Text encoder)。

6b497054-8d02-11eb-8b86-12bb97331649.png

Image encoder一些視覺相關的task,比如目標檢測、視覺問答等都需要處理圖像,在UniT中,圖像先經過一個卷積的backbone,然后再用transformer對特征進行編碼,進一步得到編碼后的向量。圖像的處理與DETR[4]類似。xv=B(I),xv是經過卷積神經網絡B得到的特征圖,B采用了ResNet-50,并在C5中使用了空洞卷積。再用encoder Ev得到圖像編碼的向量,這里使用encoder進行編碼時為了區別不同的task加入了task embedding以進行區分,和IPT中的作法類似,因為不同的task它可能關注的點不一樣。

Text encoder對于文本的輸入,采用BERT來進行編碼,BERT是一個在大規模語料庫上預訓練好的模型。給定輸入的文本,和BERT處理一樣,先將文本編碼成tokens的序列{w1, · · · , wS},和image encoder一樣,還需要加入一個wtask來區分不同的task。在實現中,采用了embedding維度是768,12層的BERT。

6c806e8c-8d02-11eb-8b86-12bb97331649.png

Domain-agnostic UniT decoder領域不可知的解碼器,和image和text encoder不一樣的是encoder是針對某一特定領域的,但是encoder的輸入可以是來自與image encoder或者是text encoder,所以是領域不可知。對于純視覺、純文本和視覺文本混合的task,encoder的輸入是不一樣的,純視覺和純文本的task的情況下,decoder的輸入就是它們各自encoder的輸出,但是對于視覺文本的task,decoder的輸入是兩個encoder輸出的拼接,這很好理解,因為需要VQA這種同時會有image和text的輸入。

Task-specific output heads每個task可能最后的輸出差別很大,因此最后使用對應的prediction head來進行最后的預測。對于檢測任務來說,最后decoder產生的每個向量都會produce一個輸出,輸出包括類別和bounding box。當然,對于不同的task,decoder輸入的query是不同的。

6cc738da-8d02-11eb-8b86-12bb97331649.png

Experiments

下圖是所用到的8個不同的數據集以及上面的測試結果,可以看到不同任務的區別還是很大的。

根據下圖的對比,其實UniT有些task離SOTA還是差的有點遠,所以這個領域還是有很大的挖掘的空間的。

6d69c3d4-8d02-11eb-8b86-12bb97331649.png

Conclusion

在這篇論文中,我們可以看到,Transformer確實是可以來處理不同的領域的,跨領域學習確實是個很大的難題,那么Transformer能否成為多模態領域發展的一個跳板呢?我們拭目以待。

Reference論文鏈接:https://arxiv.org/abs/2102.10772
編輯:lyn

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 視覺
    +關注

    關注

    1

    文章

    147

    瀏覽量

    23994
  • paper
    +關注

    關注

    0

    文章

    7

    瀏覽量

    3736
  • Transformer
    +關注

    關注

    0

    文章

    145

    瀏覽量

    6034

原文標題:Facebook提出UniT:Transformer is All You Need

文章出處:【微信號:gh_a204797f977b,微信公眾號:深度學習實戰】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    2025年Next Token Prediction范式會統一模態

    各種模態的信息(如圖像、視頻和音頻片段)分解為最小的單元序列(Token),以便 Transformer 結構為基礎的 NTP 模型學習。 Tokenization 方法可以分為離散(
    的頭像 發表于 01-21 10:11 ?48次閱讀
    2025年Next Token Prediction范式會統一<b class='flag-5'>多</b><b class='flag-5'>模態</b>嗎

    體驗MiniCPM-V 2.6 模態能力

    模態組網
    jf_23871869
    發布于 :2025年01月20日 13:40:48

    商湯日日新模態模型權威評測第一

    剛剛,商湯科技日日新SenseNova模態模型,在權威綜合評測權威平臺OpenCompass的模態評測中取得榜單第一。
    的頭像 發表于 12-20 10:39 ?308次閱讀

    一文理解模態大語言模型——下

    /understanding-multimodal-llms ? 《一文理解模態大語言模型 - 上》介紹了什么是模態大語言
    的頭像 發表于 12-03 15:18 ?189次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態</b>大語言<b class='flag-5'>模型</b>——下

    一文理解模態大語言模型——上

    /understanding-multimodal-llms 在過去幾個月中, OpenVINO? 架構師 Yury閱讀了眾多有關模態大語言模型的論文和博客,在此基礎上,推薦了一篇解讀
    的頭像 發表于 12-02 18:29 ?427次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態</b>大語言<b class='flag-5'>模型</b>——上

    利用OpenVINO部署Qwen2模態模型

    模態模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說
    的頭像 發表于 10-18 09:39 ?517次閱讀

    云知聲山海模態模型UniGPT-mMed登頂MMMU測評榜首

    近日,模態人工智能模型基準評測集MMMU更新榜單,云知聲山海模態模型UniGPT-mMed
    的頭像 發表于 10-12 14:09 ?327次閱讀
    云知聲山海<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>UniGPT-mMed登頂MMMU測評榜首

    Meta發布模態LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了一項重要技術突破,成功推出了模態LLAMA 3.2人工智能模型。這一創新模型不僅能夠深度解析文本信息,還實現了對圖像內容的精準理解,標志著Met
    的頭像 發表于 09-27 11:44 ?431次閱讀

    云知聲推出山海模態模型

    在人工智能技術的浩瀚星海中,模態交互技術正成為引領未來的新航標。繼OpenAI的GPT-4o掀起滔天巨浪后,云知聲以創新之姿,推出了其匠心獨運的山海模態
    的頭像 發表于 08-27 15:20 ?417次閱讀

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    今天來學習大語言模型在自然語言理解方面的原理以及問答回復實現。 主要是基于深度學習和自然語言處理技術。 大語言模型涉及以下幾個過程: 數據收集:大語言
    發表于 08-02 11:03

    依圖模態模型伙伴CTO精研班圓滿舉辦

    模型在不同行業領域的應用前景;7月19日, “依圖科技模態模型伙伴CTO精研班”在杭州圓滿舉辦,讓更多的伙伴們深度體驗了依圖
    的頭像 發表于 07-23 15:16 ?453次閱讀

    李未可科技正式推出WAKE-AI模態AI大模型

    李未可科技模態 AI 大模型正式發布,積極推進 AI 在終端的場景應用 ? 4月18日,2024中國生成式AI大會上李未可科技正式發布為眼鏡等未來終端定向優化等自研WAKE-AI
    發表于 04-18 17:01 ?643次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態</b>AI大<b class='flag-5'>模型</b>

    AI機器人迎來模態模型

    配備 GR00T 模型的機器人由于需要“吸收消化”外界的模態信息,還要快速完成理解、決策、行動等一系列動作,因此對于算力的需求是巨量的。
    發表于 04-12 10:39 ?298次閱讀

    蘋果發布300億參數MM1模態模型

    近日,科技巨頭蘋果公司在一篇由多位專家共同撰寫的論文中,正式公布了其最新的模態模型研究成果——MM1。這款具有高達300億參數的模態
    的頭像 發表于 03-19 11:19 ?938次閱讀

    螞蟻集團推出20億參數模態遙感基礎模型SkySense

    近日,螞蟻集團聯合武漢大學宣布成功研發出20億參數模態遙感基礎模型SkySense。這一創新模型由螞蟻集團的AI創新研發部門NextEvo與武漢大學共同完成,是迄今為止國際上參數規模
    的頭像 發表于 03-04 11:22 ?872次閱讀
    主站蜘蛛池模板: 亚洲免费大全 | 达达兔欧美午夜国产亚洲 | 国产一卡在线观看完整版 | 国产乱子影视频上线免费观看 | 男女后进式猛烈xx00动态图片 | 国产爱豆果冻传媒在线观看视频 | 999zyz色资源站在线观看 | 伊人影院综合网 | 回复术士人生重启在线观看 | 99热精品一区 | 99久久免费热在线精品 | 国产av在在免费线观看美女 | 久久国产加勒比精品无码 | 国产福利视频第一导航 | 大相蕉伊人狼人久草av | 99久久爱re热6在线播放 | 亚洲AV无码一区二区三区乱子伦 | 国产午夜精品片一区二区三区 | 宅男午夜大片又黄又爽大片 | 亚洲女人网 | 成 人 网 站免费观看 | 欧美国产在线一区 | 国产午夜三区视频在线 | 伊人狠狠丁香婷婷综合尤物 | 中文字幕不卡在线高清 | 国产一区二区三区内射高清 | 美女与男人对肌免费网站 | 又爽又黄又粗又大免费视频 | 动漫美女性侵 | 国产欧美日韩亚洲第一页 | 日韩欧无码一区二区三区免费不卡 | FREEHDXXXX学生妹 | 欧洲精品一区二区不卡观看 | 美女张开腿让男生桶动态图 | 亚洲国产区中文在线观看 | 免费人成在线观看视频不卡 | 日本最新在线不卡免费视频 | 护士日本ⅹxxx丰满hd | chinese耄耋70老太性 | 久久足恋网 | av天堂电影网 |