色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

利用ImageNet訓練了一個能降噪、超分和去雨的圖像預訓練模型

深度學習實戰 ? 來源:深度學習實戰 ? 作者:深度學習實戰 ? 2021-03-03 16:05 ? 次閱讀

說到Transformer,大家可能會想到BERT[1]、GPT-3[2]等等,這些都是利用無監督訓練的大型預訓練模型。既然Transformer也能用在CV上,那么能不能做類似的事情呢?這篇論文利用ImageNet訓練了一個能降噪、超分和去雨的圖像預訓練模型(IPT)。

Motivation

目前很多low-level的task其實都是有一定相關性的,就是在一個low-level task上預訓練對另一個task是有幫助的,但是目前幾乎沒有人去做相關的工作。而且pre-training在某些數據稀缺的task上就很有必要,并且無論在CV還是NLP,使用pre-trained model是非常常見的事情。對于一些輸入和輸出都是image的low-level算法來說,目前的pre-trained model顯然是不適合的。

準備數據集

因為Transformer需要大量的數據去擬合,所以必須使用一個大型的數據集。在這篇論文中,作者用的是imagenet。對于imagenet的每一張圖片生成各種任務對應的圖像對,例如對于超分(super-resolution)來說,模型的輸入數據是imagenet經過下采樣的數據,而標簽是原圖。

IPT

在上篇文章介紹過了,因為Transformer本身是用于NLP領域的,輸入應該是一個序列,因此這篇的論文做法和ViT[3]一樣,首先需要把feature map分塊,每個patch則視為一個word。但是不同的是,因為IPT是同時訓練多個task,因此模型定義了多個head和tail分別對應不同的task。

整個模型架構包含四個部分:用于提取特征的heads、Transformer Encoder、Transformer Decoder和把feature map還原成輸出的tails。

Heads

不同的head對應于不同的task,由于IPT需要處理多個task,因此是一個multi-head的結構,每個head由3層卷積層組成。Heads要完成的任務可以描述為:fH = Hi(x),x是輸入圖像,f是第i個Head的輸出。

Transformer encoder

在輸入Transformer前,需要將Head輸出的feature map分成一個個patch,同樣還需要加入位置編碼信息,與ViT不同,這里是直接相加就可以作為Transformer Encoder的輸入了,不需要做linear projection。

ef62fdc4-778b-11eb-8b86-12bb97331649.png

fpi是feature map的一個patch,Epi∈ RP*P×C是fpi的learnable position encoding。LN是layer normalization,MSA是多頭self-attention模塊,FFN是feed forward network。

Transformer decoder

Transformer decoder的輸入時encoder的輸出和task embedding。這些task embedding是可訓練的,不同的task embedding代表處理不同的task。decoder的計算可以表示如下:

efacf5dc-778b-11eb-8b86-12bb97331649.png

fEi是指encoder的輸出,fDi是指decoder的輸出。

Tails

Tails與Heads是相對應的,但是不同的tail的輸出的大小可能不一樣,例如超分,做超分時輸出比輸入的圖像大,因此與其它的tail輸出的大小可能不一樣。

Loss

loss由兩部分組成,分別是Lcontrastive和Lsupervised的加權和。

Lsupervised是指IPT的輸出與label的L1 loss。

加入Lcontrastive是為了最小化Transformer decoder對于來自同一張圖的不同patch的輸出的距離,最大化對于不同圖片的patch之間的輸出的距離。

實驗與結果

作者用了32塊NVIDIA Tesla V100,以256的batch size訓練了200個epoch。

Reference

[1]Jacob Devlin, Ming-Wei Chang, Kenton Lee, and KristinaToutanova. Bert: Pre-training of deep bidirectionaltransformers for language understanding. arXiv preprintarXiv:1810.04805, 2018.

[2]Tom B Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al.Language models are few-shot learners. arXiv preprintarXiv:2005.14165, 2020.

[3]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3298

    瀏覽量

    49075
  • 數據集
    +關注

    關注

    4

    文章

    1209

    瀏覽量

    24793
  • nlp
    nlp
    +關注

    關注

    1

    文章

    489

    瀏覽量

    22073

原文標題:視覺新范式Transformer之IPT

文章出處:【微信號:gh_a204797f977b,微信公眾號:深度學習實戰】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    KerasHub統、全面的訓練模型

    深度學習領域正在迅速發展,在處理各種類型的任務中,訓練模型變得越來越重要。Keras 以其用戶友好型 API 和對易用性的重視而聞名,始終處于這動向的前沿。Keras 擁有專用的內
    的頭像 發表于 12-20 10:32 ?153次閱讀

    什么是大模型、大模型是怎么訓練出來的及大模型作用

    ,基礎模型。 ? 大模型簡稱,完整的叫法,應該是“人工智能訓練
    的頭像 發表于 11-25 09:29 ?2328次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓練</b>出來的及大<b class='flag-5'>模型</b>作用

    AI大模型訓練數據來源分析

    學術機構、政府組織或企業公開發布,涵蓋了各種類型的數據,如圖像、文本、音頻、視頻等。例如: ImageNet廣泛用于圖像識別任務的大
    的頭像 發表于 10-23 15:32 ?970次閱讀

    如何訓練自己的AI大模型

    訓練自己的AI大模型復雜且耗時的過程,涉及多個關鍵步驟。以下是詳細的
    的頭像 發表于 10-23 15:07 ?2533次閱讀

    直播預約 |數據智能系列講座第4期:訓練的基礎模型下的持續學習

    鷺島論壇數據智能系列講座第4期「訓練的基礎模型下的持續學習」10月30日(周三)20:00精彩開播期待與您云相聚,共襄學術盛宴!|直播信息報告題目
    的頭像 發表于 10-18 08:09 ?259次閱讀
    直播預約 |數據智能系列講座第4期:<b class='flag-5'>預</b><b class='flag-5'>訓練</b>的基礎<b class='flag-5'>模型</b>下的持續學習

    訓練和遷移學習的區別和聯系

    訓練和遷移學習是深度學習和機器學習領域中的兩重要概念,它們在提高模型性能、減少訓練時間和降低對數據量的需求方面發揮著關鍵作用。本文將從定
    的頭像 發表于 07-11 10:12 ?1176次閱讀

    大語言模型訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型訓練是這技術發展的關鍵步驟,它通過在海量無標簽數據上進行訓練,使
    的頭像 發表于 07-11 10:11 ?513次閱讀

    人臉識別模型訓練流程

    據準備階段,需要收集大量的人臉圖像數據,并進行數據清洗、標注和增強等操作。 1.1 數據收集 數據收集是人臉識別模型訓練的第步??梢酝ㄟ^網絡爬蟲、公開數據集、合作伙伴等途徑收集人臉
    的頭像 發表于 07-04 09:19 ?1080次閱讀

    人臉識別模型訓練是什么意思

    人臉識別模型訓練是指通過大量的人臉數據,使用機器學習或深度學習算法,訓練能夠識別和分類人臉的模型
    的頭像 發表于 07-04 09:16 ?708次閱讀

    訓練模型的基本原理和應用

    訓練模型(Pre-trained Model)是深度學習和機器學習領域中的重要概念,尤其是在自然語言處理(NLP)和計算機視覺(CV)
    的頭像 發表于 07-03 18:20 ?3062次閱讀

    深度學習模型訓練過程詳解

    深度學習模型訓練復雜且關鍵的過程,它涉及大量的數據、計算資源和精心設計的算法。訓練
    的頭像 發表于 07-01 16:13 ?1449次閱讀

    利用深度循環神經網絡對心電圖降噪

    - 與后來為降噪任務添加的噪聲水平不同。生 成的合成信號的示例如下圖所示。 測試是為了回答兩問題:DRNN對于心電圖噪的有效 性如何數據以及使用合成數據進行
    發表于 05-15 14:42

    【大語言模型:原理與工程實踐】大語言模型訓練

    進行損失計算,得到下一個目標的預測。也會設計些其他輔助訓練任務,與主任務共同訓練。選擇合適的訓練
    發表于 05-07 17:10

    視覺深度學習模型:規模越大效果越佳嗎?

    評估三類模型:(i) 在ImageNet-21k上訓練的ViT,(ii) 在LAION-2B上訓練
    發表于 04-11 09:45 ?558次閱讀
    視覺深度學習<b class='flag-5'>模型</b>:規模越大效果越佳嗎?

    谷歌模型訓練軟件有哪些功能和作用

    谷歌模型訓練軟件主要是指ELECTRA,這是種新的訓練方法,源自谷歌AI。ELECTRA不僅擁有BERT的優勢,而且在效率上更勝
    的頭像 發表于 02-29 17:37 ?843次閱讀
    主站蜘蛛池模板: 亚洲中文字幕无码一去台湾 | 欧美三级在线完整版免费 | 久久99精国产一区二区三区四区 | 97视频在线观看视频最新 | 一本色道久久综合亚洲精品 | 欧美16一17sex性hd | 11 13加污女qq看他下面 | 伊人大香线蕉影院在线播放 | 国产一浮力影院 | 色婷婷激情AV精品影院 | 亚洲一区电影在线观看 | 五月丁香婷姐色 | 亚洲色噜噜狠狠站欲八 | 热热久久这里只有精品 | 天堂Av亚洲欧美日韩国产综合 | 日本一卡精品视频免费 | 中国拍三a级的明星女 | 国产精品嫩草影视在线观看 | 欧美gv明星 | 神马影院午夜理论二 | 成人国产亚洲欧美成人综合网 | 亚洲va精品中文字幕 | 大中国免费视频大全在线观看 | 亚洲精品动漫免费二区 | 亚洲午夜精品A片久久WWW软件 | 国产成人免费全部网站 | 午夜在线观看免费观看 视频 | 不卡人妻无码AV中文系列APP | 影音先锋av丝袜天堂 | 久久er99热精品一区二区 | 曰本真人00XX动太图 | 国产精品欧美一区二区在线看 | 好姑娘社区在线视频 | 国产色青青视频在线观看 | 中文字幕永久在线观看 | 99re久久热在线视频 | 东北女人一级毛片 | 在线免费观看毛片网站 | 欧美ZC0O人与善交的最新章节 | 1300部真实小Y女视频合集 | 2020最新国产自产精品 |