色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于Transformer架構(gòu)的文檔圖像自監(jiān)督預(yù)訓(xùn)練技術(shù)

CVer ? 來源:CSIG文檔圖像分析與識別專 ? 作者:CSIG文檔圖像分析與 ? 2022-11-15 11:32 ? 次閱讀

本文簡要介紹ACM MM 2022錄用論文“DiT: Self-supervised Pre-training for Document Image Transformer”[1]的主要工作。該論文是2022年微軟亞研院發(fā)表的LayoutLM V3[2]的前身工作,主要解決了文檔領(lǐng)域中標(biāo)注數(shù)據(jù)稀少和以視覺為中心的文檔智能任務(wù)骨干網(wǎng)絡(luò)的預(yù)訓(xùn)練問題。

一、研究背景

近年來自監(jiān)督預(yù)訓(xùn)練技術(shù)已在文檔智能領(lǐng)域進(jìn)行了許多的實踐,大多數(shù)技術(shù)是將圖片、文本、布局結(jié)構(gòu)信息一起輸入統(tǒng)一的Transformer架構(gòu)中。在這些技術(shù)中,經(jīng)典的流程是先經(jīng)過一個視覺模型提取額外文檔圖片信息,例如OCR引擎或版面分析模型,這些模型通常依賴于有標(biāo)注數(shù)據(jù)訓(xùn)練的視覺骨干網(wǎng)絡(luò)。已有的工作已經(jīng)證明一些視覺模型在實際應(yīng)用中的性能經(jīng)常受到域遷移、數(shù)據(jù)分布不一致等問題的影響。而且現(xiàn)有的文檔有標(biāo)注數(shù)據(jù)集稀少、樣式單一,訓(xùn)練出來的骨干網(wǎng)絡(luò)并非最適用于文檔任務(wù)。因此,有必要研究如何利用自監(jiān)督預(yù)訓(xùn)練技術(shù)訓(xùn)練一個專用于文檔智能領(lǐng)域的骨干網(wǎng)絡(luò)。本文針對上述問題,利用離散變分編碼器和NLP領(lǐng)域的常用預(yù)訓(xùn)練方式實現(xiàn)了文檔圖像的預(yù)訓(xùn)練。

5053a420-62a5-11ed-8abf-dac502259ad0.png

圖1具有不同布局和格式的視覺豐富的業(yè)務(wù)文檔,用于預(yù)培訓(xùn)DiT

二、DiT原理簡述

2.1總體結(jié)構(gòu)

5088a166-62a5-11ed-8abf-dac502259ad0.png

圖2 DiT的總體架構(gòu)

Fig 2是DiT的整體結(jié)構(gòu)。DiT使用ViT[3]作為預(yù)訓(xùn)練的骨干網(wǎng)絡(luò),模型的輸入是圖像Patch化后的Embedding特征向量,Patch的數(shù)量和離散變分編碼器的下采樣比例有關(guān)。輸入經(jīng)過ViT后輸出到線性層進(jìn)行圖像分類,分類層的大小是8192。預(yù)訓(xùn)練任務(wù)和NLP領(lǐng)域的完型填空任務(wù)一致,先對輸入的Patch隨機(jī)掩膜,在模型輸出處預(yù)測被遮蓋的Patch對應(yīng)的Token,Token由Fig 2 中左側(cè)的離散變分編碼器生成,作為每個Patch的Label,預(yù)訓(xùn)練過程使用CE Loss監(jiān)督。

2.2 離散變分編碼器dVAE

離散變分編碼器作為Image Tokenizer,將輸入的Patch Token化,來源于論文DALL-E[4],在預(yù)訓(xùn)練任務(wù)開始前需要額外訓(xùn)練。本文使用數(shù)據(jù)集IIT-CDIP[5]重新訓(xùn)練了DALL-E中的離散變分編碼器以適用于文檔任務(wù)。在預(yù)訓(xùn)練任務(wù)中只使用到編碼器的部分,解碼器不參與預(yù)訓(xùn)練,編碼器將輸入圖片下采樣到原來的1/8,例如輸入尺度為112*112,那編碼后的Token Map為14*14,此時的Map大小,應(yīng)與ViT輸入Patch數(shù)保持一致。

2.3 模型微調(diào)

50e1f356-62a5-11ed-8abf-dac502259ad0.png

圖3在不同檢測框架中應(yīng)用DiT作為骨干網(wǎng)絡(luò)的圖示

模型預(yù)訓(xùn)練完成后,需針對下游任務(wù)進(jìn)行微小的結(jié)構(gòu)改動,針對分類任務(wù),輸入經(jīng)過平均池化和線性層進(jìn)行分類。針對檢測任務(wù),如Fig 3所示,在ViT的特定層進(jìn)行下采樣或上采樣,然后輸入到FPN和后續(xù)的檢測框架中。

三、主要實驗結(jié)果及可視化效果

表1.RVL-CDIP上的文檔圖像分類精度(%),其中所有模型都使用224×224分辨率的純圖像信息(無文本信息)。

51049230-62a5-11ed-8abf-dac502259ad0.png

表2.PubLayNet驗證集上的文檔布局分析mAP@IOU[0.50:0.95]。ResNext-101-32×8d縮短為ResNext,級聯(lián)為C。

5123f530-62a5-11ed-8abf-dac502259ad0.png

表3.ICDAR 2019 cTDaR的表檢測精度(F1)

514b34ce-62a5-11ed-8abf-dac502259ad0.png

表4.文本檢測精度(IoU@0.5)在FUNSD任務(wù)#1中,掩碼R-CNN與不同的主干(ResNeXt、DeiT、BEiT、MAE和DiT)一起使用。“+syn”表示使用包含1M文檔圖像的合成數(shù)據(jù)集訓(xùn)練DiT,然后使用FUNSD訓(xùn)練數(shù)據(jù)進(jìn)行微調(diào)。

51edced2-62a5-11ed-8abf-dac502259ad0.png

520d00f4-62a5-11ed-8abf-dac502259ad0.png

圖4使用不同標(biāo)記器進(jìn)行圖像重建

從左到右:原始文檔圖像,使用自訓(xùn)練dVAE標(biāo)記器進(jìn)行圖像重建,使用DALL-E標(biāo)記器進(jìn)行的圖像重建從表1、表2、表3、表4

來看,文章所提方法在各種下游任務(wù)中取得了state-of-the-art的結(jié)果,驗證了該方法在文檔領(lǐng)域的有效性。Fig 4中展示了重新訓(xùn)練的離散變分編碼器的可視化輸出,結(jié)果顯示本文中的離散變分編碼器效果更好。

四、總結(jié)及討論

本文設(shè)計了一個利用大量無標(biāo)簽文檔圖像預(yù)訓(xùn)練ViT的自監(jiān)督方法,該方法的核心是利用離散變分編碼器對圖像Patch進(jìn)行Token化,再使用NLP領(lǐng)域的掩碼重建任務(wù)進(jìn)行預(yù)訓(xùn)練。從實驗結(jié)果可以看出,該方法在多個下游任務(wù)的有效性,探索了自監(jiān)督任務(wù)在文檔領(lǐng)域的可能性。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3664

    瀏覽量

    135098
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7134

    瀏覽量

    89441

原文標(biāo)題:上交&微軟提出DiT:一種基于Transformer的文檔圖像自監(jiān)督預(yù)訓(xùn)練方法 | ACM MM 2022

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    Transformer是機(jī)器人技術(shù)的基礎(chǔ)嗎

    生成式預(yù)訓(xùn)練Transformer(GPT)被吹捧為將徹底改變機(jī)器人技術(shù)。但實際應(yīng)用中,GPT需要龐大且昂貴的計算資源、冗長的訓(xùn)練時間以及(
    的頭像 發(fā)表于 12-05 10:54 ?291次閱讀
    <b class='flag-5'>Transformer</b>是機(jī)器人<b class='flag-5'>技術(shù)</b>的基礎(chǔ)嗎

    時空引導(dǎo)下的時間序列監(jiān)督學(xué)習(xí)框架

    【導(dǎo)讀】最近,香港科技大學(xué)、上海AI Lab等多個組織聯(lián)合發(fā)布了一篇時間序列無監(jiān)督預(yù)訓(xùn)練的文章,相比原來的TS2Vec等時間序列表示學(xué)習(xí)工作,核心在于提出了將空間信息融入到預(yù)
    的頭像 發(fā)表于 11-15 11:41 ?317次閱讀
    時空引導(dǎo)下的時間序列<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b>學(xué)習(xí)框架

    LLM和傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別

    訓(xùn)練方法 LLM: 預(yù)訓(xùn)練和微調(diào): LLM通常采用預(yù)訓(xùn)練(Pre-training)和微調(diào)(Fine-tuning)的方法。
    的頭像 發(fā)表于 11-08 09:25 ?690次閱讀

    英偉達(dá)推出歸一化Transformer,革命性提升LLM訓(xùn)練速度

    了新的突破。 相較于傳統(tǒng)的Transformer架構(gòu),nGPT在保持原有精度的同時,直接將大型語言模型(LLM)的訓(xùn)練速度提升了高達(dá)20倍。這一顯著的性能提升,無疑將極大地推動AI技術(shù)
    的頭像 發(fā)表于 10-23 11:30 ?431次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

    收集海量的文本數(shù)據(jù)作為訓(xùn)練材料。這些數(shù)據(jù)集不僅包括語法結(jié)構(gòu)的學(xué)習(xí),還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 監(jiān)督學(xué)習(xí):模型采用
    發(fā)表于 08-02 11:03

    預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

    預(yù)訓(xùn)練和遷移學(xué)習(xí)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的兩個重要概念,它們在提高模型性能、減少訓(xùn)練時間和降低對數(shù)據(jù)量的需求方面發(fā)揮著關(guān)鍵作用。本文將從定義、原理、應(yīng)用、區(qū)別和聯(lián)系等方面詳細(xì)探討預(yù)
    的頭像 發(fā)表于 07-11 10:12 ?1180次閱讀

    大語言模型的預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點。大語言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過在海量無標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使模型學(xué)習(xí)到語言的通用知識,為后續(xù)的任務(wù)微調(diào)奠定基礎(chǔ)。本文將深入探討大
    的頭像 發(fā)表于 07-11 10:11 ?516次閱讀

    LLM預(yù)訓(xùn)練的基本概念、基本原理和主要優(yōu)勢

    在人工智能和自然語言處理(NLP)領(lǐng)域,大型語言模型(Large Language Model,簡稱LLM)的興起極大地推動了技術(shù)的進(jìn)步和應(yīng)用的發(fā)展。LLM通過在大規(guī)模文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,獲得了
    的頭像 發(fā)表于 07-10 11:03 ?1236次閱讀

    神經(jīng)網(wǎng)絡(luò)如何用無監(jiān)督算法訓(xùn)練

    神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的重要組成部分,其訓(xùn)練方式多樣,其中無監(jiān)督學(xué)習(xí)是一種重要的訓(xùn)練策略。無監(jiān)督學(xué)習(xí)旨在從未標(biāo)記的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的結(jié)構(gòu)、模式或規(guī)律,從而提取有用的特征表示。這種
    的頭像 發(fā)表于 07-09 18:06 ?880次閱讀

    Transformer架構(gòu)在自然語言處理中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,自然語言處理(NLP)領(lǐng)域取得了顯著的進(jìn)步。其中,Transformer架構(gòu)的提出,為NLP領(lǐng)域帶來了革命性的變革。本文將深入探討Transformer
    的頭像 發(fā)表于 07-09 11:42 ?932次閱讀

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個重要概念,尤其是在自然語言處理(NLP)和計算機(jī)視覺(CV)等領(lǐng)域中得到了廣泛應(yīng)用。預(yù)訓(xùn)練模型指的是在大
    的頭像 發(fā)表于 07-03 18:20 ?3068次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型其問世以來,在自然語言處理(NLP)領(lǐng)域取得了巨大的成功,并成為了許多先進(jìn)模型(如BERT、GPT等)的基礎(chǔ)。本文將深入解讀如何使用PyTorch框架搭建Transformer模型,包括模型的結(jié)構(gòu)、
    的頭像 發(fā)表于 07-02 11:41 ?1777次閱讀

    【大語言模型:原理與工程實踐】大語言模型的預(yù)訓(xùn)練

    大語言模型的核心特點在于其龐大的參數(shù)量,這賦予了模型強(qiáng)大的學(xué)習(xí)容量,使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學(xué)習(xí)容量的增加,對預(yù)訓(xùn)練數(shù)據(jù)的需求也相應(yīng)
    發(fā)表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

    全面剖析大語言模型的核心技術(shù)與基礎(chǔ)知識。首先,概述自然語言的基本表示,這是理解大語言模型技術(shù)的前提。接著,詳細(xì)介紹自然語言處理預(yù)訓(xùn)練的經(jīng)典結(jié)構(gòu)Tr
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實踐】核心技術(shù)綜述

    預(yù)訓(xùn)練和微調(diào),直到模型的部署和性能評估。以下是對這些技術(shù)的綜述: 模型架構(gòu): LLMs通常采用深層的神經(jīng)網(wǎng)絡(luò)架構(gòu),最常見的是
    發(fā)表于 05-05 10:56
    主站蜘蛛池模板: 久久精品观看影院2828 | 十分钟在线观看免费视频高清WWW | 精品一区二区免费视频蜜桃网 | 狠狠操天天操夜夜操 | 超碰在线vip | 春药按摩人妻中文字幕 | 日本高清片免费观看 | 久久机热视频免费 | 柏木舞子在线 | 男人被绑着强行摸j | WW.国产人妻人伦精品 | 护士们的母狗 | 99热久久视频只有精品6 | 亚洲.欧美.中文字幕在线观看 | 超碰超碰视频在线观看 | a在线观看视频 | 精品久久久噜噜噜久久久app | 人妻少妇偷人精品无码洋洋AV | 99视频在线免费看 | 一边亲着一面膜下的免费过程 | 久久久乱码精品亚洲日韩 | 18日本人XXXXXX18 | 99热只有这里有精品 | 老师好爽你下面水好多视频 | 成人在无码AV在线观看一 | 日本免费一区二区三区最新vr | 国内精品视频在线播放一区 | 久久re视频这里精品免费1 | 亚洲国产欧美日韩在线一区 | 亚洲国产综合久久精品 | 红豆视频免费资源观看 | 浪潮AV色综合久久天堂 | 教室里的激情电影 | 国产精品嫩草影院一区二区三区 | 日本亚洲中文字幕无码区 | 精品国产福利一区二区在线 | 国产毛片女人18水多 | 小草影院免费 | 国产亚洲精品AV片在线观看播放 | 亚洲妈妈精品一区二区三区 | 色欲AV亚洲午夜精品无码 |