色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用視覺語言模型對檢測器進行預(yù)訓(xùn)練

電子工程師 ? 來源:CSIG文檔圖像分析與識別專 ? 作者:CSIG文檔圖像分析與 ? 2022-08-08 15:33 ? 次閱讀

本文簡要介紹了發(fā)表于CVPR 2022的論文“Vision-Language Pre-Trainingfor Boosting Scene Text Detector”的相關(guān)工作。大規(guī)模預(yù)訓(xùn)練在視覺任務(wù)中有著重要的作用,而視覺語言模型與多模態(tài)的特征聯(lián)合近期也收到了廣泛的關(guān)注。本文針對場景文本檢測的問題,提出了利用視覺語言模型對檢測器進行預(yù)訓(xùn)練,通過設(shè)計Image-text Contrastive Learning、Masked LanguageModeling和Word-in-image Prediction三個預(yù)訓(xùn)練任務(wù)有效得結(jié)合文本、圖像兩個模態(tài)的特征,幫助主干網(wǎng)絡(luò)提取到更豐富的視覺與語義特征,以此提高文本檢測器的性能。該預(yù)訓(xùn)練方法可以有效提升各文本檢測器在各大公開場景文本數(shù)據(jù)集上的評估結(jié)果。

一、研究背景

預(yù)訓(xùn)練通常被用于自然語言處理以及計算機視覺領(lǐng)域,以增強主干網(wǎng)絡(luò)的特征提取能力,達到加速訓(xùn)練和提高模型泛化性能的目的。該方法亦可以用于場景文本檢測當(dāng)中,如最早的使用ImageNet預(yù)訓(xùn)練模型初始化參數(shù),到使用合成數(shù)據(jù)直接預(yù)訓(xùn)練檢測器再在真實數(shù)據(jù)上Finetune,再到通過定義一些預(yù)訓(xùn)練任務(wù)訓(xùn)練網(wǎng)絡(luò)參數(shù)等。但這些方法都存在一些問題,比如中合成數(shù)據(jù)與真實數(shù)據(jù)的Domain Gap導(dǎo)致模型在真實場景下Finetune效果不佳,中沒有充分利用視覺與文本之間的聯(lián)系。基于這些觀察,本文提出了一個通過視覺語言模型進行圖像、文本兩個模態(tài)特征對齊的預(yù)訓(xùn)練方法VLPT-STD,用于提升場景文本檢測器的性能。

二、方法介紹

本文提出了一個全新的用于場景文本檢測預(yù)訓(xùn)練的框架—VLPT-STD,它基于視覺語言模型設(shè)計,可以有效地利用文本、圖像兩種模態(tài)的特征,使得網(wǎng)絡(luò)提取到更豐富的特征表達。其算法流程如圖1所示,主要分為Image Encoder,Text Encoder以及Cross-model Encoder三個部分,并且設(shè)計了三個預(yù)訓(xùn)練任務(wù)讓網(wǎng)絡(luò)學(xué)習(xí)到跨模態(tài)的表達,提高網(wǎng)絡(luò)的特征提取能力。

2.1 模型結(jié)構(gòu)

Image Encoder用于提取場景文本圖片的視覺特征編碼,Text Encoder則提取圖片中文本內(nèi)容的編碼,最后視覺特征編碼和文本內(nèi)容編碼一起輸入Cross-model Encoder當(dāng)中進行多模態(tài)特征融合。

Image Encoder 包含了一個ResNet50-FPN的主干網(wǎng)絡(luò)結(jié)構(gòu)和一個注意力池化層。場景文本圖像首先輸入到ResNet50-FPN中得到特征,然后通過注意力池化層得到一個圖像特征編碼序列2e05472c-16c2-11ed-ba43-dac502259ad0.png2e19e33a-16c2-11ed-ba43-dac502259ad0.png代表[CLS] Token的編碼,S代表視覺Token的數(shù)量,d是維度。注意力池化層是一層Transformer中的多頭注意力模塊。

Text Encoder先將輸入的文本轉(zhuǎn)化成一個編碼序列2e219602-16c2-11ed-ba43-dac502259ad0.png,K代表序列長度,然后通過三層多頭注意力模塊得到文本特征編碼。

Cross-model由四個相同的Transformer Decoder組成,它將視覺編碼序列和文本編碼序列W結(jié)合到了一起,并將其最后的輸出用于預(yù)測Masked Language Modeling預(yù)訓(xùn)練任務(wù)。

2e372ba2-16c2-11ed-ba43-dac502259ad0.png

圖1 VLPT-STD整體框架

2.2 預(yù)訓(xùn)練任務(wù)

本文定義了三個預(yù)訓(xùn)練任務(wù),包括Image-text Contrastive Learning(ITC)、Word-in-image Prediction(WIP)和Masked Language Modeling(MLM)。

Image-text Contrastive Learning(ITC)的目的是使得文本編碼序列的每一項都能在視覺編碼序列中找到最相似的編碼,也就是讓每個單詞的文本編碼與其對應(yīng)的文本圖片區(qū)域視覺特征匹配(例如,“Last”的Text Embedding與圖片中“Last”位置的區(qū)域特征相似度最高)。

該任務(wù)對每個圖像編碼2e46ad3e-16c2-11ed-ba43-dac502259ad0.png和文本編碼2e53d57c-16c2-11ed-ba43-dac502259ad0.png分別運用InfoNCE loss[4]去計算相似度。2e5cd76c-16c2-11ed-ba43-dac502259ad0.png2e6beb08-16c2-11ed-ba43-dac502259ad0.png代表一個Batch內(nèi)所有的圖像編碼和文本編碼,它們分別為Image Encoder得到的2e19e33a-16c2-11ed-ba43-dac502259ad0.png和Text Encoder得到的2e837ff2-16c2-11ed-ba43-dac502259ad0.png

2e8cacee-16c2-11ed-ba43-dac502259ad0.png

N代表Batch Size。ITC任務(wù)最終的損失函數(shù)為:2ea901aa-16c2-11ed-ba43-dac502259ad0.png

Word-in-Image Prediction(WIP)是通過在圖像編碼和文本單詞編碼中應(yīng)用對比學(xué)習(xí)去區(qū)分出現(xiàn)在圖片中的文本(正類)與不存在德文本(負類),從而預(yù)測給定的一組單詞是否出現(xiàn)在輸入圖片中。如圖1左上角所示,訓(xùn)練時圖片中有的單詞作為正樣本,其編碼為2eb12f24-16c2-11ed-ba43-dac502259ad0.png;負樣本則是訓(xùn)練過程中基于文本編碼的相似度進行采樣得到(如對于正樣本“Lost”,負樣本可為“Lose”,“Last”等),文中選取的是Top-L(L=63)相似的文本,對于每一個正樣本的編碼2ebf0126-16c2-11ed-ba43-dac502259ad0.png,其負樣本編碼為

2ec8e6be-16c2-11ed-ba43-dac502259ad0.png

。輸入圖片為I,WIP的損失函數(shù)定義如下:

2eda0f70-16c2-11ed-ba43-dac502259ad0.png

MaskedLanguage Modeling (MLM)類似于BERT,該任務(wù)首先隨機掩蓋文本編碼w,然后讓網(wǎng)絡(luò)利用所有的視覺特征編碼v和未被掩蓋的文本編碼2ee5e494-16c2-11ed-ba43-dac502259ad0.png預(yù)測缺失的單詞文本2ef4306c-16c2-11ed-ba43-dac502259ad0.png。如圖1所示,圖片中的文本“And”,“Was”等被掩蓋,MLM任務(wù)是將它們預(yù)測恢復(fù)。其損失函數(shù)如下所示:

2efbfbf8-16c2-11ed-ba43-dac502259ad0.png

最終的損失函數(shù)為:

2f0fcb10-16c2-11ed-ba43-dac502259ad0.png

三、實驗

3.1 實驗細節(jié)

本文提出的VLPT-STD在SynthText [5]上進行預(yù)訓(xùn)練,然后將預(yù)訓(xùn)練得到的主干網(wǎng)絡(luò)用于EAST [6],PSENet [7]和DB[2]這三個文本檢測器在各個公開的真實場景數(shù)據(jù)集上進行Finetune。實驗使用了八塊v100,Batch Size為800。

3.2 與State-of-the-art的方法比較

表格1到表格3展示了文章提出的預(yù)訓(xùn)練方法與之前預(yù)訓(xùn)練方法對于三個不同的文本檢測器性能提升的對比。

2f1b2c58-16c2-11ed-ba43-dac502259ad0.png

2f3078ba-16c2-11ed-ba43-dac502259ad0.png

2f42afb2-16c2-11ed-ba43-dac502259ad0.png

3.2 消融實驗

首先是對模型設(shè)計的消融實驗,如表格4所示。文章探究了Image Encoder中作者改進的FPN結(jié)構(gòu)和Cross-model Encoder中Cross-attention的作用。

2f738f10-16c2-11ed-ba43-dac502259ad0.png

其次是對預(yù)訓(xùn)練任務(wù)的消融實驗,如表格5所示。

2f803f9e-16c2-11ed-ba43-dac502259ad0.png

最后是對預(yù)訓(xùn)練的數(shù)據(jù)集進行了探究,作者對比了SynthText和TextOCR [8]兩種數(shù)據(jù)集,結(jié)果如表6所示。

2f91586a-16c2-11ed-ba43-dac502259ad0.png

3.3 可視化結(jié)果

文章首先展示了Cross-model當(dāng)中Attention Map的可視化結(jié)果。可以看到一個文本是與Attention Map中高亮區(qū)域是一一匹配的。

2f9c8d66-16c2-11ed-ba43-dac502259ad0.png

然后文章展示了和之前預(yù)訓(xùn)練方法STKM [3] 對比的檢測結(jié)果。

2fe8e148-16c2-11ed-ba43-dac502259ad0.png

四、總結(jié)與討論

在場景文本檢測當(dāng)中,本文是第一篇用視覺語言模型以及多模態(tài)特征融合的思路去設(shè)計預(yù)訓(xùn)練任務(wù)以提升文本檢測性能的工作,它設(shè)計了三個簡單有效的任務(wù),提高了主干網(wǎng)絡(luò)對文本圖像特征的表征能力。如何利用文本和圖像兩種模態(tài)的特征也是未來OCR領(lǐng)域的一個重要方向。

原文作者:Sibo Song, Jianqiang Wan, Zhibo Yang, Jun Tang, Wenqing Cheng, Xiang Bai, Cong Yao

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 檢測器
    +關(guān)注

    關(guān)注

    1

    文章

    863

    瀏覽量

    47676
  • 計算機
    +關(guān)注

    關(guān)注

    19

    文章

    7488

    瀏覽量

    87849

原文標(biāo)題:CVPR 2022 | 阿里&華科提出:針對場景文本檢測的視覺語言模型預(yù)訓(xùn)練

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    一文詳解知識增強的語言預(yù)訓(xùn)練模型

    隨著預(yù)訓(xùn)練語言模型(PLMs)的不斷發(fā)展,各種NLP任務(wù)設(shè)置上都取得了不俗的性能。盡管PLMs可以從大量語料庫中學(xué)習(xí)一定的知識,但仍舊存在很多問題,如知識量有限、受
    的頭像 發(fā)表于 04-02 17:21 ?9608次閱讀

    【大語言模型:原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

    就無法修改,因此難以靈活應(yīng)用于下游文本的挖掘中。 詞嵌入表示:將每個詞映射為一個低維稠密的實值向量。不同的是,基于預(yù)訓(xùn)練的詞嵌入表示先在語料庫中利用某種語言
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實踐】大語言模型預(yù)訓(xùn)練

    數(shù)據(jù)格式的轉(zhuǎn)換、數(shù)據(jù)字段的匹配和整合等。通過數(shù)據(jù)級凈化,可以進一步提高數(shù)據(jù)的質(zhì)量和可用性,為后續(xù)的數(shù)據(jù)分析和建模提供更有價值的數(shù)據(jù)支持。 在得到了大語言模型的數(shù)據(jù)之后,就是對其進行預(yù)
    發(fā)表于 05-07 17:10

    預(yù)訓(xùn)練語言模型設(shè)計的理論化認識

    在這篇文章中,我會介紹一篇最新的預(yù)訓(xùn)練語言模型的論文,出自MASS的同一作者。這篇文章的亮點是:將兩種經(jīng)典的預(yù)
    的頭像 發(fā)表于 11-02 15:09 ?2701次閱讀

    一種脫離預(yù)訓(xùn)練的多尺度目標(biāo)檢測網(wǎng)絡(luò)模型

    為提高卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測模型精度并增強檢測器對小目標(biāo)的檢測能力,提出一種脫離預(yù)訓(xùn)練的多尺度目標(biāo)
    發(fā)表于 04-02 11:35 ?26次下載
    一種脫離<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的多尺度目標(biāo)<b class='flag-5'>檢測</b>網(wǎng)絡(luò)<b class='flag-5'>模型</b>

    如何向大規(guī)模預(yù)訓(xùn)練語言模型中融入知識?

    本文關(guān)注于向大規(guī)模預(yù)訓(xùn)練語言模型(如RoBERTa、BERT等)中融入知識。
    的頭像 發(fā)表于 06-23 15:07 ?4228次閱讀
    如何向大規(guī)模<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>中融入知識?

    基于預(yù)訓(xùn)練視覺-語言模型的跨模態(tài)Prompt-Tuning

    、新加坡國立大學(xué) 鏈接:https://arxiv.org/pdf/2109.11797.pdf 提取摘要 預(yù)訓(xùn)練視覺語言模型 (VL-P
    的頭像 發(fā)表于 10-09 15:10 ?3233次閱讀
    基于<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>視覺</b>-<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的跨模態(tài)Prompt-Tuning

    Multilingual多語言預(yù)訓(xùn)練語言模型的套路

    Facebook在Crosslingual language model pretraining(NIPS 2019)一文中提出XLM預(yù)訓(xùn)練語言模型,整體思路基于BERT,并提出了針
    的頭像 發(fā)表于 05-05 15:23 ?2972次閱讀

    一種基于亂序語言模型預(yù)訓(xùn)練模型-PERT

    由于亂序語言模型不使用[MASK]標(biāo)記,減輕了預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap,并由于預(yù)測空間大小為輸入序列長度,使得計算效率高于掩碼語言
    的頭像 發(fā)表于 05-10 15:01 ?1539次閱讀

    CogBERT:腦認知指導(dǎo)的預(yù)訓(xùn)練語言模型

    另一方面,從語言處理的角度來看,認知神經(jīng)科學(xué)研究人類大腦中語言處理的生物和認知過程。研究人員專門設(shè)計了預(yù)訓(xùn)練模型來捕捉大腦如何表示
    的頭像 發(fā)表于 11-03 15:07 ?1065次閱讀

    利用視覺+語言數(shù)據(jù)增強視覺特征

    傳統(tǒng)的多模態(tài)預(yù)訓(xùn)練方法通常需要"大數(shù)據(jù)"+"大模型"的組合來同時學(xué)習(xí)視覺+語言的聯(lián)合特征。但是關(guān)注如何
    的頭像 發(fā)表于 02-13 13:44 ?1047次閱讀

    什么是預(yù)訓(xùn)練 AI 模型

    預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用,
    的頭像 發(fā)表于 04-04 01:45 ?1442次閱讀

    NLP中的遷移學(xué)習(xí):利用預(yù)訓(xùn)練模型進行文本分類

    遷移學(xué)習(xí)徹底改變了自然語言處理(NLP)領(lǐng)域,允許從業(yè)者利用預(yù)先訓(xùn)練模型來完成自己的任務(wù),從而大大減少了訓(xùn)練時間和計算資源。在本文中,我們
    發(fā)表于 06-14 09:30 ?449次閱讀

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機器學(xué)習(xí)領(lǐng)域中的一個重要概念,尤其是在自然語言處理(NLP)和計算機視覺(CV)
    的頭像 發(fā)表于 07-03 18:20 ?2761次閱讀

    語言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點。大語言模型預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過在海量無標(biāo)簽數(shù)據(jù)上進行
    的頭像 發(fā)表于 07-11 10:11 ?417次閱讀
    主站蜘蛛池模板: yellow日本动漫观看免费| 一扒二脱三插片在线观看| 天堂无码人妻精品AV一区| 91青青草原| 久久五月综合婷婷中文云霸高清| 亚洲 日韩 国产 制服 在线| 国产精品99久久久精品无码| 十八禁啪啦啪漫画| 国产 亚洲 中文字幕 久久网| 日韩欧美高清一区| 丰满的女朋友韩国版在线观看 | 丝袜美女被艹| 高H纯肉NP 弄潮NP男男| 日韩一区精品视频一区二区| 国产爱豆果冻传媒在线观看视频| 四虎国产精品高清在线观看| 国产精品丰满人妻AV麻豆| 亚州性夜夜射在线观看| 国产在线播放KKK| 亚洲精品国偷拍自产在线| 黄桃AV无码免费一区二区三区| 一个人在线观看免费高清视频在线观看| 久久国产一区二区三区| 97草碰在线视频免费| 热99re久久精品国产首页| 国产超碰人人爱被IOS解锁| 亚洲 欧美 日韩 精品 自拍| 久久国产亚洲精品AV麻豆| 99精品视频一区在线视频免费观看 | 不卡人妻无码AV中文系列APP| 日本人xxxⅹ18hd19hd| 国产精品日本欧美一区二区 | 久久99r66热这里只有精品| 18禁无遮挡羞羞污污污污免费| 蜜臀色欲AV无人A片一区| TUBE8最新日本护士| 入禽太深视频免费视频| 国产午夜AV无码无片久久96| 伊人国产视频| 欧美中文字幕一区二区三区| 国产精品一区二区AV97|