色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

新型的端到端弱監(jiān)督篇幅級(jí)手寫(xiě)中文文本識(shí)別方法PageNet

CVer ? 來(lái)源:CSIG文檔圖像分析與識(shí)別專(zhuān) ? 2023-01-12 14:12 ? 次閱讀

本文簡(jiǎn)要介紹2022年8月發(fā)表于IJCV的論文“PageNet: Towards End-to-End Weakly Supervised Page-Level Handwritten Chinese Text Recognition”的主要工作。該工作針對(duì)篇幅級(jí)手寫(xiě)中文文本識(shí)別問(wèn)題,提出了端到端弱監(jiān)督的方法PageNet。該方法的主要優(yōu)勢(shì)在于:(1)從一個(gè)新的角度解決篇幅級(jí)中文文本識(shí)別問(wèn)題——檢測(cè)識(shí)別單字并預(yù)測(cè)單字間的閱讀順序。(2)模型可以弱監(jiān)督地訓(xùn)練。對(duì)于真實(shí)數(shù)據(jù)僅需要標(biāo)注文本,不需要任何邊界框標(biāo)注,極大地降低了數(shù)據(jù)的標(biāo)注成本。(3)盡管只需要文本標(biāo)注信息,模型卻可以預(yù)測(cè)出單字級(jí)和文本行級(jí)的檢測(cè)和識(shí)別結(jié)果。實(shí)驗(yàn)證明這種能力可以應(yīng)用于對(duì)數(shù)據(jù)進(jìn)行無(wú)需人工干預(yù)的高精度的自動(dòng)標(biāo)注。(4)該方法深入研究篇幅級(jí)文本識(shí)別中的閱讀順序問(wèn)題,所提出的閱讀順序模塊可以處理多方向文本、彎曲文本等復(fù)雜的閱讀順序。(5)實(shí)驗(yàn)證明該方法具有較強(qiáng)的泛化能力,適用于掃描、古籍、拍照和多語(yǔ)言等多種文檔類(lèi)型。

一、背景

手寫(xiě)中文文本識(shí)別是一個(gè)具有廣泛應(yīng)用場(chǎng)景的研究方向。目前該領(lǐng)域的相關(guān)研究通常關(guān)注文本行級(jí)的手寫(xiě)中文識(shí)別,不考慮在實(shí)際應(yīng)用中因?yàn)槲谋拘袡z測(cè)帶來(lái)的誤差。近年來(lái),也有部分研究關(guān)注篇幅級(jí)的文本識(shí)別,但是它們要么僅考慮簡(jiǎn)單的版面結(jié)構(gòu),要么需要極為細(xì)致的標(biāo)注信息(文本行級(jí)甚至單字級(jí)的邊界框)。同時(shí),領(lǐng)域內(nèi)對(duì)于閱讀順序的研究較少,而實(shí)際應(yīng)用中會(huì)出現(xiàn)多方向文本、彎曲文本等復(fù)雜的閱讀順序。為了解決上述問(wèn)題,這篇文章中提出一種新型的端到端弱監(jiān)督篇幅級(jí)手寫(xiě)中文文本識(shí)別方法PageNet。該方法拋棄文本行檢測(cè)+文本行識(shí)別的傳統(tǒng)流程,先檢測(cè)識(shí)別單字再預(yù)測(cè)單字間的閱讀順序,這使得PageNet可以輕松處理復(fù)雜的板式和閱讀順序。對(duì)于真實(shí)數(shù)據(jù),PageNet僅需要文本標(biāo)注,但是可以輸出文本行級(jí)和單字級(jí)的檢測(cè)和識(shí)別結(jié)果,省去了標(biāo)注文本行級(jí)和單字級(jí)邊界框的巨額成本(表1)。實(shí)驗(yàn)證明PageNet優(yōu)于現(xiàn)有的弱監(jiān)督和全監(jiān)督篇幅級(jí)文本識(shí)別方法。

表1 現(xiàn)有方法需要的標(biāo)注信息和模型輸出結(jié)果的對(duì)比(L: 文本行級(jí),W: 單詞級(jí),C:?jiǎn)巫旨?jí))。PageNet僅需要文本標(biāo)注即可得到文本行級(jí)和單字級(jí)的檢測(cè)和識(shí)別結(jié)果。

822d8b7c-88d5-11ed-bfe3-dac502259ad0.png

二、方法

2.1算法框架

8246d7c6-88d5-11ed-bfe3-dac502259ad0.png

圖1 PageNet方法整體框架

PageNet方法的整體框架如圖1所示,包括四個(gè)部分:(1)主干網(wǎng)絡(luò)提取輸入圖像的高維特征;(2)檢測(cè)和識(shí)別模塊完成單字的檢測(cè)識(shí)別;(3)閱讀順序模塊預(yù)測(cè)單字間的閱讀順序;(4)基于圖的解碼算法結(jié)合單字的檢測(cè)識(shí)別結(jié)果和閱讀順序,得到最終的篇幅級(jí)結(jié)果。該結(jié)果包含文本行級(jí)和單字級(jí)的檢測(cè)識(shí)別結(jié)果。

此外,為了省去人工標(biāo)注單字和文本行邊界框的成本,文章中提出了一種新型的弱監(jiān)督學(xué)習(xí)方法 (圖4)。借助該方法,僅需要對(duì)真實(shí)數(shù)據(jù)標(biāo)注各行的文本信息即可訓(xùn)練PageNet。

2.2 主干網(wǎng)絡(luò)

主干網(wǎng)絡(luò)采用多個(gè)殘差模塊堆疊的結(jié)構(gòu)。對(duì)于高為H、寬為W的輸入圖片,主干網(wǎng)絡(luò)輸出形狀為82723efc-88d5-11ed-bfe3-dac502259ad0.png512的特征圖。為了方便下文敘述,將827b9b96-88d5-11ed-bfe3-dac502259ad0.png分別標(biāo)記為82868a88-88d5-11ed-bfe3-dac502259ad0.png。

2.3 檢測(cè)和識(shí)別模塊

檢測(cè)和識(shí)別模塊參考文獻(xiàn)[1]和[2],在主干網(wǎng)絡(luò)提取的特征的基礎(chǔ)上分為三個(gè)分支,分別為CharBox、CharDis和CharCls分支。首先將輸入圖片分為8292b830-88d5-11ed-bfe3-dac502259ad0.png個(gè)網(wǎng)格并將第i列第j行的網(wǎng)格標(biāo)記為829ca8e0-88d5-11ed-bfe3-dac502259ad0.png。CharBox分支輸出形狀為82a58c76-88d5-11ed-bfe3-dac502259ad0.png的單字邊界框預(yù)測(cè)82afea0e-88d5-11ed-bfe3-dac502259ad0.png,其中82b85f72-88d5-11ed-bfe3-dac502259ad0.png可轉(zhuǎn)換為網(wǎng)格829ca8e0-88d5-11ed-bfe3-dac502259ad0.png中的單字邊界框坐標(biāo)82ce395a-88d5-11ed-bfe3-dac502259ad0.png。CharDis分支預(yù)測(cè)形狀為8292b830-88d5-11ed-bfe3-dac502259ad0.png的字符分布82de34ea-88d5-11ed-bfe3-dac502259ad0.png,其中82eb92ac-88d5-11ed-bfe3-dac502259ad0.png為網(wǎng)格829ca8e0-88d5-11ed-bfe3-dac502259ad0.png中存在單字的置信度。CharCls分支預(yù)測(cè)形狀為8305573c-88d5-11ed-bfe3-dac502259ad0.png的字符分類(lèi)結(jié)果83164b32-88d5-11ed-bfe3-dac502259ad0.png,其中8321e442-88d5-11ed-bfe3-dac502259ad0.png為網(wǎng)格829ca8e0-88d5-11ed-bfe3-dac502259ad0.png中單字的83370516-88d5-11ed-bfe3-dac502259ad0.png類(lèi)分類(lèi)概率。

2.4 閱讀順序模塊

83482990-88d5-11ed-bfe3-dac502259ad0.png

圖2 閱讀順序模塊框圖

閱讀順序模塊的整體流程如圖2所示。該模塊將閱讀順序預(yù)測(cè)問(wèn)題分解為:(1)文本行開(kāi)始字符預(yù)測(cè);(2)根據(jù)字符間的連接關(guān)系逐步找到閱讀順序中的下一個(gè)字符;(3)行結(jié)束字符預(yù)測(cè)。其中,字符間的連接關(guān)系定義為字符間搜索路徑上網(wǎng)格的轉(zhuǎn)移方向(上下左右之一)。

對(duì)應(yīng)地,該模塊分別預(yù)測(cè):(1)行開(kāi)始分布8365dce2-88d5-11ed-bfe3-dac502259ad0.png,其中837445a2-88d5-11ed-bfe3-dac502259ad0.png為網(wǎng)格829ca8e0-88d5-11ed-bfe3-dac502259ad0.png中單字為行開(kāi)始的置信度;(2)四方向閱讀順序838c467a-88d5-11ed-bfe3-dac502259ad0.png,其中83998b50-88d5-11ed-bfe3-dac502259ad0.png為網(wǎng)格829ca8e0-88d5-11ed-bfe3-dac502259ad0.png在閱讀順序中向其四個(gè)相鄰網(wǎng)格的轉(zhuǎn)移方向;(3)行結(jié)束分布83b1e95c-88d5-11ed-bfe3-dac502259ad0.png為網(wǎng)格829ca8e0-88d5-11ed-bfe3-dac502259ad0.png中單字為行結(jié)束的置信度。

2.5 基于圖的解碼算法

83c8c6c2-88d5-11ed-bfe3-dac502259ad0.png

圖3 基于圖的解碼算法流程

基于圖的解碼算法流程如圖3所示。該算法結(jié)合檢測(cè)識(shí)別模塊和閱讀順序模塊的輸出,得到最終的單字級(jí)和文本行級(jí)的檢測(cè)和識(shí)別結(jié)果。首先,檢測(cè)識(shí)別模塊中三個(gè)分支的輸出83de71b6-88d5-11ed-bfe3-dac502259ad0.png經(jīng)過(guò)非極大值抑制(NMS)得到單字的檢測(cè)和識(shí)別結(jié)果;然后,每個(gè)單字視為圖結(jié)構(gòu)中的一個(gè)節(jié)點(diǎn)。每個(gè)節(jié)點(diǎn)根據(jù)相應(yīng)單字框中心點(diǎn)的坐標(biāo)對(duì)應(yīng)一個(gè)網(wǎng)格。接下來(lái),基于四方向閱讀順序838c467a-88d5-11ed-bfe3-dac502259ad0.png,可以逐步根據(jù)網(wǎng)格的轉(zhuǎn)移方向找到每個(gè)節(jié)點(diǎn)在閱讀順序中的下一節(jié)點(diǎn)。這種連接關(guān)系構(gòu)成圖結(jié)構(gòu)的邊。下一步,根據(jù)行開(kāi)始分布8365dce2-88d5-11ed-bfe3-dac502259ad0.png和行結(jié)束分布83b1e95c-88d5-11ed-bfe3-dac502259ad0.png,判定行開(kāi)始節(jié)點(diǎn)和行結(jié)束節(jié)點(diǎn)。最后,保留開(kāi)始于行開(kāi)始節(jié)點(diǎn)并且結(jié)束于行結(jié)束節(jié)點(diǎn)的路徑,得到每個(gè)文本行的閱讀順序圖。將圖中的節(jié)點(diǎn)替換為對(duì)應(yīng)的單字檢測(cè)和識(shí)別結(jié)果,即可得到單字級(jí)和文本行級(jí)的檢測(cè)識(shí)別結(jié)果。

2.6 弱監(jiān)督學(xué)習(xí)方法

8406e290-88d5-11ed-bfe3-dac502259ad0.png

圖4 弱監(jiān)督學(xué)習(xí)方法整體流程圖

弱監(jiān)督學(xué)習(xí)方法的整體流程圖如圖4所示。輸入數(shù)據(jù)包括僅有各行文本標(biāo)注的真實(shí)數(shù)據(jù)和有完整標(biāo)注的合成數(shù)據(jù)。為了驗(yàn)證弱監(jiān)督學(xué)習(xí)方法的泛化性,合成數(shù)據(jù)采用將字體文件生成的漢字貼到簡(jiǎn)單背景上的方法,因此與真實(shí)數(shù)據(jù)存在較大的差異。弱監(jiān)督學(xué)習(xí)方法需要將合成數(shù)據(jù)中學(xué)習(xí)到的檢測(cè)識(shí)別能力遷移到多種多樣的真實(shí)場(chǎng)景中。

對(duì)于僅有各行文本標(biāo)注的真實(shí)數(shù)據(jù),弱監(jiān)督學(xué)習(xí)方法借助偽標(biāo)注,通過(guò)匹配、更新和優(yōu)化三個(gè)步驟完成對(duì)模型的訓(xùn)練。(1)匹配分為語(yǔ)義匹配和空間匹配兩大類(lèi)。語(yǔ)義匹配通過(guò)行匹配和單字匹配得到模型預(yù)測(cè)正確的單字。空間匹配是為了解決一張圖中存在多行相似或相同的文本造成的匹配模糊問(wèn)題。(2)通過(guò)匹配可以得到識(shí)別正確的單字。文章中認(rèn)為這些單字的邊界框是相對(duì)準(zhǔn)確的。更新過(guò)程中使用這些邊界框通過(guò)復(fù)制或加權(quán)和的方式更新偽標(biāo)注。(3)使用更新后的偽標(biāo)注計(jì)算損失優(yōu)化模型。因?yàn)閭螛?biāo)注一般不完全包含所有單字的邊界框,模型損失的計(jì)算需要進(jìn)行特殊的設(shè)計(jì)。特別是對(duì)于檢測(cè)識(shí)別模塊的CharDis分支,根據(jù)偽標(biāo)注僅知某些網(wǎng)格中存在單字,無(wú)法完全判定不存在單字的網(wǎng)格(即負(fù)樣本)。因此,文章中借助在單字匹配中連續(xù)匹配結(jié)果為相同的字符。這些字符間根據(jù)閱讀順序模塊得到的搜索路徑中的網(wǎng)格可以以較高置信度判定為不存在單字,如此一來(lái)即可優(yōu)化CharDis分支。其余分支和模塊的損失計(jì)算方法可參考原文。

三、 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)集

(1)CASIA-HWDB手寫(xiě)中文數(shù)據(jù)集,包括篇幅級(jí)數(shù)據(jù)集CASIA-HWDB2.0-2.2(5091張圖片)和單字?jǐn)?shù)據(jù)集CASIA-HWDB1.0-1.2(389萬(wàn)個(gè)單字)。

(2)ICDAR2013手寫(xiě)中文比賽測(cè)試集,包括篇幅級(jí)數(shù)據(jù)集ICDAR13(300張圖片)和單字?jǐn)?shù)據(jù)集ICDAR13-SC(22萬(wàn)個(gè)單字)。

(3)MTHv2中文古籍?dāng)?shù)據(jù)集,包括3199張古籍圖片,分為2399張訓(xùn)練集和800張測(cè)試集。

(4)SCUT-HCCDoc拍照手寫(xiě)數(shù)據(jù)集,包括12253張圖片,分為9801張訓(xùn)練集和2452張測(cè)試集。

(5)JS-SCUT PrintCC中英文印刷文檔數(shù)據(jù)集,包括398張圖片,分為348張訓(xùn)練集和50張測(cè)試集。

(6)合成數(shù)據(jù)集采用真實(shí)單字?jǐn)?shù)據(jù)或字體生成的單字?jǐn)?shù)據(jù)和網(wǎng)絡(luò)獲取的簡(jiǎn)單紙張背景進(jìn)行合成。首先將單字組成文本行,再將文本行以一定傾斜度貼在背景上。數(shù)據(jù)合成不涉及任何語(yǔ)料和其他復(fù)雜的光照、視角和扭曲變換等處理。合成數(shù)據(jù)的示例如圖5所示。

847c1e66-88d5-11ed-bfe3-dac502259ad0.png

圖5 合成數(shù)據(jù)示例

3.2 模型結(jié)構(gòu)

模型結(jié)構(gòu)如圖6所示。

84a0d206-88d5-11ed-bfe3-dac502259ad0.png

圖6 模型具體結(jié)構(gòu)圖

3.3 評(píng)測(cè)指標(biāo)

針對(duì)僅標(biāo)注各行文本內(nèi)容的弱監(jiān)督情況,提出了AR*和CR*指標(biāo)。這兩種指標(biāo)首先將模型預(yù)測(cè)文本行和標(biāo)注文本行根據(jù)AR進(jìn)行匹配。對(duì)已經(jīng)匹配的文本行對(duì),計(jì)算插入錯(cuò)誤、刪除錯(cuò)誤和替換錯(cuò)誤并累積。對(duì)于沒(méi)有被匹配的預(yù)測(cè)文本行,其中所有單字均視為插入錯(cuò)誤。對(duì)于沒(méi)有被匹配的標(biāo)注文本行,其中所有單字均視為刪除錯(cuò)誤。最后,采用類(lèi)似于AR和CR的計(jì)算方式,得到AR*和CR*指標(biāo)。

3.4 ICDAR13數(shù)據(jù)集

PageNet在ICDAR13篇幅級(jí)手寫(xiě)中文數(shù)據(jù)集上的端到端識(shí)別指標(biāo)和文本行檢測(cè)指標(biāo)及其與現(xiàn)有方法的對(duì)比如下表所示??梢钥闯觯琍ageNet超過(guò)了現(xiàn)有的全監(jiān)督和弱監(jiān)督方法,取得SoTA的端到端篇幅級(jí)識(shí)別指標(biāo)。

表2 PageNet與現(xiàn)有方法在ICDAR13數(shù)據(jù)集上的對(duì)比

84c4d00c-88d5-11ed-bfe3-dac502259ad0.png

3.5 MTHv2、SCUT-HCCDoc和JS-SCUT PrintCC數(shù)據(jù)集

PageNet與現(xiàn)有方法在MTHv2、SCUT-HCCDoc和JS-SCUT PrintCC數(shù)據(jù)集上的端到端識(shí)別指標(biāo)對(duì)比如下表所示??梢钥闯?,在MTHv2數(shù)據(jù)集上,PageNet取得了與最佳的全監(jiān)督模型相近的端到端識(shí)別指標(biāo)。在SCUT-HCCDoc數(shù)據(jù)集上,因?yàn)樵摂?shù)據(jù)集涉及復(fù)雜的版面和光照、拍照角度等干擾,這對(duì)無(wú)真實(shí)場(chǎng)景文本位置信息監(jiān)督的PageNet提出了很大挑戰(zhàn)。但是借助合理設(shè)計(jì)的弱監(jiān)督學(xué)習(xí)方法,PageNet大幅度超過(guò)了其他弱監(jiān)督方法且與最佳的全監(jiān)督模型指標(biāo)較為接近。在JS-SCUT PrintCC數(shù)據(jù)集上,PageNet取得了最高的端到端識(shí)別指標(biāo),證明該方法可以處理中英文混合的文檔場(chǎng)景。

表3 PageNet與現(xiàn)有方法在MTHv2、SCUT-HCCDoc和JS-SCUT PrintCC數(shù)據(jù)集上的對(duì)比

84d48bbe-88d5-11ed-bfe3-dac502259ad0.png

3.6 ICDAR13文本行級(jí)數(shù)據(jù)

PageNet與現(xiàn)有方法在ICDAR13文本行數(shù)據(jù)集(根據(jù)標(biāo)注切出文本行)上的識(shí)別指標(biāo)對(duì)比如下表所示??梢钥闯?,雖然PageNet是在篇幅級(jí)進(jìn)行識(shí)別且AR*和CR*需要考慮到文本行檢測(cè)的準(zhǔn)確度,但是PageNet的指標(biāo)仍然超過(guò)了現(xiàn)有的文本行級(jí)識(shí)別方法。這一結(jié)果證明了基于單字檢測(cè)和識(shí)別的方法相較于流行的基于CTC/Attention方法更加適合于中文文本識(shí)別。

表4 PageNet與現(xiàn)有方法在ICDAR13文本行數(shù)據(jù)集上的對(duì)比

84e89f3c-88d5-11ed-bfe3-dac502259ad0.png

3.7 單字檢測(cè)識(shí)別指標(biāo)

PageNet與經(jīng)典檢測(cè)方法Faster R-CNN和YOLOv3在ICDAR13數(shù)據(jù)集上的單字檢測(cè)識(shí)別指標(biāo)如下表所示。可以看到弱監(jiān)督的PageNet在同時(shí)考慮單字檢測(cè)和識(shí)別時(shí)(7356C)取得了遠(yuǎn)超全監(jiān)督的Faster R-CNN & YOLOv3的指標(biāo)。

表5 PageNet與Faster R-CNN和YOLOv3在ICDAR13數(shù)據(jù)集上的單字檢測(cè)識(shí)別指標(biāo)對(duì)比

84ff09b6-88d5-11ed-bfe3-dac502259ad0.png

3.8 實(shí)驗(yàn)結(jié)果可視化

部分可視化結(jié)果如下圖所示,圖中左側(cè)為單字檢測(cè)識(shí)別結(jié)果,右側(cè)為閱讀順序預(yù)測(cè)結(jié)果。更多可視化結(jié)果請(qǐng)參見(jiàn)原文。

852b3f68-88d5-11ed-bfe3-dac502259ad0.png

854a21d0-88d5-11ed-bfe3-dac502259ad0.png

857b331a-88d5-11ed-bfe3-dac502259ad0.png

圖6 可視化結(jié)果

3.9 其他實(shí)驗(yàn)

文章進(jìn)一步用實(shí)驗(yàn)證明了PageNet方法在多方向文本、任意彎曲文本上的有效性。同時(shí),弱監(jiān)督學(xué)習(xí)得到的偽標(biāo)注可以無(wú)需人工干預(yù)直接用作數(shù)據(jù)標(biāo)注,訓(xùn)練出與原始人工標(biāo)注指標(biāo)相近的模型。此外,實(shí)驗(yàn)證明了PageNet對(duì)合成數(shù)據(jù)與真實(shí)場(chǎng)景的相似程度不敏感,保證了PageNet的泛化性。具體實(shí)驗(yàn)結(jié)果請(qǐng)參見(jiàn)原文。

四、 總結(jié)及討論

該文章中提出一種新型的端到端弱監(jiān)督篇幅級(jí)手寫(xiě)中文文本識(shí)別方法PageNet。PageNet從一個(gè)全新的角度解決篇幅級(jí)文本識(shí)別任務(wù),即檢測(cè)識(shí)別單字和預(yù)測(cè)單字間的閱讀順序。文章提出的弱監(jiān)督學(xué)習(xí)方法使得僅需要人工標(biāo)注各行的文本信息,無(wú)需標(biāo)注文本位置信息,即可訓(xùn)練PageNet得到單字級(jí)和文本行級(jí)的檢測(cè)識(shí)別結(jié)果。在多個(gè)不同場(chǎng)景的文檔數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了PageNet可以取得超過(guò)全監(jiān)督方法的端到端識(shí)別指標(biāo)。同時(shí),PageNet的篇幅級(jí)識(shí)別指標(biāo)也可以超過(guò)現(xiàn)有的不考慮文本檢測(cè)的文本行級(jí)識(shí)別方法。此外,實(shí)驗(yàn)也證明了PageNet可以很好地處理多方向文本和彎曲文本。弱監(jiān)督學(xué)習(xí)生成的偽標(biāo)注可以無(wú)需人工干預(yù)直接用作標(biāo)注,訓(xùn)練出與人工標(biāo)注指標(biāo)相近的模型。相較于其他方法,PageNet對(duì)合成數(shù)據(jù)與真實(shí)場(chǎng)景的相似程度不敏感,可以更好地泛化至多種多樣的場(chǎng)景。該文章希望為端到端弱監(jiān)督篇幅級(jí)文本識(shí)別領(lǐng)域提供一種新的思路。

五、 相關(guān)資源

論文地址1:https://arxiv.org/abs/2207.14807

論文地址2:https://link.springer.com/article/10.1007/s11263-022-01654-0

代碼地址:https://github.com/shannanyinxiang/PageNet

參考文獻(xiàn)

[1] Dezhi Peng, et al. “A fast and accurate fully convolutional network for end-to-end handwritten Chinese text segmentation and recognition.” Proceedings of International Conference on Document Analysis and Recognition. 2019.

[2] Dezhi Peng, et al. “Recognition of handwritten Chinese text by segmentation: A segment-annotation-free approach.” IEEE Transactions on Multimedia. 2022.

[3] Dezhi Peng, et al. “PageNet: Towards end-to-end weakly supervised page-level handwritten Chinese text recognition” International Journal of Computer Vision. 2022.

原文作者:Dezhi Peng, Lianwen Jin, Yuliang Liu, Canjie Luo, Songxuan Lai

編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Ar
    Ar
    +關(guān)注

    關(guān)注

    24

    文章

    5132

    瀏覽量

    171143
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1217

    瀏覽量

    25115
  • 半監(jiān)督學(xué)習(xí)

    關(guān)注

    0

    文章

    20

    瀏覽量

    2584

原文標(biāo)題:頂刊IJCV 2022!PageNet:面向端到端弱監(jiān)督篇幅級(jí)手寫(xiě)中文文本識(shí)別

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 0人收藏

    評(píng)論

    相關(guān)推薦

    電阻識(shí)別方法

    電阻識(shí)別方法
    發(fā)表于 08-02 21:59

    如何在java中去除中文文本的停用詞

    1.整體思路第一步:先將中文文本進(jìn)行分詞,這里使用的HanLP-漢語(yǔ)言處理包進(jìn)行中文文本分詞。第二步:使用停用詞表,去除分好的詞中的停用詞。2.中文文本分詞環(huán)境配置使用的HanLP-漢語(yǔ)言處理包
    發(fā)表于 04-30 09:38

    基于流形學(xué)習(xí)與SVM的手寫(xiě)字符識(shí)別方法

    本文結(jié)合核方法、局部線(xiàn)性嵌入(LLE)和支持向量機(jī)等機(jī)器學(xué)習(xí)方法,提出了一種集成手寫(xiě)字符維數(shù)約簡(jiǎn)、特征提取及識(shí)別方法。鑒于LLE 方法對(duì)其近
    發(fā)表于 01-22 14:16 ?15次下載

    電容的識(shí)別方法

    電容的識(shí)別方法 電容的識(shí)別方法與電阻的識(shí)別方法基本相同,分直標(biāo)法、色標(biāo)法和數(shù)標(biāo)法3種。 電容的基本單位用法拉(F)表示,其它單位還
    發(fā)表于 02-06 18:13 ?6655次閱讀

    基于無(wú)監(jiān)督特征學(xué)習(xí)的手勢(shì)識(shí)別方法

    基于無(wú)監(jiān)督特征學(xué)習(xí)的手勢(shì)識(shí)別方法_陶美平
    發(fā)表于 01-03 17:41 ?1次下載

    基于AdaBoost_Bayes算法的中文文本分類(lèi)系統(tǒng)

    基于AdaBoost_Bayes算法的中文文本分類(lèi)系統(tǒng)_徐凱
    發(fā)表于 01-07 18:56 ?2次下載

    航天運(yùn)載器端面特征的新型圖像特征識(shí)別方法_陳浩

    航天運(yùn)載器端面特征的新型圖像特征識(shí)別方法_陳浩
    發(fā)表于 03-19 19:07 ?1次下載

    基于版本控制的中文文源代碼的自動(dòng)跟蹤方法

    源代碼的自動(dòng)跟蹤方法。首先,結(jié)合文本源代碼的啟發(fā)式規(guī)則,采用IR方法計(jì)算出文本和源代碼之間的相似度得分;然后,使用軟件開(kāi)發(fā)和維護(hù)過(guò)程中提交
    發(fā)表于 12-14 10:54 ?0次下載
    基于版本控制的<b class='flag-5'>中文文</b>檔<b class='flag-5'>到</b>源代碼的自動(dòng)跟蹤<b class='flag-5'>方法</b>

    如何設(shè)計(jì)一個(gè)有限狀態(tài)轉(zhuǎn)換器的中文語(yǔ)音識(shí)別系統(tǒng)

    應(yīng)用于該聲學(xué)模型訓(xùn)練中,搭建出不依賴(lài)于隱馬爾可夫模型的中文語(yǔ)音識(shí)別系統(tǒng);同時(shí)設(shè)計(jì)了基于加權(quán)有限狀態(tài)轉(zhuǎn)換器( WFST)的語(yǔ)音解碼
    發(fā)表于 12-28 16:01 ?5次下載
    如何設(shè)計(jì)一個(gè)有限狀態(tài)轉(zhuǎn)換器的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>中文</b>語(yǔ)音<b class='flag-5'>識(shí)別</b>系統(tǒng)

    中山大學(xué)提出新型行人重識(shí)別方法和史上最大最新評(píng)測(cè)基準(zhǔn)

    行人重識(shí)別,又稱(chēng)行人再識(shí)別,是利用 CV 技術(shù)判斷圖像或視頻序列中是否存在特定行人的技術(shù)。常規(guī)的行人重識(shí)別方法往往需要高昂的人工標(biāo)注成本,計(jì)算復(fù)雜度也很大。在本文中,中山大學(xué)研究者提出的
    的頭像 發(fā)表于 01-05 14:29 ?2634次閱讀
    中山大學(xué)提出<b class='flag-5'>新型</b>行人重<b class='flag-5'>識(shí)別方法</b>和史上最大最新評(píng)測(cè)基準(zhǔn)

    基于神經(jīng)網(wǎng)絡(luò)的中文文本蘊(yùn)含識(shí)別模型

    基于神經(jīng)網(wǎng)絡(luò)的文本蘊(yùn)含識(shí)別模型通常僅從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)推理知識(shí),導(dǎo)致模型泛化能力較弱。提出種融合外部語(yǔ)義知識(shí)的中文知識(shí)增強(qiáng)推理模型( CKEIM)。根據(jù)知網(wǎng)知識(shí)庫(kù)的特點(diǎn)提取詞級(jí)語(yǔ)義知識(shí)特
    發(fā)表于 03-12 13:50 ?7次下載
    基于神經(jīng)網(wǎng)絡(luò)的<b class='flag-5'>中文文本</b>蘊(yùn)含<b class='flag-5'>識(shí)別</b>模型

    基于幀級(jí)特征的說(shuō)話(huà)人識(shí)別方法

    現(xiàn)有的說(shuō)話(huà)人識(shí)別方法仍存在許多不足?;谠?huà)語(yǔ)級(jí)特征輸入的方法由于語(yǔ)音長(zhǎng)短不一致需要將輸入處理為同等大小,而特征訓(xùn)練加后驗(yàn)分類(lèi)的兩階段
    發(fā)表于 05-08 16:57 ?4次下載

    基于殘差連接的改進(jìn)文本識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)

    針對(duì)已有文本識(shí)別網(wǎng)絡(luò)由于深度不夠而識(shí)別準(zhǔn)確率較低的問(wèn)題,文中提岀一種改進(jìn)的
    發(fā)表于 05-17 15:18 ?6次下載

    基于BGRU的中文文本情感分析方法

    ( bidirectional gated recurrent unit)能記憶序列的上下文信息,并且結(jié)構(gòu)較為簡(jiǎn)單,訓(xùn)練速度較快。提岀一種基于BGRU的中文文夲情
    發(fā)表于 06-15 11:28 ?10次下載

    語(yǔ)音識(shí)別技術(shù):的挑戰(zhàn)與解決方案

    一、引言 隨著人工智能技術(shù)的不斷發(fā)展,語(yǔ)音識(shí)別技術(shù)得到了越來(lái)越廣泛的應(yīng)用。語(yǔ)音識(shí)別技術(shù)是近年來(lái)備受關(guān)注的一種
    的頭像 發(fā)表于 10-18 17:06 ?1227次閱讀
    主站蜘蛛池模板: 十九岁在线观看免费完整版电影 | 一本道的mv中文字幕 | 老阿姨才是最有V味的直播 牢记永久免费网址 | 一个人在线观看视频免费 | 色综合色综合久久综合频道 | 西西人体大胆牲交PP6777 | 999精品免费视频 | av免费网站不卡观看 | 欧美性受xxxx狂喷水 | 九九久久国产精品大片 | 久久婷婷五月免费综合色啪 | 欧美日韩中文国产一区发布 | 一道精品视频一区二区 | 交换:年轻夫妇-HD中文字幕 | 大胸美女被C得嗷嗷叫动态图 | 鲁一鲁亚洲无线码 | 男女久久久国产一区二区三区 | 东日韩二三区 | gay台湾无套男同志xnxⅹ | 最新亚洲中文字幕在线观看 | 夜夜精品视频一区二区 | 京香在线播放 | 中文字幕人妻无码系列第三区 | 2019午夜75福利不卡片在线 | fryee性欧美18 19 | 在线免费福利 | 国产亚洲精品线观看不卡 | HEYZO精品无码一区二区三区 | 国产免费啪嗒啪嗒视频看看 | 9477小游戏| 国产片MV在线观看 | 亚洲H成年动漫在线观看不卡 | 青柠电影在线看 | 男人插曲女人身体视频 | 91进入蜜桃臀在线播放 | xxxx免费观看 | 中文字幕亚洲欧美在线视频 | 97久久超碰中文字幕 | 亚洲视频欧美视频 | 久久精品视频15人人爱在线直播 | 国产黄大片在线视频 |

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品