色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

解讀文字識別論文CRNN

新機器視覺 ? 來源:機器學習算法工程師 ? 作者:晟沚 ? 2022-06-09 11:08 ? 次閱讀

前 言

本文主要解讀文字識別論文CRNN.

論文地址:chrome-extension://ikhdkkncnoglghljlkmcimlnlhkeamad/pdf-viewer/web/viewer.html?file=https%3A%2F%2Farxiv.org%2Fpdf%2F1507.05717v1.pdf

01

網絡結構

CRNN是一種卷積循環神經網絡結構,用于解決基于圖像的序列識別問題,特別是場景文字識別問題。CRNN網絡結構如下圖:

1e594a82-e731-11ec-ba43-dac502259ad0.png

網絡結構包含三部分,從下到上依次為:

卷積層,作用是從輸入圖像中提取特征序列;

循環層,作用是預測從卷積層獲取的特征序列的標簽(真實值)分布;

轉錄層,作用是把從循環層獲取的標簽分布通過去重整合等操作轉換成最終的識別結果;

02

卷積層

CRNN卷積層由標準的CNN模型中的卷積層和最大池化層組成,自動提取出輸入圖像的特征序列。

與普通CNN網絡不同的是,CRNN在訓練之前,先把輸入圖像縮放到相同高度(圖像寬度維持原樣),論文中使用的高度值是32。

提取的特征序列中的向量是從特征圖上從左到右按照順序生成的,每個特征向量表示了圖像上一定寬度上的特征,論文中使用的這個寬度是1,就是單個像素。

1e864c8a-e731-11ec-ba43-dac502259ad0.png

特別強調序列的順序是因為在之后的循環層中,先后順序是LSTM訓練中的一個重要參考量。

03

循環層

循環層由一個雙向LSTM循環神經網絡構成,預測特征序列中的每一個特征向量的標簽分布(真實結果的概率列表),循環層的誤差被反向傳播,最后會轉換成特征序列,再把特征序列反饋到卷積層,這個轉換操作由論文中定義的“Map-to-Sequence”自定義網絡層完成,作為卷積層和循環層之間連接的橋梁。

在卷積層的上部建立一個深度雙向遞歸神經網絡,稱為遞歸層。遞歸層對特征序列x = x1......xT中每幀的標簽分布進行預測。遞歸層的優點有三方面。首先,RNN具有很強的序列上下文信息捕獲能力。使用上下文線索進行基于圖像的序列識別比單獨處理每個符號更加穩定和有用。以場景文本識別為例,寬字符可能需要幾個連續幀來充分描述。此外,有些歧義字在觀察其上下文時更容易區分,例如“il”通過字高對比比單獨識別更容易識別。

其次,RNN可以將誤差微分反向傳播到它的輸入,即卷積層,讓我們在一個統一的網絡中共同訓練遞歸層和卷積層。第三,RNN能夠對任意長度的序列進行操作,從開始到結束進行遍歷。

傳統的RNN單元在輸入層和輸出層之間有一個自連接的隱含層。每當它在序列中接收到一個幀 xt 時,它就用一個非線性函數更新它的內部狀態(或稱隱藏狀態)ht,這個函數接受當前輸入xt和上一個內部狀態ht-1: ht=g(xt,ht-1)。然后,基于ht進行預測yt。這樣就捕獲了過去的上下文{xt'}t'

1ead94a2-e731-11ec-ba43-dac502259ad0.png

LSTM是方向性的,它只使用過去的上下文。然而,在基于圖像的序列中,來自兩個方向的上下文是有用的,并且相互補充。因此,將兩個向前和向后的LSTM合并為一個雙向LSTM。此外,可以對多個雙向LSTM進行疊加,得到如上圖b所示的深雙向LSTM。與淺層結構相比,深層結構允許更高層次的抽象,并在語音識別任務中取得了顯著的性能改進。

在遞歸層中,誤差差沿上圖b所示箭頭的相反方向傳播,例如,通過時間反向傳播(BPTT)。在遞歸層的底部,傳播的微分序列被連接到映射中,反轉了將特征映射轉換為特征序列的操作,然后反饋到卷積層。在實踐中,我們創建了一個稱為“映射-序列”的自定義網絡層,作為卷積層和循環層之間的橋梁。

04

轉錄層

網絡結構簡圖:

1f258ebc-e731-11ec-ba43-dac502259ad0.png

Transcription層是將lstm層的輸出與label對應,采用的技術是CTC,可以執行端到端的訓練,用來解決輸入序列和輸出序列難以一一對應的問題,不要求訓練數據對齊和一一標注,直接輸出不定長的序列結果。對于一段長度為T的序列來說,每個樣本點t(t遠大于T)在RNN網絡的最后一層都會輸出一個softmax向量,表示該樣本點的預測概率,所有樣本點的這些概率傳輸給CTC模型后,輸出最可能的標簽,再經過去除空格(blank)和去重操作,就可以得到最終的序列標簽,CTC對齊輸入輸出是多對一的,例如he-l-lo-與hee-l-lo對應的都是“hello”。

基于詞典的轉錄

基于字典的模式,其實是就是上面CTC的基礎上,在獲得結果時,又從字典查了一遍,來更加提高準確率,而沒有字典的就只能取高概率的結果,少了從字典查這一步。

采用了由Graves等人提出的連接時序分類(Connectionist TemporalClassifification CTC) 層中定義的條件概率。該概率定義為:基于每幀的預測y=y1,y2......yT的標簽序列 l,它忽略了 l 中每個標簽的位置。因此,當我們以該概率的負對數作為訓練網絡的目標時,我們只需要圖像及其對應的標簽序列,避免了為個別字符標注位置的勞動。

條件概率的公式簡述如下:輸入是一個序列y=y1,y2......yT,其中T為序列長度。其中,每一個

1f564728-e731-11ec-ba43-dac502259ad0.png

是集合 L’ =LU 上的概率分布,而 L 包含任務中的所有標簽(例如所有英文字符),以及表示為的“空白”標簽。一個序列到序列的映射函數1f7bdd30-e731-11ec-ba43-dac502259ad0.png定義在如下序列上:

1f9d7d50-e731-11ec-ba43-dac502259ad0.png

其中,T是長度,1fc0fe24-e731-11ec-ba43-dac502259ad0.png是預測概率。???1f7bdd30-e731-11ec-ba43-dac502259ad0.png映射1fc0fe24-e731-11ec-ba43-dac502259ad0.png??到標簽序列 I 上,通過先去除重復的標簽,再去除空白的標簽。例如:?1f7bdd30-e731-11ec-ba43-dac502259ad0.png? 映射 “--hh-e-l-ll-oo--”到“hello”( “-”代表空格) 。之后,定義條件概率為所有預測概率?到標簽序列 l 上的映射1f7bdd30-e731-11ec-ba43-dac502259ad0.png?的概率和:

2050e91c-e731-11ec-ba43-dac502259ad0.png

其中,1fc0fe24-e731-11ec-ba43-dac502259ad0.png?的概率定義為p(1fc0fe24-e731-11ec-ba43-dac502259ad0.png??|y)=

20b17656-e731-11ec-ba43-dac502259ad0.png

其中,20fd06b6-e731-11ec-ba43-dac502259ad0.png是標簽?211e445c-e731-11ec-ba43-dac502259ad0.png在時間戳t的概率。

在基于詞典的模式中,每個測試示例都與一個詞典 D 相關聯。主要的,序列標簽通過選擇詞典中定義的擁有最高的條件概率來被選擇,例如,l?=

213a4bde-e731-11ec-ba43-dac502259ad0.png

然而,對于較大的詞典,對詞典進行窮舉搜索,即對詞典中的所有序列計算條件概率,并選擇概率最大的一個,將非常耗時。為了解決這個問題,通過無詞典轉錄預測的標簽序列,在編輯距離度量下往往接近于ground-truth。這表明可以將搜索限制為最近鄰的候選對象2172dc06-e731-11ec-ba43-dac502259ad0.png? ,其中?2187f992-e731-11ec-ba43-dac502259ad0.png?是最大編輯距離,I'是為y在無詞序模式下轉錄的序列:

21a7a5da-e731-11ec-ba43-dac502259ad0.png

候選對象21d237c8-e731-11ec-ba43-dac502259ad0.png可以以bk樹數據結構被有效找尋,bk樹數據結是一種專門適用于離散度量空間的度量樹。bk樹的搜索時間復雜度為

21f2c786-e731-11ec-ba43-dac502259ad0.png

因此,這個方案很容易擴展到非常大的詞典。在本方法中,離線地為詞典構造一個bk樹。然后,通過查找小于或等于編輯距離2187f992-e731-11ec-ba43-dac502259ad0.png的查詢序列,用bk樹執行快速在線搜索。

無詞典的轉錄

以定義的條件概率最高的序列l?作為預測,

2264e9ba-e731-11ec-ba43-dac502259ad0.png

即在每個時間戳 t上獲取最可能的標簽,并將結果序列映射到l?。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4779

    瀏覽量

    101044
  • 圖像
    +關注

    關注

    2

    文章

    1089

    瀏覽量

    40535
  • OCR
    OCR
    +關注

    關注

    0

    文章

    146

    瀏覽量

    16405

原文標題:OCR之CRNN論文解讀

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    訊維KVM坐席管理協作系統:OCR功能及優勢介紹

    隨著人工智能和文字識別技術的發展,企業對文字識別和處理的需求日益增長,尤其是在辦公自動化、數據提取、以及多媒體內容管理領域??蛻魧Ω咝?、精準的文字
    的頭像 發表于 01-22 10:02 ?65次閱讀

    MOSFET參數解讀

    SGT-MOSFET各項參數解讀
    發表于 12-30 14:15 ?1次下載

    PCM1680 does not support a board-to-board interface不支持板對板的是怎么解讀

    The PCM1680 does not support a board-to-board interface不支持板對板的是怎么解讀
    發表于 12-11 07:31

    語音識別技術在醫療領域的應用

    語音識別技術在醫療領域的應用已經越來越廣泛,為醫療服務帶來了諸多便利和效率提升。以下是對語音識別技術在醫療領域應用的介紹: 一、語音病歷 語音識別技術可以將醫生或患者的語音信息轉換成文字
    的頭像 發表于 11-26 09:35 ?458次閱讀

    語音識別與自然語言處理的關系

    了人機交互的革命,使得機器能夠更加自然地與人類溝通。 語音識別技術概述 語音識別,也稱為自動語音識別(ASR),是指將人類的語音轉換成文本的過程。這項技術的核心在于能夠準確捕捉和解析語音信號,然后將其轉換為可讀的
    的頭像 發表于 11-26 09:21 ?547次閱讀

    京準電鐘解讀:PTP時鐘同步系統及應用是什么?

    京準電鐘解讀:PTP時鐘同步系統及應用是什么?
    的頭像 發表于 10-31 09:35 ?318次閱讀
    京準電鐘<b class='flag-5'>解讀</b>:PTP時鐘同步系統及應用是什么?

    明治案例 | 【OCR識別+條碼讀取】一步到位,印刷品質的智能守護者

    的標準信息進行比對,以檢測條碼是否完整、正確2、同時,傳感器還對印刷出來的文字信息進行OCR識別,以檢測文字是否完整、清晰以及是否存在打印錯誤*產品上字符數量較多
    的頭像 發表于 10-22 08:02 ?359次閱讀
    明治案例 | 【OCR<b class='flag-5'>識別</b>+條碼讀取】一步到位,印刷品質的智能守護者

    光學識別字符是自動識別技術嗎

    光學識別字符(Optical Character Recognition,簡稱OCR)是一種自動識別技術,它能夠將各種類型文檔(如掃描的紙質文檔、PDF文件或數字相機拍攝的圖片)中的文字轉換成可編
    的頭像 發表于 09-10 15:43 ?524次閱讀

    光學識別的過程包含哪些

    光學識別(Optical Character Recognition,OCR)是一種將圖像中的文字轉換為機器可讀文本的技術。這個過程涉及多個步驟,包括圖像預處理、文本檢測、字符分割、字符識別和后處理
    的頭像 發表于 09-10 15:36 ?459次閱讀

    解讀MIPI A-PHY與車載Serdes芯片技術與測試

    上一期,《汽車芯片標準體系建設指南》技術解讀與功率芯片測量概覽中,我們給大家介紹了工信部印發的《汽車芯片標準體系建設指南》涉及到的重點芯片與測試領域解讀,本期繼續給大家做延展,我們解讀的是MIPI A-PHY與車載Serdes芯
    的頭像 發表于 07-24 10:14 ?3009次閱讀
    <b class='flag-5'>解讀</b>MIPI A-PHY與車載Serdes芯片技術與測試

    寬帶數控延時線芯片的研制論文

    電子發燒友網站提供《寬帶數控延時線芯片的研制論文.pdf》資料免費下載
    發表于 07-02 17:26 ?0次下載

    接觸器的文字符號是什么

    接觸器是一種用于控制大功率設備的電氣開關,廣泛應用于工業自動化、電力系統、家用電器等領域。接觸器的文字符號是電氣工程中非常重要的一部分,它可以幫助工程師快速識別和理解電路圖。本文將詳細介紹接觸器
    的頭像 發表于 06-30 09:17 ?3596次閱讀

    溫度繼電器的文字符號用什么表示

    溫度繼電器是一種用于監測和控制溫度的電氣設備,廣泛應用于工業、電力、交通、建筑等領域。它能夠根據溫度的變化自動地控制電路的通斷,以保護設備和系統的正常運行。在電路設計和電氣工程中,溫度繼電器的文字
    的頭像 發表于 06-24 09:17 ?1032次閱讀

    智能手機充電頭OCR精準識別

    文本是人類最重要的信息來源之一,自然場景中充滿了形形色色的文字符號。光學字符識別(OCR)相信大家都不陌生。而工業場景的圖像文字識別更加復雜,OCR出現在很多不同的場合,對某些特殊的表
    的頭像 發表于 06-11 08:24 ?497次閱讀
    智能手機充電頭OCR精準<b class='flag-5'>識別</b>

    EMC技術:基礎概念到應用的解讀?

    EMC技術:基礎概念到應用的解讀?|深圳比創達電子
    的頭像 發表于 03-11 11:55 ?655次閱讀
    EMC技術:基礎概念到應用的<b class='flag-5'>解讀</b>?
    主站蜘蛛池模板: 女子扒开腿让男生桶爽 | 久久高清一本无码 | 麻豆精品2021最新 | 欧美不卡一区二区三区 | 色欲久久综合亚洲精品蜜桃 | 全黄h全肉短篇禁乱np | 无码天堂亚洲内射精品课堂 | 色妺妺免费影院 | 扒开老师大腿猛进AAA片邪恶 | 伦理片92伦理午夜 | 九色PORNY蝌蚪视频首页 | 耽肉高h喷汁呻吟 | 久久国产精品自线拍免费 | 美女隐私黄www视频 美女议员被泄裸照 | 男人j进女人j一进一出 | 不戴套挺进人妻怀孕 | 影音先锋电影资源av | 狠狠色狠色综合曰曰 | 第四色播日韩AV第一页 | 91天堂国产在线 在线播放 | 乱h好大噗嗤噗嗤烂了 | 国产成人免费手机在线观看视频 | 亚洲午夜AV久久久精品影院色戒 | 伊人久久精品线影院 | 日本国产精品无码一区免费看 | 無码一区中文字幕少妇熟女H | 99久久久国产精品免费蜜臀 | 邻家美姨在线观看全集免费 | 一边亲着一面膜下奶韩剧免费 | 祺鑫WRITEAS流出来了 | 老师机影院 | 久久精品AV一区二区无码 | 擼擼擼麻豆密臀AV | 亚洲精品国偷拍电影自产在线 | 麻豆一二三区果冻 | 国产成人刺激视频在线观看 | 亚洲免费观看视频 | 午夜DY888国产精品影院 | www.97干| 欧美四虎精品二区免费 | 蜜臀AV浪潮99国产麻豆 |