午夜一区二区免费视频,五月一区二区久久综合天堂,五月天综合久久

本文簡要介紹 2018 年 5 月被 TMM 錄用論文“ Track，Attend and Parse （TAP）： An End-to-end Framework for Online Handwritten Mathematical Expression Recognition” 的主要工作。該論文是 2017 年發表在 ICDAR 上的文章［1］的升級版，主要解決了在線手寫數學公式的識別問題。

該論文中介紹的方法獲得了國際最大在線手寫數學公式比賽 CROHME2019 的冠軍，且是在未使用額外數據的情況下超過了有大量額外數據的國際企業參賽隊伍，如 MyScript ， Wiris ， MathType 等，突出了該算法較傳統數學公式識別算法的優勢。

一、研究背景

手寫數學公式識別較傳統 OCR 問題而言，是一個更復雜的二維手寫識別問題，其內部復雜的二維空間結構使得其很難被解析，傳統方法的識別效果不佳。隨著深度學習在各領域的成功應用，文章［2］［3］首次提出了基于深度學習的端到端離線數學公式算法，并在公開數據集上較傳統方法獲得了顯著提升，開辟了全新的數學公式識別框架。然而在線手寫數學公式識別框架還未被提出，論文 TAP 則是首個基于深度學習的端到端在線手寫數學公式識別模型，且針對數學公式識別的任務特性提出了多種優化。

二、TAP原理簡述

Fig.1. Overall archi tecture

Fig 1 是 TAP 的整體結構。 TAP 遵循文章［2］［3］中的做法，將數學公式的樹結構識別問題轉換成了數學公式 LaTeX 字符串識別問題。這一思路的轉換簡化了數學公式識別問題，使端到端的識別成為了可能。 TAP 的基本框架為基于注意力機制的編解碼模型，也稱 Encoder-Decoder 模型［4］，其將輸入的軌跡點序列通過 Encoder 編碼得到高維特征表達，依靠 Attention 機制找出高維特征中的關鍵部分以用于解碼出當前時刻的 LaTeX 字符，直至解碼結束。

TAP 延續了會議文章［1］中的 Encoder 框架，在 Attention 機制上針對在線手寫公式識別提出了 Spatial Attention， Temporal Attention， Attention Guider 用于改善 Attention 的對齊以及 Decoder 的解碼能力。文章中還利用了在線與離線兩個模態之間的互補性進一步提升了手寫識別性能。

Fig.2. Architecture of the hybridattention model

Fig 2 是 TAP 所采用的H ybrid Attention 機制，除了常用的S patial Attention 外，還采用了T emporal Attention 機制。其中，S patial Attention 利用了A ttention 的歷史信息以解決數學公式中多個同樣數學字符出現時的對齊混淆問題。

而T emporal Attention 用于處理 LaTeX 中的結構字符的特殊對齊。因為在 LaTeX 的語法規則中，為了重現數學公式語言里的二維空間結構，需要額外有一些特殊的結構字符來形成語法，而這些特殊的結構字符在輸入的數學公式中不存在，因而S patial Attention 無法完成對齊，此時則需要T emporal Attention 來補足這個不存在的對齊空缺，既能不干擾S patial Attention 的學習，又能提高D ecoder 的解碼能力，進一步提升性能。

Fig.3. Illustration of the attention guider

此外， TAP 還采用了A ttention Guider 來強化S patial Attention 的學習，從 Fig 3 中可以看出，在使用了A ttention Guider 來引導S patial Attention 的學習后，S patial Attention 的對齊效果顯著提升，十分精確，并且效果也反映到了最終的識別性能上。

三、主要實驗結果及可視化效

TABLE 1. The recognition results on CROHME2014.

TABLE 2. The recognition results on CROHME2016.

由 TABLE 1 、 TABLE 2 來看，文章所提方案在 CROHME2014 和 CROHME2016 公開數據集上取得了 state-of-the-art 的結果，且較傳統方法有巨大的提升，驗證了該方法的有效性，且 TAP 展示的結果相對于會議版本也有了進一步的提升，體現了H ybrid Attention 在糾正對齊和提升性能處起到了關鍵作用。

Fig.4. Visualization of temporal attention

Fig.5. Visualization of hybrid attention

Fig.6. Example of complementarity between online and offline modality

Fig 4 是對于T emporal Attention 的可視化，可見T emporal Attention 能夠很正確的幫助 Spatial Attention 區分結構字符和實體字符。 Fig 5 是對 Hybrid Attention 整體在一個手寫數學公式實例上的可視化。 Fig 6 列出了一個手寫數學公式在線和離線模態互補性的實例，由于存在倒筆現象，單純的在線模型無法正確識別該例子，而通過離線模型的融合輔助最終使得這個公式例子被正確識別（由于符號定義過多，更詳細的內容請參考原文，鏈接附后）。

四、總結及討論

1. TAP-ICDAR 版首次提出了基于深度學習的端到端在線手寫數學公式識別模型，將樹形結構識別問題巧妙轉換成了 LaTe X 字符串識別問題，成功突破了傳統方法在該問題上的性能瓶頸，開辟了全新的在線數學公式識別框架。

2. TAP-TMM 相比 TAP-ICDAR 而言，進一步提出了 Hybrid Attention ，不僅提高了 Attention 的對齊準確度，也針對性地處理了 LaTeX 中結構字符的對齊和生成，且效果最終都很好地反映在了最終的識別性能上。此外，通過融合離線模態的全局特性，進一步提升了在線手寫數學公式的識別率。

3. TAP 中匯報出來的在 CROHME2014 及 CROHME2016 上的識別率，至今仍是最好的公開結果，相關算法也在 CROHME2019 競賽上獲得了第一名，并且在沒有使用額外數據的情況便超越了其他使用大量額外數據的企業隊伍。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

算法

算法

+關注

關注
23

文章
4681

瀏覽量
94316
識別模型

識別模型

+關注

關注
0

文章
5

瀏覽量
6800
深度學習

深度學習

+關注

關注
73

文章
5546

瀏覽量
122279

自動駕駛中基于規則的決策和端到端大模型有何區別？

在自動駕駛架構的選擇上，也經歷了從感知、決策控制、執行的三段式架構到現在火熱的端到端大模型，尤其是在2024年特斯拉推出FSD V12后，各車企更是陸續推出自家的

發表于 04-13 09:38 ?2489次閱讀

自動駕駛中基于規則的決策和<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大<b class='flag-5'>模型</b>有何區別？

靈初智能發布端到端具身模型Psi R0，實現復雜操作與泛化能力

近日，靈初智能在人工智能領域取得了重大突破，成功發布了首個基于強化學習(RL)的端到端具身模型—

發表于 12-31 15:31 ?474次閱讀

階躍星辰發布國內首個千億參數端到端語音大模型

近日，階躍星辰在官方公眾號上宣布了一項重大突破——推出Step-1o千億參數端到端語音大模型。該模型被譽為“國內

發表于 12-17 13:43 ?593次閱讀

黑芝麻智能端到端算法參考模型公布

黑芝麻智能計劃推出支持華山及武當系列芯片的端到端算法參考方案。該方案采用One Model架構，并在決策規劃單元引入了VLM視覺語言大模型和PRR行車規則的概率化表征子模塊，進一步提升

發表于 12-03 12:30 ?657次閱讀

黑芝麻智能<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>算法參考<b class='flag-5'>模型</b>公布

連接視覺語言大模型與端到端自動駕駛

端到端自動駕駛在大規模駕駛數據上訓練，展現出很強的決策規劃能力，但是面對復雜罕見的駕駛場景，依然存在局限性，這是因為端到

發表于 11-07 15:15 ?550次閱讀

連接視覺語言大<b class='flag-5'>模型</b>與<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動駕駛

智己汽車“端到端”智駕方案推出，老司機真的會被取代嗎？

隨著智能駕駛技術的發展，行業已經從早期基于簡單規則和模塊化邏輯的自動駕駛，逐步邁向依托深度學習的高復雜度智能駕駛解決方案，各車企也緊跟潮流，先后宣布了自己的端到

發表于 10-30 09:47 ?623次閱讀

智己汽車“<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”智駕方案推出，老司機真的會被取代嗎？

AI大模型與深度學習的關系

人類的學習過程，實現對復雜數據的學習和識別。AI大模型則是指模型的參數數量巨大，需要龐大的計算資源來進行訓練和推理。

發表于 10-23 15:25 ?2392次閱讀

端到端InfiniBand網絡解決LLM訓練瓶頸

的，這需要大量的計算資源和高速數據傳輸網絡。端到端InfiniBand（IB）網絡作為高性能計算和AI模型訓練的理想選擇，發揮著重要作用。在本文中，我們將深入探討大型語言

發表于 10-23 11:26 ?927次閱讀

<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>InfiniBand網絡解決LLM訓練瓶頸

Mobileye端到端自動駕駛解決方案的深度解析

強大的技術優勢。 Mobileye的端到端解決方案概述 1.1 什么是端到端自動駕駛？

發表于 10-17 09:35 ?692次閱讀

Mobileye<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動駕駛解決方案的<b class='flag-5'>深度</b>解析

智駕進程發力？小鵬、蔚來端到端模型上車

轉型的關鍵時期，而智能駕駛技術的發展被視為這場變革的核心動力。作為自動駕駛的支撐技術之一，端到端大模型憑借其感知、規劃和控制的一體化能力，大幅提升了智能駕駛的效率和穩定性。不同于傳統的

發表于 09-26 09:19 ?460次閱讀

智駕進程發力？小鵬、蔚來<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>模型</b>上車

端到端測試用例怎么寫

編寫端到端測試用例是確保軟件系統從頭到尾能夠正常工作的關鍵步驟。以下是一個詳細的指南，介紹如何編寫端到端

發表于 09-20 10:29 ?806次閱讀

深度識別人臉識別在任務中為什么有很強大的建模能力

通過大量數據進行訓練，能夠自動學習到人臉的特征表示，而不需要人為設計特征提取算法。多層神經網絡結構：深度學習模型通常包含多層神經網絡，這

發表于 09-10 14:53 ?680次閱讀

循環神經網絡在端到端語音識別中的應用

, LSTM）和門控循環單元（Gated Recurrent Unit, GRU）等，展現了強大的性能。本文將深入探討循環神經網絡在端到端語音識別中的應用，包括其背景、核心算法原理、具

發表于 07-08 11:09 ?922次閱讀

小鵬汽車發布國內首個量產上車的端到端大模型

小鵬汽車近日宣布，國內首個端到端大模型量產上車，這一革命性的技術將大幅提升智能駕駛的能力。據小鵬汽車介紹，這一大

發表于 05-28 11:47 ?1026次閱讀

小鵬汽車發布端到端大模型

小鵬汽車近日宣布，其成功研發并發布了“國內首個量產上車”的端到端大模型，該模型可直接通過傳感器輸

發表于 05-21 15:09 ?855次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

首個基于深度學習的端到端在線手寫數學公式識別模型