色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NLP數據增強的最新綜述

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-03-16 09:13 ? 次閱讀

摘要

作為一種有效的策略,數據增強 (data augmentation, DA) 緩解了深度學習技術可能失敗的數據稀缺情況。

它廣泛應用于計算機視覺,然后引入自然語言處理,并在許多任務中取得了改進。DA方法的主要重點之一是提高訓練數據的多樣性,從而幫助模型更好地泛化到看不見的測試數據。

在本次綜述中,我們根據增強數據的多樣性將 DA 方法分為三類,包括改寫(paraphrasing)、噪聲(noising)和采樣(sampling)。我們的論文著手根據上述類別詳細分析 DA 方法。此外,我們還介紹了它們在 NLP 任務中的應用以及面臨的挑戰。

介紹

數據擴充是指通過添加對現有數據稍作修改的副本或從現有數據中新創建的合成數據來增加數據量的方法。這些方法緩解了深度學習技術可能失敗的數據稀缺情況,因此 DA 最近受到了積極的關注和需求。數據增強廣泛應用于計算機視覺領域,例如翻轉和旋轉,然后引入自然語言處理(NLP)。與圖像不同,自然語言是離散的,這使得在 NLP 中采用 DA 方法更加困難且探索不足。

最近提出了大量的 DA 方法,對現有方法的調查有利于研究人員跟上創新的速度。之前的兩項調查都提供了 NLP DA 的鳥瞰圖。他們直接按照方法來劃分類別。因此,這些類別往往過于有限或過于籠統,例如,反向翻譯和基于模型的技術。Baier在 DA 上發布僅用于文本分類的綜述。在本次調研中,我們將全面概述 NLP 中的 DA 方法。我們的主要目標之一是展示 DA 的本質,即為什么數據增強有效。為了促進這一點,我們根據增強數據的多樣性對 DA 方法進行分類,因為提高訓練數據的多樣性是 DA 有效性的主要推動力之一。我們將 DA 方法分為三類,包括改寫、噪聲和采樣。

該論文著手根據上述類別詳細分析 DA 方法。此外,還介紹了它們在 NLP 任務中的應用以及面臨的挑戰。

具體內容

一共分為五大部分。

全面回顧了這三個類別,并分析了這些類別中的每一種方法。還介紹了方法的特征,例如粒度和級別:

582b35b2-c378-11ed-bfe3-dac502259ad0.png

基于改寫(paraphrasing)的方法

基于對句子的適當和有限制的更改,生成與原始數據具有有限語義差異的增強數據。增強數據傳達與原始形式非常相似的信息

基于噪聲(noising)的方法

在保證有效性的前提下加入離散或連續的噪聲。這些方法的重點是提高模型的魯棒性。

基于抽樣(sampling)的方法

掌握數據分布并對其中的新數據進行抽樣。這些方法輸出更多樣化的數據,滿足基于人工啟發式和訓練模型的下游任務的更多需求。

585d9d7c-c378-11ed-bfe3-dac502259ad0.png58cd04d2-c378-11ed-bfe3-dac502259ad0.png

改寫數據增強技術包括三個層次:詞級、短語級和句子級

58e82c3a-c378-11ed-bfe3-dac502259ad0.png

使用語言模型進行改寫

5929c14a-c378-11ed-bfe3-dac502259ad0.png

使用規則進行改寫

5939ebba-c378-11ed-bfe3-dac502259ad0.png

機器翻譯改寫

595107be-c378-11ed-bfe3-dac502259ad0.png

通過模型生成進行改寫

596b45ac-c378-11ed-bfe3-dac502259ad0.png

五種基于噪聲的方法的示例

5990bd28-c378-11ed-bfe3-dac502259ad0.png

基于采樣的模型

59a3474a-c378-11ed-bfe3-dac502259ad0.png

不同DA方法的特點。Learnable表示方法是否涉及模型訓練;online 和 offline 表示 DA 過程是在模型訓練期間還是之后

總結了提高增強數據質量的常用策略和技巧,包括方法堆疊、優化和過濾策略。

59bd1328-c378-11ed-bfe3-dac502259ad0.png

影響每個 DA 方法中增強效果的超參數

分析了上述方法在 NLP 任務中的應用,還通過時間線展示了 DA 方法的發展。

59e54820-c378-11ed-bfe3-dac502259ad0.png

5a1f8f30-c378-11ed-bfe3-dac502259ad0.png5a306922-c378-11ed-bfe3-dac502259ad0.png5a48bca2-c378-11ed-bfe3-dac502259ad0.png

介紹了數據增強的一些相關主題,包括預訓練語言模型、對比學習、相似數據操作方法、生成對抗網絡和對抗攻擊。目標是將數據增強與其他主題聯系起來,同時展示它們的不同之處。

列出了在 NLP 數據增強中觀察到的一些挑戰,包括理論敘述和通用方法,揭示了數據增強未來的發展方向。

公開資源

一些有用的api

5a590260-c378-11ed-bfe3-dac502259ad0.png

除了英語,也有其他語種的工具資源:

5a69f6b0-c378-11ed-bfe3-dac502259ad0.png

總結

在本文中,作者對自然語言處理的數據增強進行了全面和結構化的調研。為了檢驗 DA 的性質,根據增強數據的多樣性將 DA 方法分為三類,包括改寫、噪聲和采樣。這些類別有助于理解和開發 DA 方法。

還介紹了 DA 方法的特點及其在 NLP 任務中的應用,然后通過時間線對其進行了分析。

此外,還介紹了一些技巧和策略,以便研究人員和從業者可以參考以獲得更好的模型性能。最后,我們將 DA 與一些相關主題區分開來,并概述了當前的挑戰以及未來研究的機遇。







審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 計算機視覺
    +關注

    關注

    8

    文章

    1700

    瀏覽量

    46075
  • 自然語言處理

    關注

    1

    文章

    619

    瀏覽量

    13616
  • nlp
    nlp
    +關注

    關注

    1

    文章

    489

    瀏覽量

    22069

原文標題:NLP中關于數據增強的最新綜述

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    NLP的面試題目

    NLP面試題目6-10
    發表于 05-21 15:02

    全面擁抱Transformer:NLP三大特征抽取器(CNNRNNTF)比較

    放棄幻想,全面擁抱Transformer:NLP三大特征抽取器(CNNRNNTF)比較
    發表于 05-29 10:43

    NLP的tfidf作詞向量

    NLP之tfidf作詞向量
    發表于 06-01 17:28

    MOS管驅動電路綜述

      一、MOS管驅動電路綜述  在使用MOS管設計開關電源或者馬達驅動電路的時候,大部分人都會考慮MOS的導通電阻,最大電壓等,最大電流等,也有很多人僅僅考慮這些因素。這樣的電路也許是可以工作的,但
    發表于 11-12 09:19

    數據融合技術綜述

    文章綜述了多傳感器數據融合的歷史、發展及應用, 討論了多傳感器數據融合的基本原理、相關技術及方法、存在的問題、研究方向, 最后介紹了數據融合的應用領域, 特別是智能機
    發表于 06-22 11:30 ?12次下載

    NLP的介紹和如何利用機器學習進行NLP以及三種NLP技術的詳細介紹

    本文用簡潔易懂的語言,講述了自然語言處理(NLP)的前世今生。從什么是NLP到為什么要學習NLP,再到如何利用機器學習進行NLP,值得一讀。這是該系列的第一部分,介紹了三種
    的頭像 發表于 06-10 10:26 ?7.7w次閱讀
    <b class='flag-5'>NLP</b>的介紹和如何利用機器學習進行<b class='flag-5'>NLP</b>以及三種<b class='flag-5'>NLP</b>技術的詳細介紹

    NLP-Progress庫NLP的最新數據集、論文和代碼

    方向是自然語言處理的同學們有福啦,為了跟蹤自然語言處理(NLP)的進展,有大量仁人志士在 Github 上維護了一個名為 NLP-Progress 的庫。它記錄了幾乎所有NLP任務的 baseline 和 標準
    的頭像 發表于 11-17 09:21 ?2578次閱讀

    NLP 2019 Highlights 給NLP從業者的一個參考

    2019年遇到的與機器學習和NLP相關的最重要的故事。我將主要關注NLP,但我還將重點介紹一些與AI相關的有趣故事。標題沒有特別的順序。故事可能包括論文,工程工作,年度報告,教育資源的發布等。 論文刊物 ML / NLP創造力與
    的頭像 發表于 09-25 16:56 ?1760次閱讀

    一種單獨適配于NER的數據增強方法

    ? 本文首先介紹傳統的數據增強在NER任務中的表現,然后介紹一種單獨適配于NER的數據增強方法,這種方法生成的數據更具豐富性、
    的頭像 發表于 01-18 16:28 ?3138次閱讀

    NLP事件抽取綜述之挑戰與展望

    本系列文章主要分享近年來事件抽取方法總結,包括中文事件抽取、開放域事件抽取、事件數據生成、跨語言事件抽取、小樣本事件抽取、零樣本事件抽取等。主要包括以下幾大部分: 定義(Define) 綜述
    的頭像 發表于 01-18 16:33 ?3854次閱讀
    <b class='flag-5'>NLP</b>事件抽取<b class='flag-5'>綜述</b>之挑戰與展望

    Windows編程之數據類型綜述

    Windows編程之數據類型綜述
    發表于 08-24 15:03 ?5次下載

    基于圖像的數據增強方法發展現狀綜述

    基于圖像的數據增強能夠增加訓練樣本的多樣性,如通過翻轉、添加噪聲等基礎圖像處理操作或根據現有數據生成新的樣本進行數據集擴充、數據質量的
    發表于 03-23 17:17 ?1799次閱讀
    基于圖像的<b class='flag-5'>數據</b><b class='flag-5'>增強</b>方法發展現狀<b class='flag-5'>綜述</b>

    幾種常用的NLP數據增強方法

    因為直接對原是文本進行數據增強,很難保證維持原始的文本語義,因此可以通過在語義空間上進行隱式數據增強,簡單列出幾種方法:
    的頭像 發表于 09-15 14:54 ?1831次閱讀

    人工智能nlp是什么方向

    人工智能nlp是什么方向? 人工智能(AI)已經日益普及,正在改變我們的方法和方式。AI 涵蓋了許多領域,其中包括機器學習,計算機視覺,自然語言處理(NLP)等。在這些方向之中,NLP 是最引人注目
    的頭像 發表于 08-22 16:45 ?2015次閱讀

    nlp神經語言和NLP自然語言的區別和聯系

    來改變我們的行為和情感。NLP的目標是幫助人們實現自我改進,提高溝通技巧,增強領導力和解決問題的能力。 NLP的主要組成部分包括: 感知:了解我們如何接收和處理信息。 語言:研究我們如何使用語言來表達我們的思想和情感。 編程:研
    的頭像 發表于 07-09 10:35 ?828次閱讀
    主站蜘蛛池模板: 久久久久国产一级毛片高清片 | 日本午夜看x费免 | 久久国语精品 | 午夜福利体验免费体验区 | 一级毛片两人添下面 | 一日本道伊人久久综合影 | 国产一区二区三区内射高清 | 欧美日韩国产码在线 | 国产三级视频在线 | 亚洲色播永久网址大全 | 宝贝乖女好紧好深好爽老师 | 娇妻归来在线观看免费完整版电影 | 亚洲一区免费观看 | 国产成a人片在线观看视频99 | 四库影院永久国产精品 | 一一本之道高清手机在线观看 | 亚洲 小说 欧美 激情 另类 | 亚洲精品第五页中文字幕 | 国产精品爽爽久久久久久竹菊 | 天天爽夜夜爽夜夜爽 | 精品免费久久久久久影院 | 亚欧免费观看在线观看更新 | 不戴套挺进人妻怀孕 | 日产精品高潮呻吟AV久久 | 麻豆国产人妻精品无码AV | 第七色 夜夜撸 | 又大又硬又爽免费视频 | 91国在线视频 | 东北足疗店妓女在线观看 | 99久酒店在线精品2019 | 久久精品熟一区二区三区 | 超污视频带污疼免费视频 | 国语自产一区第二页 | 精品网站一区二区三区网站 | 亚洲第一区欧美日韩精品 | 亚洲区偷拍自拍29P 亚洲区视频在线观看 | 公交车被CAO到合不拢腿 | 伊人久久大香线蕉无码麻豆 | YELLOW高清在线观看2019 | 2022国产麻豆剧传媒剧情 | 久拍国产在线观看 |