色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NLP:用Cluster-to-Cluster生成更多樣化的新數據

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2021-02-14 09:19 ? 次閱讀

論文名稱:C2C-GenDA: Cluster-to-Cluster Generation for Data Augmentation of Slot Filling 論文作者:侯宇泰、陳三元、車萬翔、陳成、劉挺 原創作者:侯宇泰 論文鏈接:https://arxiv.org/abs/2012.07004 出處:哈工大SCIR

1. 簡介

1.1 研究背景

對話語言理解(Spoken Language Understanding,SLU)[1]經常面臨領域和需求的頻繁切換,這常常會導致訓練數據在數量和質量上的不足。

數據增強(Data Augmentation)是一種自動生成新數據擴充訓練集的技術,能夠有效地緩解上述數據不足的帶來的挑戰 [2,3]。

1.2 研究動機

如圖1(上)所示,現有數據增強,如基于Seq2Seq 的句子復述(re-phrasing)方法 [4,5,6],經常無法避免地生成沒有意義的重復數據。這很大程度要歸咎于現有的one-by-one數據生成模式。

相較之下,如圖1(下)所示,one-by-one數據生成弊病可以天然地通過多到多(cluster-to-cluster)生成方式得到緩解。

0b2a19a6-549c-11eb-8b86-12bb97331649.png

圖1 示例:從已有句子生成新表述,現有one-by-one復述方法無法避免生成重復數據

1.3 我們的貢獻

我們提出了一種全新的Cluster-to-Cluster生成范式來生成新數據,并基于此提出了一個全新的數據增強框架,稱為C2C-GenDA。C2C-GenDA通過將現有句子重構為表達方式不同但語義相同的新句子,來擴大訓練集。與過往的Data Augmentation(DA)方法逐句(One-by-one)構造新句子的做法不同,C2C-GenDA采用一種多到多(Cluster-to-Cluster)的全新的新語料生成方式。

具體的,C2C-GenDA聯合地編碼具有相同語義的多個現有句子,并同時解碼出多個未見表達方式的新句子。

這樣種的生成方式會直接帶來如下好處:

(1)同時生成多個新話語可以讓模型建模生成的新句子之間的關系,減少新句子間內部重復。

(2)聯合地對多個現有句子進行編碼讓模型可以更廣泛地看到已有的現有表達式,從而減少無意義的對已有數據的重復。

1.4實驗效果

當只有數百句訓練語料時,C2C-GenDA數據增強方法在了兩個公開的槽位提取(slot filling)數據集上分別帶來了 7.99 (11.9%↑) and 5.76 (13.6%↑) F-scores 的提升。

2. 方法

2.1 Cluster2Cluster 生成模型

給定具有相同語義框架(semantic frame)的一組多個句子,即input cluster, 模型一次性生成多個新句子,即output cluster。這些輸出與輸入的語義框架相同,但是具有不同的表達方式。

0b6b5420-549c-11eb-8b86-12bb97331649.png

圖2 Cluster2Cluster 生成模型

如圖2所示,Cluster2Cluster模型采用基于Transformer的Encoder和Decoder。具體的,我們用特殊分割Token拼接input cluster中的句子,作為模型輸入。在解碼時,模型用多個共享參數的decoder同步解碼多個新句子。

我們采用了前人添加Rank Token作為解碼起步的方法[5]來讓模型區分不同的輸出句子。

同時,為了進一步提升句子的多樣性,我們提出Duplication-aware Attention和Diverse-Oriented Regularization來進一步強化模型,如圖2所示:

(1)Duplication-aware Attention(DAA):通過Attention為模型提供兩方面的信息,即Input Cluster中已有的表達方式,和其他正在解碼的句子中的表達方法。根據這些信息,我們采用一種類似Coverage Attention的方式對重復的表達生成進行懲罰。

(2)Diverse-Oriented Regularization(DOR):我們提出DOR來從Loss層面引導模型生成多樣的句子。具體的,我們用不同句子,解碼詞分布之間的KL-散度作為loss,來約束模型避免在不同的句子中的相同step解碼出相同的詞。

2.2 Cluster2Cluster 模型訓練

僅有多到多的生成模型顯然不足以生成新的數據。為了讓Cluster2Cluster模型具有生成新表述的能力,我們提出了Dispersed Cluster Pairing算法來構造多到多的復寫(Paraphrase)訓練數據。

具體的,如圖3 和圖4所示,給定具有相同語義的一組數據,我們首先找到一組表述相近的句子作為Input Cluster,然后貪心地構造Output Cluster:每次添加一句和Input Cluster以及現有Output Cluster表述差異最大的句子到 Output Cluster。

這樣的作法旨在模擬從少量說法有限的句子生成多樣的未見表述的過程。

0bb0e382-549c-11eb-8b86-12bb97331649.png

圖3構造多到多的Paraphrase訓練數據

0c082ad4-549c-11eb-8b86-12bb97331649.png

圖4多到多的Paraphrase訓練數據構造算法

2.3 數據增強實現

我們將原有的訓練數據分為兩份,一份訓練C2C-GenDA模型,一份用來做數據增強的輸入。

最后我們用所有新生成的句子和原有的句子作為增強后的訓練集。

3. 實驗:

3.1 主實驗結果

如表1所示,我們的方法能夠大幅地提升Slot Filling模型效果(Baseline),并優于現有的數據增強方法。

表1 主實驗結果

0c34358e-549c-11eb-8b86-12bb97331649.png

3.2 分析實驗

如表2所示,在消融實驗中,我們提出的各個模塊都對最終的實驗效果起到了作用。

表2 消融實驗

0c630a12-549c-11eb-8b86-12bb97331649.png

表3展示不同生成模型的生成數據和Inter和Intra多樣性,結果顯示采用Cluster2Cluster的生成方法可以讓新數據的多樣性產生巨大的提升。

表3 多樣性分析實驗

0c8ff928-549c-11eb-8b86-12bb97331649.png

表4展示了由Cluster2Cluster模型生成的一些樣例,可以看到Cluster2Cluster模型可以從多個角度生成一些有趣的新表述方式。

表4 樣例分析

0ccd8b1c-549c-11eb-8b86-12bb97331649.png

4.參考文獻

[1] Young, S.; Gasiˇ c, M.; Thomson, B.; and Williams, J. D. ′ 2013. Pomdp-based statistical spoken dialog systems: A review. Proc. of the IEEE 101(5): 1160–1179.

[2] Kim, H.-Y.; Roh, Y.-H.; and Kim, Y.-G. 2019. Data Augmentation by Data Noising for Open-vocabulary Slots in Spoken Language Understanding. In Proc. of NAACL, 97– 102.

[3] Shin, Y.; Yoo, K. M.; and Lee, S.-G. 2019. Utterance Generation With Variational Auto-Encoder for Slot Filling in Spoken Language Understanding. IEEE Signal Processing Letters 26(3): 505–509.

[4] Yoo, K. M. 2020. Deep Generative Data Augmentation for Natural Language Processing. Ph.D. thesis, Seoul National University

[5] Hou, Y.; Liu, Y.; Che, W.; and Liu, T. 2018. Sequence-to-Sequence Data Augmentation for Dialogue Language Understanding. In Proc. of COLING, 1234–1245.

[6] Kurata, G.; Xiang, B.; and Zhou, B. 2016. Labeled Data Generation with Encoder-Decoder LSTM for Semantic Slot Filling. In Proc. of INTERSPEECH, 725–729.

責任編輯:xj

原文標題:【SCIR AAAI2021】數據增強沒效果?試試用Cluster-to-Cluster生成更多樣化的新數據吧

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7104

    瀏覽量

    89297
  • 自然語言
    +關注

    關注

    1

    文章

    288

    瀏覽量

    13369
  • nlp
    nlp
    +關注

    關注

    1

    文章

    489

    瀏覽量

    22064

原文標題:【SCIR AAAI2021】數據增強沒效果?試試用Cluster-to-Cluster生成更多樣化的新數據吧

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    漫途遠程采集終端小巧強大,滿足多樣化數據采集需求!

    數據采集
    無錫漫途科技有限公司
    發布于 :2024年12月13日 14:43:52

    NVIDIA Isaac Sim滿足模型的多樣化訓練需求

    光輪智能借助?NVIDIA Isaac Sim,通過 3D 生成與建模技術構建高度逼真的虛擬場景,將現實世界的復雜場景抽象并轉化為高質量的訓練數據源,從而更有效地滿足模型的多樣化訓練需求。 AI
    的頭像 發表于 11-23 14:55 ?585次閱讀

    如何使用OpenUSD構建支持生成式AI的合成數據工作流

    訓練用于驅動自主機器(例如機器人和自動駕駛汽車)的物理 AI 模型需要大量數據。獲取大量多樣化的訓練數據可能很困難、耗時且昂貴。數據通常因隱私限制或擔憂而受到限制,或者對于新穎的
    的頭像 發表于 11-20 09:50 ?305次閱讀
    如何使用OpenUSD構建支持<b class='flag-5'>生成</b>式AI的合成<b class='flag-5'>數據</b>工作流

    博科測試IPO上市觀察:產品布局完善,可滿足多樣化檢測需求

    汽車測試試驗系統是一個綜合性的體系,它專門用于對汽車整車及其零部件的性能進行測試與檢測,其中包含了各種專業設備、系統以及相關的服務。為了滿足汽車領域客戶多樣化且個性的檢測需求,博科測試以自行研發
    的頭像 發表于 11-05 14:13 ?313次閱讀

    室內人行與導航系統有哪些多樣化的功能?

    多樣化的功能設計,滿足了不同場景下的多元需求。接下來我們一起了解一下關于室內人行與導航系統有哪些多樣化的功能? 一、精準定位與路徑規劃 室內人行與導航系統核心的功能,室內導航系統通過藍牙、Wi-Fi、RFID、UWB(超寬帶
    的頭像 發表于 10-09 11:28 ?230次閱讀
    室內人行與導航系統有哪些<b class='flag-5'>多樣化</b>的功能?

    雙路設計,滿足光伏電站與充電樁多樣化計量需求——安科瑞丁佳雯

    在當今快速發展的可再生能源與電動汽車領域,光伏電站與充電樁的計量需求日益多樣化且復雜。為了應對這一挑戰,DJSF1352-RN電表以其創新的雙路設計脫穎而出,成為滿足光伏電站與充電樁多樣化計量需求
    的頭像 發表于 09-09 12:54 ?234次閱讀
    雙路設計,滿足光伏電站與充電樁<b class='flag-5'>多樣化</b>計量需求——安科瑞丁佳雯

    潤和軟件星閃業務閃耀海外,亮相“面向智能社會的技術多樣化與產品戰略論壇”

    2024年8月30日,“面向智能社會的技術多樣化與產品戰略論壇”在日本東京國際展覽中心成功舉辦,本次論壇由國際星閃無線短距通信聯盟主辦,圍繞“技術標準、標準產業、產業國際”的方針
    的頭像 發表于 08-31 08:00 ?321次閱讀
    潤和軟件星閃業務閃耀海外,亮相“面向智能社會的技術<b class='flag-5'>多樣化</b>與產品戰略論壇”

    nlp自然語言處理模型怎么做

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域的一個重要分支,它涉及到計算機對人類語言的理解和生成。隨著深度學習技術的發展,NLP領域取得了顯著
    的頭像 發表于 07-05 09:59 ?677次閱讀

    DC/AC電源模塊:實現電力系統的多樣化應用

    家庭和商業建筑到工業設備和交通運輸,都需要穩定可靠的電力供應。DC/AC電源模塊為這些需求提供了強大的支持。 DC/AC電源模塊:實現電力系統的多樣化應用 首先,DC/AC電源模塊可以將直流電源轉換為交流電源,使之能夠適應更多的設備需求。許多電子設備和家
    的頭像 發表于 06-18 13:14 ?434次閱讀
    DC/AC電源模塊:實現電力系統的<b class='flag-5'>多樣化</b>應用

    長電科技為自動駕駛芯片客戶提供多樣化高可靠性的封裝測試解決方案

    長電科技作為全球領先的集成電路成品制造和技術服務提供商,在先進封裝領域深耕多年,可為自動駕駛芯片客戶提供多樣化、高可靠性的封裝測試解決方案和配套產能。
    的頭像 發表于 05-14 10:26 ?1202次閱讀
    長電科技為自動駕駛芯片客戶提供<b class='flag-5'>多樣化</b>高可靠性的封裝測試解決方案

    聯合電子攜多樣化解決方案和創新技術亮相2024北京車展

    聯合電子在本次北京國際車展(第十八屆北京國際汽車展覽會)的博世展臺展出了一系列創新技術和多樣化的解決方案,包括高效靈活的混合動力及純電動汽車系統解決方案
    的頭像 發表于 04-28 09:59 ?762次閱讀

    【TE Connectivity】泰科電子低溫升 Cluster Block連接器,無懼高溫,“清新”來襲!

    低溫升Cluster Block 連接器 TE Connectivity (以下簡稱“TE”)家電事業部的 Cluster Block 產品系列專注于為空調壓縮機制造商提供高效、清潔的電氣快速連接
    發表于 04-10 14:04 ?325次閱讀
    【TE Connectivity】泰科電子低溫升 <b class='flag-5'>Cluster</b> Block連接器,無懼高溫,“清新”來襲!

    三星半導體分享了面向PC、移動端和服務器的多樣化創新存儲解決方案

    在2024年CFMS閃存市場峰會上,三星半導體展示了其面向PC、移動端和服務器的多樣化創新存儲解決方案。
    的頭像 發表于 03-20 17:22 ?652次閱讀

    中國電信攜手中興通訊聯合發布Cluster DRS創新技術和成果

    2月26日,2024年世界移動通信大會(MWC2024)在西班牙巴塞羅那開幕。展會期間,中國電信攜手中興通訊聯合發布了Cluster DRS(Dynamic Radio Sharing,基站簇級的動態波束共享)創新技術和成果。
    的頭像 發表于 02-27 10:44 ?518次閱讀

    中國電信聯合中興通訊推出Cluster DRS解決方案

    在2024年世界移動通信大會(MWC2024)上,中國電信與中興通訊共同展示了他們的最新創新技術——Cluster DRS(Dynamic Radio Sharing)解決方案。這項新技術基于動態波束共享技術,為無人機提供了更高效、更穩定的通信支持。
    的頭像 發表于 02-27 10:32 ?782次閱讀
    主站蜘蛛池模板: 老熟女重囗味GRANNYBBW| ewp系列虐杀在线视频| 亚洲久热无码中文字幕| 中文字幕亚洲男人的天堂网络 | 果冻传媒视频在线播放| 蜜臀AV熟女人妻中文字幕| 双性大乳浪受噗呲噗呲h总| 3a丝袜论坛| 极品虎白在线观看| 试看2分钟AA片| xiah俊秀| 美女张开腿让男人桶爽无弹窗| 亚洲va精品中文字幕| 成人性生交大片免费看金瓶七仙女| 久久久免费热线精品频| 亚洲精品国产精品麻豆99| 古风H啪肉NP文| 日本伦子欲| 99久久综合| 久久亚洲A片COM人成A| 亚洲高清无在码在线电影| 俄罗斯XXXXXL18| 强开少妇嫩苞又嫩又紧九色 | 欧美日韩精品| 2019伊人查蕉在线观看| 精品无码久久久久久动漫| 亚洲 欧美 国产 视频二区| 大香伊人中文字幕精品| 欧美一区二区激情视频| 99久久久精品免费观看国产| 老师的快感电影完整版| 又大又硬又爽免费视频 | bbwvideoa欧美老妇| 免费观看美女的网站| 最新2017年韩国伦理片在线| 久久91精品国产91| 一本道在线综合久久88| 久久国产精品自线拍免费| 一个人HD高清在线观看免费视频| 黑吊大战白女出浆| 亚洲一区二区三区免费看|