色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

深度學習:四種利用少量標注數據進行命名實體識別的方法

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2021-01-03 09:35 ? 次閱讀

導讀

近年來,深度學習方法在特征抽取深度和模型精度上表現優異,已經超過了傳統方法,但無論是傳統機器學習還是深度學習方法都依賴大量標注數據來訓練模型,而現有的研究對少量標注數據學習問題探討較少。本文將整理介紹四種利用少量標注數據進行命名實體識別的方法。

面向少量標注數據的NER方法分類

基于規則、統計機器學習和深度學習的方法在通用語料上能取得良好的效果,但在特定領域、小語種等缺乏標注資源的情況下,NER 任務往往得不到有效解決。然而遷移學習利用領域相似性,在領域之間進行數據共享和模型共建,為少量標注數據相關任務提供理論基礎。本文從遷移的方法出發,按照知識的表示形式不同,將少量標注數據NER 方法分為基于數據增強、基于模型遷移、基于特征變換、基于知識鏈接的方法。如圖1所示,在這 20 多年間,四種方法的發文數量基本呈上升趨勢,整體而言,當前的研究以數據增強、模型遷移為主,而其他的方法通常配合前兩種方法使用,在研究中也值得關注。

211ccf60-4691-11eb-8b86-12bb97331649.png

圖1 1995年-2019年四種方法的使用情況

基于數據增強的NER方法

數據增強的方法即:在少量數據集訓練模型導致過擬合時,通過樣本選擇、權重調整等策略以創建高質量樣本集,再返回分類器中迭代學習,使之能夠較好地完成學習任務的方法。

(1)樣本選擇。在面向少量標注數據時,最直接的策略是挑選出高質量樣本以擴大訓練數據。其中,樣本選擇是數據增強式 NER 的核心模塊,它通過一定的度量準則挑選出置信度高、信息量大的樣本參與訓練,一種典型的思路為主動學習采樣,例如 Shen 等利用基于“不確定性”標準,通過挖掘實體內蘊信息來提高數據質量。在實踐中,對于給定的序列 X=(x1, x2,…xi) 和標記序列Y=(y1, y2,…yi),x 被預測為 Y 的不確定性可以用公式(1)來度量,其中 P(y) 為預測標簽的條件分布概率,M 為標簽的個數,n 為序列的長度:

21598ebe-4691-11eb-8b86-12bb97331649.png

為了驗證主動學習采樣的性能,在人民日報(1998 年)語料中進行實驗,共迭代十次,其中 Random 為迭代中隨機采樣,ALL 為一次訓練完所有數據的結果,Active-U 為利用數據增強的結果。實驗結果(如圖 2)表明,利用數據增強方法在第 7 次迭代中就能達到擬合,節省了 30% 的標注成本。

218b1f1a-4691-11eb-8b86-12bb97331649.png

圖2基于數據增強方法的實例

也有不同學者利用其他的度量準則,例如高冰濤等人通過評估源域樣本在目標領域中的貢獻度,并使用單詞相似性和編輯距離,在源域樣本集和目標樣本集上計算權值來實現迭代學習。Zhang 等人充分考慮領域相似性,分別進行域區分、域依賴和域相關性計算來度量。這些方法利用無監督模式通過降低統計學習的期望誤差來對未標記樣本進行優化選擇,能夠有效減少標注數據的工作量。此外,半監督采樣也是一種新的思路。例如在主動學習的基礎上加入自學習(Self-Training)、自步學習(Self-Paced Learning,SPL)過程,這些方式通過對噪聲樣本增大學習難度,由易到難地控制選擇過程,讓樣本選擇更為精準。

(2)分類器集成。在數據增強中,訓練多個弱分類器來獲得一個強分類器的學習方式也是一種可行的思路。其中典型的為 Dai 等人提出集成式 TrAdaBoost 方法,它擴展了 AdaBoost 方法,在每次迭代的過程中,通過提高目標分類樣本的采樣權重、降低誤分類實例樣本的權重來提高弱分類器的學習能力。TrAdaBoost 利用少量的標簽數據來構建對源域標簽數據的樣本增強,最后通過整合基準弱分類器為一個強分類器來進行訓練,實現了少樣本數據的學習。之后的研究針對 TrAdaBoost 進行了相應的改進也取得了不錯的效果。例如,王紅斌等人在分類器集成中增加遷移能力參數,讓模型充分表征語義信息,在 NER 中提高精度也能顯著減少標注成本。

基于模型遷移的NER方法

基于模型遷移的基本框架如圖 3 所示,其核心思想是利用分布式詞表示構建詞共享語義空間,然后再遷移神經網絡的參數至目標領域,這是一種固定現有模型特征再進行微調(Fine-Tuning) 的方法,在研究中共享詞嵌入和模型參數的遷移對 NER 性能產生較大影響。

21ac572a-4691-11eb-8b86-12bb97331649.png

圖3模型遷移基本結構

(1)共享詞嵌入。在 NLP 中,前期工作通常會借助語言預訓練模型學習文本的詞義信息,這種方式構建了公共的詞嵌入表示空間,詞嵌入在 NER 中通常作為輸入。詞向量是共享詞嵌入的初步形式,此后,ELMo模型利用上下文信息的方式能解決傳統詞向量不擅長的一詞多義問題,還能在一定程度上對詞義進行預測逐漸受到人們關注。而 2018 年谷歌提出的 BERT預訓練模型更是充分利用了詞義和語義特性,BERT 是以雙向 Transformer為編碼器棧的語言模型,它能強有力地捕捉潛在語義和句子關系,基于 BERT 的 NER 在多個任務上也取得 state-of-the-art,其基本網絡結構如圖4所示。

21f45c82-4691-11eb-8b86-12bb97331649.png

圖4模型遷移的基礎方法-BERT-BiLSTM-CRF

其中 BERT 作為語義表示輸入,BiLSTM抽取特征,CRF 獲取概率最大標簽。與傳統的NER 模型相比,該模型最關鍵的是 BERT 語言模型的引入,BERT 通過無監督建模的方式學習海量互聯網語義信息,能充分表征實體的語義信息。在人民日報(1998年)語料中進行實驗,實驗結果(如表 1)表明,基于 BERT 的預訓練遷移學習模型能有效提高分類的準確率。

表1BERT-BiLSTM-CRF與其他方法的比較

22439b6c-4691-11eb-8b86-12bb97331649.png

(2)共享參數。共享詞嵌入側重于詞義的表示,而共享參數則側重于模型參數的遷移。例如,Jason 等人從神經網絡遷移機制以及遷移哪些層進行大量實驗,實驗結論顯示淺層網絡學習知識的通用特征,具有很好的泛化能力,當遷移到第 3 層時性能達到飽和,繼續遷移會導致“負遷移”的產生。Giorgi 等人基 于 LSTM 進行網絡權重的遷移,首先將源領域模型參數遷移至目標領域初始化,之后進行微調使適應任務需要。而 Yang 等人從跨領域、跨應用、跨語言遷移出發測試模型遷移的可行性, 在 一 些 benchmarks 上實現了 state-of-the-art。整體而言,在處理 NER 任務時良好的語義空間結合深度模型將起到不錯的效果,在遷移過程中模型層次的選擇和適應是難點。

基于特征變換的NER方法

在面向少量標注數據 NER 任務時,我們希望遷移領域知識以實現數據的共享和模型的共建,在上文中我們從模型遷移的角度出發,它們在解決領域相近的任務時表現良好,但當領域之間存在較大差異時,模型無法捕獲豐富、復雜的跨域信息。因此,在跨領域任務中,一種新的思路是在特征變換上改進,從而解決領域數據適配性差的問題。基于特征變換的方法是通過特征互相轉移或者將源域和目標域的數據特征映射到統一特征空間,來減少領域之間差異的學習過程,下面主要從特征選擇和特征映射的角度進行探討。

(1)特征選擇。即通過一定的度量方法選取相似特征并轉換,在源域和目標域之間構建有效的橋梁的策略。例如 Daume 等人通過特征空間預處理實現目標域和源域特征組合,在只有兩個域的任務中,擴展特征空間 R^F 至 R^3F,對應于域問題,擴展特征空間至 R^(K+1)F。然而當 Yi 與 YJ 標簽空間差異較大時,這種線性組合效果可能不理想,Kim 等人從不同的角度出發,進行標簽特征的變換,第一種是將細粒度標簽泛化為粗粒度標簽。例如源域標簽中 泛化為

(2)特征映射。即為了減少跨領域數據的偏置,在不同領域之間構建資源共享的特征空間,并將各領域的初始特征映射到該共享空間上。利用預測的源標簽嵌入至目標領域是一種常見策略。例如,Qu 等人從領域和標簽差異出發,首先訓練大規模源域數據,再度量源域和目標域實體類型相關性,最后通過模型遷移的方式微調。其基本步驟為:

1、通過 CRF學習大規模數據的知識;

2、使用雙層神經網絡學習源域與目標域的命名實體的相關性;

3、利用 CRF 訓練目標域的命名實體。

實驗結果顯示相較于 Baseline 方法 Deep-CRF,TransInit 方法能提高 160% 的性能。

標簽嵌入的方式在領域之間有較多共享標簽特征時遷移效果不錯,但是這種假設在現實世界中并不普遍。一種新的思路是在編解碼中進行嵌入適配(如圖 5),這種方式利用來自預訓練源模型的參數初始化 Bi-LSTM-CRF 基礎模型,并嵌入詞語、句子和輸入級適配。具體而言,在詞級適配中,嵌入核心領域詞組以解決輸入特征空間的領域漂移現象。在句子級適配中,根據來自目標域的標記數據,映射學習過程中捕獲的上下文信息。在輸出級適配中將來自 LSTM 層輸出的隱藏狀態作為其輸入,為重構的 CRF 層生成一系列新的隱藏狀態,進而減少了知識遷移中的損失。

2288b800-4691-11eb-8b86-12bb97331649.png

圖5特征變換方法TransInit實驗結果

基于知識鏈接的NER方法

基于知識鏈接的 NER,即使用本體、知識庫等結構化資源來啟發式地標記數據,將數據的結構關系作為共享對象,從而幫助解決目標 NER 任務,其本質上是一種基于遠程監督的學習方式,利用外部知識庫和本體庫來補充標注實體。例如 Lee 等人的框架(如圖 6),在 Distant supervision 模塊,將文本序列與 NE詞典中的條目進行匹配,自動為帶有 NE 類別的大量原始語料添加標簽,然后利用 bagging和主動學習完善弱標簽語料,從而實現語料的精煉。一般而言,利用知識庫和本體庫中的鏈接信息和詞典能實現較大規模的信息抽取任務,這種方法有利于快速實現任務需求。

22c42214-4691-11eb-8b86-12bb97331649.png

圖6知識鏈接與數據增強結合模型

(1)基于知識庫。這種方式通常借用外部的知識庫來處理 NER、關系抽取、屬性抽取等任務,在現實世界中如 Dbpedia、YAGO、百度百科等知識庫存在海量結構化信息,利用這些知識庫的結構化信息框、日志信息可以抽取出海量知識。例如,Richman 等人利用維基百科知識設計了一種 NER 的系統,這種方法利用維基百科類別鏈接將短語與類別集相關聯,然后確定短語的類型。類似地,Pan 等人利用一系列知識庫挖掘方法為 200 多種語言開發了一種跨語言的名稱標簽和鏈接結構。在實踐中,較為普遍的是聯合抽取實體和實體關系。例如Ren 等的做法,該方法重點解決領域上下文

無關和遠程監督中的噪聲問題,其基本步驟為:

1、利用 POS 對文本語料進行切割以獲得提及的實體;

2、生成實體關系對;

3、捕獲實體與實體關系的淺層語法及語義特征;

4、訓練模型并抽取正確的實體及關系。

在 NYT 等語料上進行實驗(如表 2),基于知識庫的方法相較于基線方法有顯著提高。

表2不同語料下實體的F1值

22ff9e3e-4691-11eb-8b86-12bb97331649.png

(2)基于本體系統。該方式通過一定的規則,將本體庫中的概念映射為實體。例如史樹敏等人通過構建的 MPO 本體,首先利用CRF 獲得高召回率的實體,再融合規則過濾噪聲,最終獲得較為精確的匹配模式。相似地,Lima 等人通過開發出 OntoLPER 本體系統,并利用較高的表達關系假設空間來表示與實體—實體關系結構,在這個過程中利用歸納式邏輯編程產生抽取規則,這些抽取規則從基

于圖表示的句子模型中抽取特定的實體和實體關系實例。同樣地,李貫峰等人首先從 Web網頁提取知識構建農業領域本體,之后將本體解析的結果應用在 NER 任務中,使得 NER 的結果更為準確。這些方法利用本體中的語義結構和解析器完成實體的標準化,在面向少量標注的 NER 中也能發揮出重要作用。

四種方法比較

上述所介紹的 4 種面向少量標注的 NER 方法各有特點,本文從領域泛化能力、模型訓練速度、對標注數據的需求和各方法的優缺點進行了細致地比較,整理分析的內容如表 3 所示。

2423db72-4691-11eb-8b86-12bb97331649.png

面向少量標注數據 NER,最直接的方法是數據增強,通過優先挑選高質量樣本參與訓練,這種方法在窄域中能實現較高的準確率。但是針對不同領域所需的策略也不同,領域的泛化能力一般。模型遷移從海量無結構化文本中獲取知識,這種方式對目標領域的數據需求較少,只需“微調”模型避免了重新訓練的巨大開銷,但是它依賴領域的強相關性,當領域差異性太大時,容易產生域適應問題。

相較于模型遷移,特征變換更加注重細粒度知識表示,這種方法利用特征重組和映射,豐富特征表示,減少知識遷移中的損失,在一定程度上能實現“零樣本”學習,但是這種方法往往難以求出優化解,過適配現象也會造成消極影響。知識鏈接能利用任何結構化信息,通過知識庫、本體庫中的語義關系來輔助抽取目標實體,但是這種方法易產生噪聲,實體的映射匹配依賴強假設條件,所需的知識庫通常難以滿足領域實體的抽取。

方法評測比較

如表4所示四類面向少量標注數據的典型方法與評測信息如下:

24b6c9f0-4691-11eb-8b86-12bb97331649.png

結語

當有大量標注數據可供模型訓練時,NER任務往往能夠得到很好的結果。但是在一些專業領域比如生物醫藥領域,標注數據往往非常稀缺,又由于其領域的專業性,需要依賴領域專家進行數據標注,這將大大增加數據的標注成本。而如果只用少量的標注數據就能得到同等效果甚至更好的效果,這將有利于降低數據標注成本。

參考資料

[1]石教祥,朱禮軍,望俊成,王政,魏超.面向少量標注數據的命名實體識別研究[J].情報工程,2020,6(04):37-50.

責任編輯:xj

原文標題:綜述 | 少量標注數據下的命名實體識別研究

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7048

    瀏覽量

    89073
  • 深度學習
    +關注

    關注

    73

    文章

    5503

    瀏覽量

    121198
  • nlp
    nlp
    +關注

    關注

    1

    文章

    488

    瀏覽量

    22041

原文標題:綜述 | 少量標注數據下的命名實體識別研究

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    標貝數據標注案例分享:車載語音系統數據標注

    車載語音識別系統是指利用機器學習算法實現的一自然語言處理技術,載語音識別系統通過辨別聲音的語調、語速和音量,將所聽到的語音轉化成可讀取的語
    的頭像 發表于 12-24 14:24 ?125次閱讀
    標貝<b class='flag-5'>數據</b><b class='flag-5'>標注</b>案例分享:車載語音系統<b class='flag-5'>數據</b><b class='flag-5'>標注</b>

    ASR與傳統語音識別的區別

    識別技術。 構建更深更復雜的神經網絡模型,利用大量數據進行訓練。 提高了語音識別的準確率和穩定性。 傳統語音
    的頭像 發表于 11-18 15:22 ?488次閱讀

    AI大模型與深度學習的關系

    人類的學習過程,實現對復雜數據學習識別。AI大模型則是指模型的參數數量巨大,需要龐大的計算資源來進行訓練和推理。
    的頭像 發表于 10-23 15:25 ?774次閱讀

    深度識別算法包括哪些內容

    深度識別算法是深度學習領域的一個重要組成部分,它利用深度神經網絡模型對輸入
    的頭像 發表于 09-10 15:28 ?390次閱讀

    pwm脈寬調制的四種方法有哪些

    于電機控制、LED調光、音頻處理等領域。以下是四種常見的PWM脈寬調制方法: 固定頻率PWM(Fixed-Frequency PWM) 固定頻率PWM是一最基本的PWM調制方法。在這
    的頭像 發表于 08-08 15:10 ?1367次閱讀

    負反饋的四種類型及判斷方法

    類型及其判斷方法。 一、負反饋的四種類型 比例負反饋 比例負反饋是指系統輸出與輸入之間的反饋關系是線性的,即輸出的變化與輸入的變化成正比。在比例負反饋中,當系統輸出增加時,輸入會相應減少,反之亦然。這種反饋機制有
    的頭像 發表于 08-02 11:01 ?2468次閱讀

    基于Python的深度學習人臉識別方法

    基于Python的深度學習人臉識別方法是一個涉及多個技術領域的復雜話題,包括計算機視覺、深度學習、以及圖像處理等。在這里,我將概述一個基本的
    的頭像 發表于 07-14 11:52 ?1274次閱讀

    深度學習中的時間序列分類方法

    的發展,基于深度學習的TSC方法逐漸展現出其強大的自動特征提取和分類能力。本文將從多個角度對深度學習在時間序列分類中的應用
    的頭像 發表于 07-09 15:54 ?952次閱讀

    深度學習中的無監督學習方法綜述

    深度學習作為機器學習領域的一個重要分支,近年來在多個領域取得了顯著的成果,特別是在圖像識別、語音識別、自然語言處理等領域。然而,
    的頭像 發表于 07-09 10:50 ?760次閱讀

    車載語音識別系統語音數據采集標注案例

    車載語音識別系統是指利用機器學習算法實現的一自然語言處理技術,載語音識別系統通過辨別聲音的語調、語速和音量,將所聽到的語音轉化成可讀取的語
    的頭像 發表于 06-19 15:52 ?364次閱讀
    車載語音<b class='flag-5'>識別</b>系統語音<b class='flag-5'>數據</b>采集<b class='flag-5'>標注</b>案例

    車載語音識別系統語音數據采集標注案例

    車載語音識別系統是指利用機器學習算法實現的一自然語言處理技術,載語音識別系統通過辨別聲音的語調、語速和音量,將所聽到的語音轉化成可讀取的語
    的頭像 發表于 06-19 15:49 ?519次閱讀

    基于深度學習的鳥類聲音識別系統

    模型被用于對鳥類聲音數據進行高精度的分類。然而,現有的大多數鳥類聲音識別模型的泛化能力較差,并且采用復雜的算法來提取鳥類聲音特征。為了解決這些問題,本文構建了一個包含264鳥類的大
    發表于 05-30 20:30

    語音識別的技術歷程及工作原理

    語音識別的本質是一基于語音特征參數的模式識別,即通過學習,系統能夠把輸入的語音按一定模式進行分類,進而依據判定準則找出最佳匹配結果。
    的頭像 發表于 03-22 16:58 ?3236次閱讀
    語音<b class='flag-5'>識別的</b>技術歷程及工作原理

    在全志V853平臺上成功部署深度學習步態識別算法

    北理工通信課題組辛喆同學在本科畢業設計《基于嵌入式系統的步態識別的研究》中,成功將深度步態識別算法GaitSet移植到全志V853開發板上。本研究在CASIA-B數據集上
    發表于 03-04 10:15

    如何使用Python進行圖像識別的自動學習自動訓練?

    如何使用Python進行圖像識別的自動學習自動訓練? 使用Python進行圖像識別的自動學習和自
    的頭像 發表于 01-12 16:06 ?594次閱讀
    主站蜘蛛池模板: 国产精品无码无卡毛片不卡视| 97精品国偷拍自产在线| 亚洲午夜精品A片久久WWW解说| 超碰人人澡人人胔| 欧美国产日韩久久久| 在线视频 国产 日韩 欧美| 国产婷婷午夜精品无码A片| 色欲久久99精品久久久久久AV | 小便japanesewctv| 贵妃高h荡肉呻吟np杨玉环 | 亚洲福利视频导航| 国产区免费在线观看| 偷拍 拍自 欧美色区| 国产第一页浮力影院| 特级毛片全部免费播放免下载| 国产AV天堂亚洲AV麻豆| 少女亚洲free| 国产免费福利在线视频| 乡土女性网动态图解| 国产亚洲综合视频| 亚洲乱码中文字幕久久孕妇黑人| 红杏俱乐部| 中文国产在线观看| 男女AA片免费| 电影 qvod| 秀婷程仪公欲息肉婷在线观看| 好男人WWW免费高清视频在线| 亚洲伊人精品| 男人插曲女人下生免费大全| 超碰在线视频caoporn| 天美麻豆成人AV精品视频| 国产亚洲精品精品精品| 艳鉧动漫片1~6全集在线| 美国一级黄色| 穿白丝袜边走边尿白丝袜| 亚洲第一色网站| 美女穿丝袜被狂躁动态图| 爱很烂qvod| 亚洲精品无码一区二区三区四虎 | 综合网伊人| 日韩av国产av欧美天堂社区|