色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于中文數據的標簽詞構造過程

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2022-08-19 16:14 ? 次閱讀

一、簡介

在UIE出來以前,小樣本NER主要針對的是英文數據集,目前主流的小樣本NER方法大多是基于prompt,在英文上效果好的方法,在中文上不一定適用,其主要原因可能是:

中文長實體相對英文較多,英文是按word進行切割,很多實體就是一個詞;邊界相對來說更清晰;

生成方法對于長實體來說更加困難。但是隨著UIE的出現,中文小樣本NER 的效果得到了突破。

二、主流小樣本NER方法

2.1、EntLM

EntLM該方法核心思想:拋棄模板,把NER作為語言模型任務,實體的位置預測為label word,非實體位置預測為原來的詞,該方法速度較快。模型結果圖如圖2-1所示:

a5f6bcb4-1f7f-11ed-ba43-dac502259ad0.png圖2-1 EntLM模型

論文重點在于如何構造label word:在中文數據上本實驗做法與論文稍有區別,但整體沿用論文思想:下面介紹了基于中文數據的標簽詞構造過程;

采用領域數據構造實體詞典;

基于實體詞典和已有的實體識別模型對中文數據(100 000)進行遠程監督,構造偽標簽數據;

采用預訓練的語言模型對計算LM的輸出,取實體部分概率較高的top3個詞;

根據偽標簽數據和LM的輸出結果,計算詞頻;由于可能出現在很多類中都出現的高頻標簽詞,因此需要去除沖突,該做法沿用論文思想;

使用均值向量作為類別的原型,選擇top6高頻詞的進行求平均得到均值向量;

2.2、TemplateNER

TemplateNER的核心思想就是采用生成模型的方法來解決NER問題,訓練階段通過構造模板,讓模型學習哪些span是實體,哪些span不是實體,模板集合為:$T=[T+,T+ ...T+,T-]$,T+為xx is aentity,T-為 xx is not aentity,訓練時采用目標實體作為正樣本,負樣本采用隨機非實體進行構造,負樣本的個數是正樣本的1.5倍。推理階段,原始論文中是 n-gram 的數量限制在 1 到 8 之間,作為實體候選,但是中文的實體往往過長,所以實驗的時候是將,n-gram的長度限制在15以內,推理階段就是對每個模板進行打分,選擇得分最大的作為最終實體。

這篇論文在應用中的需要注意的主要有二個方面:

模板有差異,對結果影響很大,模板語言越復雜,準確率越低;

隨著實體類型的增加,會導致候選實體量特別多,訓練,推理時間更,尤其在句子較長的時候,可能存在效率問題,在中文數據中,某些實體可能涉及到15個字符(公司名),導致每個句子的候選span增加,線上使用困難,一條樣本推理時間大概42s

a61096a2-1f7f-11ed-ba43-dac502259ad0.png圖2-2 TemplateNER抽取模型

2.3、LightNER

LightNER的核心思想采用生成模型進行實體識別,預訓練模型采用 BART通過 prompt 指導注意力層來重新調整注意力并適應預先訓練的權重, 輸入一個句子,輸出是:實體的序列,每個實體包括:實體 span 在輸入句子中的 start index,end index ,以及實體類型 ,該方法的思想具有一定的通用性,可以用于其他信息抽取任務。

a623d546-1f7f-11ed-ba43-dac502259ad0.png圖2-3 LightNER抽取模型

2.4、UIE

UIE(通用信息抽取框架)真正的實現其實是存在兩個版本,最初是中科院聯合百度發的ACL2022的一篇論文,Unified Structure Generation for Universal Information Extraction,這個版本采用的是T5模型來進行抽取,采用的是生成模型,后來百度推出的UIE信息抽取框架,采用的是span抽取方式,直接抽取實體的開始位置和結束位置,其方法和原始論文并不相同,但是大方向相同。

輸入形同:UIE采用的是前綴prompt的形式,采用的是Schema+Text的形式作為輸入,文本是NER任務,所以Schema為實體類別,比如:人名、地名等。

采用的訓練形式相同,都是采用預訓練加微調的形式

不同點:

百度UIE是把NER作為抽取任務,分別預測實體開始和結束的位置,要針對schema進行多次解碼,比如人名進行一次抽取,地名要進行一次抽取,以次類推,也就是一條文本要進行n次,n為schema的個數,原始UIE是生成任務,一次可以生成多個schema對應的結果

百度UIE是在ernie基礎上進行預訓練的,原始的UIE是基于T5模型。

a637e5ea-1f7f-11ed-ba43-dac502259ad0.png圖2-4 UIE抽取模型

三、實驗結果

該部分主要采用主流小樣本NER模型在中文數據上的實驗效果。

通用數據1測試效果:

Method 5-shot 10-shot 20-shot 50-shot
BERT-CRF - 0.56 0.66 0.74
LightNER 0.21 0.42 0.57 0.73
TemplateNER 0.24 0.44 0.51 0.61
EntLM 0.46 0.54 0.56 -

從實驗結果來看,其小樣本NER模型在中文上的效果都不是特別理想,沒有達到Bert-CRF的效果,一開始懷疑結果過擬了,重新換了測試集,發現BERT-CRF效果依舊變化不大,就是比其他的小樣本學習方法好。

3.1、UIE實驗結果

UIE部分做的實驗相對較多,首先是消融實驗,明確UIE通用信息抽取的能力是因為預訓練模型的原因,還是因為模型本身的建模方式讓其效果好,其中,BERTUIE,采用BERT作為預訓練語言模型,pytorch實現,抽取方式采用UIE的方式,抽取實體的開始和結束位置。

領域數據1測試結果(實體類型7類):

預訓練模型 框架 F1 Epoch
Ernie3.0 Paddle 0.71 200
Uie-base paddle 0.72 100
BERT pytorch 0.705 30

從本部分實驗可以確定的是,預訓練模型其實就是一個錦上添花的作用, UIE的本身建模方式更重要也更有效。

領域數據1測試結果(實體類型7類):

5-shot 10-shot 20-shot 50-shot
BERT-CRF 0.697 0.75 0.82 0.85
百度UIE 0.76 0.81 0.84 0.87
BERTUIE 0.73 0.79 0.82 0.87
T5(放寬后評價) 0.71 0.75 0.79 0.81

領域數據3測試效果(實體類型6類),20-shot實驗結果:

BERT-CRF LightNER EntLM 百度UIE BERTUIE
F1 0.69 0.57 0.58 0.72 0.69

UIE在小樣本下的效果相較于BERT-CRF之類的抽取模型要好,但是UIE的速度較于BERT-CRF慢很多,大家可以根據需求決定用哪個模型。如果想進一步提高效果,可以針對領域數據做預訓練,本人也做了預訓練,效果確實有提高。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 百度
    +關注

    關注

    9

    文章

    2268

    瀏覽量

    90361
  • 語言模型
    +關注

    關注

    0

    文章

    520

    瀏覽量

    10268
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24689

原文標題:中文小樣本NER模型方法總結和實戰

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    [討論]提高網站關鍵排名的28個SEO小技巧

    提高網站關鍵排名的28個SEO小技巧關鍵位置、密度、處理 URL中出現關鍵(英文) 網頁標題中出現關鍵(1-3個) 關鍵
    發表于 12-01 17:08

    為什么要添加標簽呢?添加標簽對你有什么好處

    為什么要添加標簽呢?1、什么是標簽標簽是——描述主題內容的關鍵。2、標簽有什么作用?優質的標簽
    發表于 09-29 17:11

    標簽不能輸入中文,應該怎么解決?

    標簽中輸入中文時候突然跳出對話框,如下圖所示然后發現所有控件的標簽都不能輸入中文,只能是創建后默認的中文名字,修改的話只能輸入非
    發表于 12-26 13:38

    關鍵優化有哪些實用的方法

    的排名。還有一些實用的方法就是網站的一個關鍵布局,這里應該設計seo算法中的頁面相關匹配程度,這樣來提升網站頁面的整體相關性,其次是重要的位置部署好我們要做的關鍵,比如重要的一些標簽來添加我們做
    發表于 08-11 01:19

    中文分詞研究難點-詞語切分和語言規范

    ,我們在進行數據挖掘、精準推薦和自然語言處理工作中也會經常用到中文分詞技術。是最小的能夠獨立活動的有意義的語言成分,英文單詞之間是以空格作為自然分界符的,而漢語是以字為基本的書寫單位,詞語之間沒有
    發表于 09-04 17:39

    開發語音產品時設計喚醒和命令的技巧

    在實際開發語音產品過程中,要達到好的語音識別效果,除了語音算法要給力外,設計出好的喚醒和命令也能起到事倍功半的效果。所以下面介紹一下如何設計中文的英文的喚醒
    發表于 10-25 15:09

    量子Fourier變換構造FQT電路

    摘要:利用量子Fourier變換,給出構造3個量子位的量子Fourier變換電路的方法,利用該方法可構造出n個量子住的QFT電路。關鍵:量子位;量子Fourier變換;FQT電路
    發表于 05-31 10:58 ?12次下載

    鋁電解的構造和生產過程

    鋁電解的構造和生產過程 鋁電解基本由正極箔+氧化膜(不能獨立于正極箔存在)+電解紙(浸有電解液)+負極箔+外殼+膠塞+引線+
    發表于 10-07 15:35 ?1663次閱讀

    計算機程序的構造和解釋中文

    電子發燒友網站提供《計算機程序的構造和解釋中文版.txt》資料免費下載
    發表于 01-04 17:24 ?0次下載

    基于強度熵解決中文關鍵識別

    文本的關鍵識別是文本挖掘中的基本問題之一。在研究現有基于復雜網絡的關鍵識別方法的基礎上,從整個復雜網絡拓撲結構特征的信息缺失角度來考察各節點的重要程度。提出強度熵測度來量化評估各節點重要程度,用于解決中文關鍵
    發表于 11-24 09:54 ?7次下載
    基于強度熵解決<b class='flag-5'>中文</b>關鍵<b class='flag-5'>詞</b>識別

    基于標簽優先的抽取排序方法

    針對微博關鍵抽取準確率不高的問題,提出一種基于標簽優先的抽取排序方法。該方法利用微博本身具有的社交特征標簽,從微博內容集中抽取關鍵。該方法首先根據微博自身建立初始
    發表于 12-25 15:04 ?0次下載
    基于<b class='flag-5'>標簽</b>優先的抽取排序方法

    Python數據挖掘:WordCloud云配置過程及詞頻分析

    下面這部分代碼參考老曹的,希望對你有所幫助。 老曹說:什么是云呢?云又叫文字云,是對文本數據中出現頻率較高的“關鍵”在視覺上的突出呈現,形成關鍵
    的頭像 發表于 09-14 14:55 ?3948次閱讀

    Chrome新增一項功能 部分標簽頁可顯示該頁面關鍵

    作為全球最受歡迎的互聯網瀏覽器,Chrome的功能仍在不斷豐富,從而為用戶提供更無縫的使用體驗。近日谷歌在Chrome瀏覽器中新增了一項新功能,在部分標簽頁預覽中能夠顯示該頁面的關鍵。例如在搜索“cnBeta”的標簽頁切換時候
    的頭像 發表于 04-15 08:38 ?3283次閱讀

    面向短文本的中文錯誤檢測與修復

    在線學習社區中的中文錯誤會給中文文本語義的理解帶來困難,從而影響基于在線學習社區文本的學習分析效果。為此,提出一種針對在線學習社區短文本的真錯誤檢測與修復方法。構建混淆
    發表于 06-08 14:47 ?6次下載

    面向短文本的中文錯誤檢測與修復

    在線學習社區中的中文錯誤會給中文文本語義的理解帶來困難,從而影響基于在線學習社區文本的學習分析效果。為此,提出一種針對在線學習社區短文本的真錯誤檢測與修復方法。構建混淆
    發表于 06-08 14:47 ?2次下載
    主站蜘蛛池模板: 学生精品国产在线视频| 久草网国产自偷拍| 麻豆狠色伊人亚洲综合网站| 在线观看a视频| 欧美 亚洲 日韩 中文2019| 吃奶摸下的激烈免费视频| 久久久性色精品国产免费观看 | 97在线精品视频免费| 快播金瓶梅| 不卡无线在一二三区| 小草视频免费观看在线| 玖玖爱精品视频| 被滋润的艳妇疯狂呻吟白洁老七| 无码一区二区三区| 国产国拍精品AV在线观看 | 日本无码人妻精品一区二区视频| gogogo视频在线观看| 玩高中女同桌肉色短丝袜脚文 | 午夜免费无码福利视频麻豆| 国产爱豆剧果冻传媒在线| 亚洲免费视频在线| 欧美美女一区二区三区| 国产在线精品亚洲一品区 | 国产69精品久久久久妇女| 三级电影免费看| 久久有码中文字幕| 国产69精品久久久久APP下载| 在线免费中文字幕| 午夜噜噜噜私人影院在线播放| 美女一级毛片免费不卡视频| 国产精品久久久精品a级小说| 97豆奶视频国产| 亚洲免费黄色| 体育生爆操| 欧美日韩一级黄色片| 久久99re2在线视频精品| 东莞桑拿美女| 99久久国产极品蜜臀AV酒店| 妖精视频免费看| 香港成人社区| 日本综艺大尺度无删减版在线|