色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何簡單粗暴的提升NER效果?

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:船長尼莫 ? 2022-12-12 14:03 ? 次閱讀

在NLP的基礎任務中,NER無疑很難做,但是做好了,會提升下游的很多效果。那么如何提升NER的效果呢?數據增強無疑是一種簡單粗暴的方式。船長這次帶著大家簡單過一下,本文無公式!

ca888e24-79d2-11ed-8abf-dac502259ad0.png

首先我們的著重考慮對象是有詞庫的,在工業界詞庫是必備的,沒有標注詞庫,這個NER的任務可能會做的很不好。我們從以下的三種數據增強trick來逐步介紹。

實體替換

如果我們有一個訓練數據集,比方說一個case:“海底撈的主要食物是火鍋”,在NER的任務中,標注成為“{海底撈^飯店}的主要食物是{火鍋^食物}”,其中海底撈的實體為飯店,而火鍋的為食物。

那么為了擴大我們的訓練數據集,我們會隨機的對同類型的實體進行替換,例如“海底撈”替換成為“肯德基”,也即“肯德基的主要食物是火鍋”。有意思的地方來了,很明顯我們都知道肯德基是沒有火鍋的,那么這樣造的case會有問題嗎?答案是從常識的角度是有問題的,所以我們盡量要挑出和火鍋相關的實體,利用知識圖譜的方式,搭建出更合理的訓練集。

邊界噪聲

比方說文本“這家飯店的爆品是火鍋啦”,結果模型把火鍋啦整體識別成為食物實體,那就很不對勁了。在這種情況下,屬于NER的一個悠久遺留問題,邊界預測問題,NER很難識別到實體的真正邊界,解決這種的方法也是利用人工造的一些噪聲。

比較簡單的方式,是可以從字表里面隨機的抽樣字,再隨機的加到邊界處。變成,讓模型自主的去學習到實體的邊界,這種方式簡單但是效果一般,為什么這么講?因為這種隨機的采樣對于模型來說,很好學習,我們應該嘗試去構造再難一點的數據。

這家飯店的爆品是火鍋嘿

比較可行的方式,是在模版數據中利用N-Gram挖掘到噪聲詞語/字,再利用頻率的高低構建出現的概率,以這種概率進行替換,舉例來說,飯店類的模版有很多是圍繞著詞語“食物”展開,那么這時候我們可以把“食物”插入到實體的邊界,成為:

這家飯店的爆品是火鍋食物

對于模型來講,再難一點的方式,可以從訓練數據中,挖掘到和火鍋相關的噪聲,再把它插入進去。例如,根據詞語火鍋進行展開,利用5-Gram搜索到附近的詞語,找到一些和火鍋相關,但是不是強相關的詞語,比方說辣椒,那這時候就會形成:

這家飯店的爆品是火鍋辣椒

不得不說,這種文本對于機器來講已經很難識別了,但是這種方式的時間開銷很大,需要提前離線找到和每個實體相關的詞語,再進行噪聲的插入。

模版構造樣本

什么意思呢?我們先利用實體,在線上的日志中挖掘到很多模版,再利用這批模版隨機的進行填充,形成最后的訓練數據,這批訓練的數據量會很大,但是樣本的質量是一般的。例如我們可以對模版“這家飯店的爆品是{食物}”進行隨機的食物實體填充,成為:

這家飯店的爆品是榴蓮

但是當一個模版有多個實體槽位的時候,隨機的進行實體填充往往有很大的問題,比方說模版“這家{飯店}的爆品是{食物}”,如果我們填充成為“這家海底撈的爆品是榴蓮”,雖然對于NER的任務來講沒有太大的問題,但是從常識角度來說,未免也太差了些。

這種情況下,我們需要批判性的思考,這種數據是否有利于提升我線上的效果,如果線上的要求并不包含常識,那這就是個好模型,反之亦然。我們也可以根據知識圖譜來進行填充,增加常識信息

cab11268-79d2-11ed-8abf-dac502259ad0.png

這次船長主要帶大家過了一些簡單高效的NER數據增強Trick,有什么問題就寫下你的疑惑,我們討論一下~

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據集
    +關注

    關注

    4

    文章

    1209

    瀏覽量

    24788
  • NER
    NER
    +關注

    關注

    0

    文章

    7

    瀏覽量

    6218
  • nlp
    nlp
    +關注

    關注

    1

    文章

    489

    瀏覽量

    22066

原文標題:如何簡單粗暴的提升NER效果?一文告訴你如何用詞庫來做NER數據增強

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    電源濾波器的升級換代對性能提升有多大空間?

    電源濾波器升級換代提升濾波效果、過載能力及智能化,適應復雜電源環境,保障電子設備穩定運行,助力電子科技行業發展,未來將繼續優化材料、結構,注重綠色設計。
    的頭像 發表于 01-15 10:57 ?55次閱讀
    電源濾波器的升級換代對性能<b class='flag-5'>提升</b>有多大空間?

    金屬探測器配件及其效果

    圈 :單線圈設計簡單,適用于淺層金屬探測,但對深層金屬的探測能力較弱。 雙線圈 :雙線圈設計可以提高探測器的靈敏度和深度,適用于更復雜的探測環境。 多線圈 :多線圈設計進一步提升了探測器的性能,但成本較高,適用于專業探測。
    的頭像 發表于 11-29 10:29 ?431次閱讀

    請問TLV320AIC33怎樣提升音效?

    我現在平臺是DM6437+TLV320AIC33,TLV320AIC33實現對音頻的A/D,D/A信號處理,現在聲音效果一般, 現在我想提升聲音的效果,請問大家可以從哪些方面提升?修
    發表于 11-08 06:30

    如何提升AIC3254 AEC的錄音效果

    最近在 3254 EVM板上調試 AEC功能,平臺搭建如下: 1.J7LINE OUT接音箱; 2.J4EXT MIC IN 外接了個MIC 現在情況是:回音基本消除,但是發現近端的錄音效果不理想,不知如何改進?下圖是我的 mini-dsp 的例程、配置,附件中是該配置的一段錄音
    發表于 11-07 06:02

    提升機電機軸承溫度及振動監測裝置

    提升機是一種通過改變勢能進行運輸的大型設備,被廣泛用于礦山,面粉廠,港口等。像這種大型設備安裝后就很難再移動,因此勢必要對它做出一些保護措施的。 KZB-PC電動機主要軸承溫度及振動監測裝置
    發表于 10-31 14:53

    調音臺怎么接混響效果

    顯著提升音頻的質量和效果。 一、調音臺和混響效果器的基本概念 1. 調音臺 調音臺是一種音頻設備,用于混合多個音頻信號。它通常包含多個輸入通道,每個通道可以獨立控制音量、均衡、聲像等參數。調音臺的輸出可以連接到擴音器、錄音設備或
    的頭像 發表于 10-10 09:22 ?945次閱讀

    DRV2625觸覺效果組合設計

    電子發燒友網站提供《DRV2625觸覺效果組合設計.pdf》資料免費下載
    發表于 09-27 09:32 ?0次下載
    DRV2625觸覺<b class='flag-5'>效果</b>組合設計

    商顯領域的國產一體機主板,提升顯示效果的解決方案

    城市交通管理中,智能交通指示牌用于實時顯示交通信息和警示信息;國產一體機主板憑借其卓越的性能和靈活的應用,正成為提升顯示效果的重要解決方案。
    的頭像 發表于 09-04 10:08 ?378次閱讀

    OPA548如何提升負載電流?

    電流提高使得負載功率提升? 我有試過將輸出接上達靈頓(如下圖),但看起來并沒有效果,想請問各位先進是否有建議或是其他想法可供參考 ? 謝謝各位指教。
    發表于 08-16 06:48

    效果器對所有的專業功放都通用嗎

    效果器(Effects Processor)是一種音頻處理設備,用于對音頻信號進行各種處理,以達到改變聲音特性、增加聲音效果或改善音質的目的。在音頻領域,效果器廣泛應用于音樂制作、現場演出、廣播
    的頭像 發表于 07-29 09:53 ?984次閱讀

    谷景揭秘電感越大濾波效果越好嗎

    電感作為電子電路中一種重要的電子元件,它在電路中一個非常重要的作用就是濾波!很多人認為電感的感值越大,它的濾波效果就越好!其實,這種觀點并不是完全準確的。簡單來說,電感的濾波效果與感值、電路設計
    的頭像 發表于 06-11 15:47 ?528次閱讀

    如何修改Kernel Affinity提升openplc性能?

    如何修改Kernel Affinity提升openplc性能
    發表于 05-22 06:36

    2G信號放大器:提升通信質量的利器?|深圳市特信電子有限公司.

    的選購指南在選擇2G信號放大器時,需要考慮到覆蓋范圍、信號增益、品牌信譽以及售后服務等因素。確保選擇適合自己需求的放大器,可以在一定程度上提升通信效果;三、2G信號放大器的安裝步驟安裝2G信號放大器需要
    發表于 03-22 09:06

    EMC測試整改:提升產品合規性和市場競爭力?|深圳比創達電子

    EMC測試整改:提升產品合規性和市場競爭力?|深圳比創達電子在當前的產品研發和制造領域,電磁兼容(EMC)測試是確保產品符合法規要求并能夠在各種電磁環境下正常工作的重要環節。然而,很多企業在進行
    發表于 03-07 09:50

    阿里云發動史上最大力度價格戰,平均降價超20%

    明確“ AI 驅動,公共云優先”戰略 3 個月之后,阿里云在今天發布了最新戰略,簡單粗暴——大降價、真降價。
    的頭像 發表于 03-01 10:18 ?667次閱讀
    主站蜘蛛池模板: 在线观看免费av网站| 免费黄色网址在线观看| 棉签和冰块怎么弄出牛奶视频 | 亚洲精品久久久久中文字幕二区| 高清mv视频免费观看| 色婷婷国产精品视频一区二区| 亚洲免费高清视频| 好吊妞在线成人免费| 亚洲 综合 欧美在线视频| av色天堂2018在线观看| 韩国甜性涩爱| 亚洲欧美一区二区三区蜜芽| 精品99久久久久成人网站| 日本高清在线一区二区三区| 本庄优花aⅴ全部在线影片| 青娱国产区在线| 国产精品18久久久久久白浆.| 偷拍亚洲色自拍| 果冻传媒独家原创在线观看 | 抽插H浊水H嫩B父皇| 五花大绑esebdsm国产| 河南老太XXXXXHD| 在线亚洲免费| 琪琪SEE色原网色原网站18| 国产成人啪精视频精东传媒网站| 亚洲精品国产国语| 久久久高清国产999尤物| 亚洲精品成人久久久影院| 精品无码久久久久久久久| 24小时日本在线观看片| 久久精品国产亚洲AV蜜臀| 亚洲第一免费播放区| 久久囯产精品777蜜桃传媒| 2020国产成人免费视频| 国产亚洲制服免视频| 一二三四电影完整版免费观看| 老阿姨儿子一二三区| YELLOW日本动漫免费动漫| 午夜精品久久久久久久爽牛战| 久久99精品国产自在自线| 97在线国内自拍视频|