色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

FLAT的一種改進方案

深度學習自然語言處理 ? 來源:小任學不廢 ? 作者:小任學不廢 ? 2022-08-19 11:55 ? 次閱讀

許久沒有更新,今天來水一篇之前在arXiv上看到的論文,這篇NFLAT是對FLAT的改進(其實也是對TENER的改進),FLAT在文本后面掛單詞的方式可能會導致文本長度過長,論文中講長度平均會增加40%,從而導致:

self-attention的時候計算量和顯存占用量增大,限制了FLAT對更大更復雜的詞表的使用;

有一些冗余計算,比如“word-word”和“word-character”級別的self attention是沒有必要做的,因為在FLAT中word部分在解碼的時候會被mask掉(如下圖),不參與后續計算,所以只需要"character-character"和“character-word”級別的self-attention。

4eb1877a-19eb-11ed-ba43-dac502259ad0.pngFLAT中word部分在解碼的時候會被MASK掉

其實講到這里,相信讀者們也看出來了,改進思路已經比較明顯了:既然只要"character-character"和“character-word”級別的self-attention,那么就拆開搞,「不要把word往句子后面拼了,而是character有一個序列(原始文本序列),word有一個序列(原始文本序列在外部詞表中匹配出來的單詞序列)」

先進行“character-word”的attention,獲得融合了word邊界和語義信息的character表征——論文中稱這部分叫「InterFormer」

再做"character-character"級別的self-attention,獲取最終character表征——「Transformer Encoder」,論文這部分用的TENER對Transformer Encoder的改動,所以其實這篇論文也是對TENER的改進方案,「是TENER+外部詞典的解決方案」

Linear Project + CRF

模型分為上面所說的三個模塊,接下來我們一個一個介紹。

模型

4ed113ba-19eb-11ed-ba43-dac502259ad0.pngNFLAT模型結構

1. InterFormer

其實就是Transformer Encoder的改進版,InterFormer包含多頭inter-attention和一個FFN,目的是構建non-flat-lattice,可以同時對character和word兩個不同長度的序列進行建模,讓他們交互,從而獲得融合了word邊界和語義信息的character表征。

對Transformer Encoder的改進主要是:

「attention中query/key/value不再同源」,也就不再是self-attention,「character序列作為query的輸入,word序列作為key和value的輸入」。這樣的話attention在character序列中每個字上的輸出就是word序列中與這個字相關的word表征(value)的加權求和的結果。

他們在word序列中加入了一個標記,這樣的話,如果character序列中的某個character與單詞序列沒啥關系的時候,總不至于強行加權求和,論文的分析部分表示這個還是有用的,但論文沒有做消融實驗,這里我就不列了,感興趣可以去看一下原文。

「參考了TransformerXL和FLAT中的相對位置編碼部分,同時做了一些改動」

下面直接列公式了:

輸入:character序列embedding ,word序列embedding。

獲取QKV表征:

計算Inter-Attention

4eec8d3e-19eb-11ed-ba43-dac502259ad0.png

是attention中常規操作,就是對序列中padding部分的score賦一個很小的值,讓softmax后結果為0的;

的計算方法參考了TransformerXL,只是相對距離的表征的計算方式不太一樣,是參考FLAT,但也做了一些改動,FLAT中計算了四種位置距離表征:head-head, head-tail, tail-head, tail-tail,但這里只有兩種位置距離:character head - word head ()和 character tail - word tail ()。

同樣這個Inter-attention也可以做成multi-head attention的方式:

4f0c8972-19eb-11ed-ba43-dac502259ad0.png

然后是FFN、殘差連接、PostNorm

4f233546-19eb-11ed-ba43-dac502259ad0.png

通過上面的這一系列操作,我們就獲得了“「融合了word邊界和語義信息的character表征」”。

2. Transformer Encoder

然后進行"character-character"級別的上下文編碼,用TENER中改造的Transformer Encoder,也就是兩部分改動:

Un-scaled Dot-Product Attention,TENER中發現不進行scale的attention比進行了scale的在NER上的效果要好;

使用了對方向和距離敏感的相對位置編碼,其實和上面Inter-attention中相對位置編碼差不多,就是就只有query位置-value位置。

4f32ae0e-19eb-11ed-ba43-dac502259ad0.png

所以NFLAT其實就是在TENER前面加了一個模塊。

3. 最后就是CRF層

實驗結果

數據:

4f43dcb0-19eb-11ed-ba43-dac502259ad0.png數據集

外部詞表:

外部詞表他們主要采用了:https://github.com/jiesutd/RichWordSegmentor

結果:

如下圖,可以看到,NFLAT在4個數據集上效果都還挺好的,達到了SOTA。

4f52a7fe-19eb-11ed-ba43-dac502259ad0.png實驗結果

效率分析

時間復雜度:

n是character序列長度,m是word序列的長度,一般n越長,m越長,所以看復雜度的話NFLAT還是降低了許多了,作者們還做了相關的實驗,每種長度挑選1000個句子,用batch_size=1計算跑完1k條句子的時間(3090的卡),發現句子長度大于400的時候,NFLAT與FLAT的速度才會有差距。

4f6ae2ec-19eb-11ed-ba43-dac502259ad0.png運行時間對比

FLAT:

NFLAT:

空間復雜度:

顯存占用還是有明顯差別的:

4f81568a-19eb-11ed-ba43-dac502259ad0.png顯存占用對比

FLAT:O((n+m)^{2})

NFLAT:

差不多,這篇論文就到這里吧。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 解碼
    +關注

    關注

    0

    文章

    181

    瀏覽量

    27405
  • 顯存
    +關注

    關注

    0

    文章

    110

    瀏覽量

    13675
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24737

原文標題:中文NER | 江南大學提出NFLAT:FLAT的一種改進方案

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一種改進的DSP固定點采樣算法

    一種改進的DSP固定點采樣算法
    發表于 08-20 23:34

    分享一種DTMF信號檢測器工程的應用方案

    基于改進的ADALINE神經網絡的DTMF檢測算法基于改進的ADALINE神經網絡的DTMF解碼仿真結果分享一種DTMF信號檢測器工程的應用方案
    發表于 06-03 07:03

    一種消息恢復型數字簽名方案改進

    研究一種消息恢復型數字簽名方案,該方案不需要hash函數和消息冗余就能抵抗偽造攻擊。討論已有的攻擊方法和一種能夠抵抗這些攻擊的改進
    發表于 04-23 10:08 ?14次下載

    一種改進的強代理簽名方案

    基于Lee 等人提出的修改的LKK 型方案,提出了一種改進的強代理簽名方案。新方案在授權階段采用CA 認證的密鑰生成協議,解決了原
    發表于 08-13 08:54 ?23次下載

    一種離線模式下CRL機制的改進方案

    本文分析了幾種主要的CRL 機制及OCSP 協議,并提出了一種離線模式下CRL 機制的改進方案——基于P2P 分布式CRL 列表的證書撤消系統,此系統利用CRL 發布點技術與重疊發布增量 CRL 機
    發表于 08-13 09:23 ?12次下載

    一種改進的TPM檢測方案

    在保持TPM高匿名度的前提下,針對可信計算(TC)的直接匿名驗證(DAA)協議中使用可變名字基時檢測克隆可信平臺模塊(TPM)存在的困難,提出了一種基于DAA證書頒發者的檢測方案,該方案不僅
    發表于 03-01 15:41 ?13次下載

    一種改進的各向異性高斯濾波算法

    一種改進的各向異性高斯濾波算法摘 要:為了抑制更好的抑制噪聲保留邊緣信息, 提出了一種各向異性高斯濾波的改進方法, 該方法先用中值濾波去除椒鹽噪聲, 再
    發表于 04-23 14:59 ?19次下載

    一種改進的AODV路由算法設計

    本內容提出了一種改進的AODV路由算法設計
    發表于 05-26 16:23 ?32次下載
    <b class='flag-5'>一種</b><b class='flag-5'>改進</b>的AODV路由算法設計

    Whirlpool的一種改進算法

    文中借鑒分組密碼AES-256的密鑰擴展思想,提出一種Whirlpool的消息擴展改進方案,同時增加分組迭代的輪數。改進方案在不降低原算法的
    發表于 11-30 17:18 ?13次下載
    Whirlpool的<b class='flag-5'>一種</b><b class='flag-5'>改進</b>算法

    一種改進的鄰近粒子搜索算法

    一種改進的鄰近粒子搜索算法
    發表于 01-07 20:32 ?0次下載

    基于一種改進PSO辨識算法的DOB設計_陳鵬亮

    基于一種改進PSO辨識算法的DOB設計_陳鵬亮
    發表于 01-21 12:16 ?1次下載

    一種改進的自由搜索算法_任誠

    一種改進的自由搜索算法_任誠
    發表于 03-14 17:47 ?3次下載

    一種改進的MIMOOFDM幀同步算法.pdf

    一種改進的MIMOOFDM幀同步算法.pdf
    發表于 04-19 11:15 ?0次下載

    一種改進的web威脅態勢力分析方法

    一種改進的web威脅態勢力分析方法
    發表于 06-08 15:22 ?9次下載

    一種基于自適應鄰域策略的改進算法

    一種基于自適應鄰域策略的改進算法
    發表于 06-27 15:27 ?10次下載
    主站蜘蛛池模板: 国产亚洲精品精华液| 欧美日韩一二区旡码高清在线 | 国产AV精品白浆一区二| 日日射日日操| 国产亚洲一区在线| 伊人亚洲AV久久无码精品| 暖暖视频在线高清播放| 成片免费观看视频大全| 午夜理论片YY4399影院| 久久午夜夜伦鲁鲁片无码免费| 99精品电影一区二区免费看| 色偷偷av男人的天堂| 精品国产免费观看久久久| 99re在这里只有精品| 污文乖不疼的| 蜜桃AV色欲A片精品一区| 羞羞一区二区三区四区片| 久久人妻少妇嫩草AV无码| 拔萝卜视频免费看高清| 亚洲 无码 在线 专区| 美女用手扒开粉嫩的屁股| 国产精品久久久久久AV免费不卡 | 午夜理论片YY4399影院| 久久综合色视频| 国产 亚洲 中文字幕 在线| 又色又爽又黄gif动态视频| 日韩在线看片中文字幕不卡| 狠狠色狠狠色综合日日32| NANANA在线观看高清影院| 亚洲精品久久7777777| 欧美日韩国产在线一区二区| 国产婷婷一区二区在线观看| 18禁三级黄| 亚洲第一区欧美日韩精品| 欧美 亚洲 日韩 在线综合| 花蝴蝶在线直播观看| 插我一区二区在线观看| 猪蜜蜜网站在线观看电视剧| 亚洲国产av| 入禽太深免费视频10| 蜜柚影院在线观看免费高清中文|