亚州综合网,双性人bbwsex,一区二区三区精品牛牛

命名實(shí)體的同義發(fā)現(xiàn)在許多NLP任務(wù)中起到了重要的作用。同義發(fā)現(xiàn)任務(wù)中一個(gè)核心的問(wèn)題是如何衡量一對(duì)實(shí)體之間的語(yǔ)義相似度。基于表示學(xué)習(xí)(representation learning)的同義實(shí)體發(fā)現(xiàn)致力于學(xué)習(xí)更好的詞表示(word embedding)或者字符表示(charac ter-level embedding)。這些方法大都可以很好的處理表述相似的同義實(shí)體(例如airplane/aeroplane), 但在衡量語(yǔ)義相似的同義實(shí)體下表現(xiàn)不佳(例如clogged nose/nasal congestion)。近年來(lái)，基于上下文(context)的同義實(shí)體發(fā)現(xiàn)多基于分布式語(yǔ)義模型(Distributional Semantics Models)的假設(shè) ，即“在相同的上下文中出現(xiàn)的詞匯在某種程度上有類(lèi)似的含義“。在實(shí)際應(yīng)用中，一個(gè)命名實(shí)體會(huì)通常出現(xiàn)在許多不同的上下文中。對(duì)于每個(gè)命名實(shí)體，現(xiàn)有基于分布式語(yǔ)義模型的方法大多將單個(gè)上下文的信息拿來(lái)做匹配。

IJCAI2020的一篇論文 (“Entity Synonym Discovery via Multipiece Bilateral Context Matching”) 在如何利用多個(gè)上下文信息來(lái)做同義實(shí)體發(fā)現(xiàn)問(wèn)題上進(jìn)行了一些新的探索。作者認(rèn)為對(duì)于一對(duì)命名實(shí)體，若對(duì)每個(gè)實(shí)體能利用多個(gè)不同的上下文來(lái)做匹配不僅可以更全面的學(xué)習(xí)其上下文語(yǔ)意表示從而提高衡量實(shí)體之間語(yǔ)義相似度的準(zhǔn)確性，還可以增加匹配的魯棒性，減少因采用某個(gè)低質(zhì)量上下文而引入的噪聲。為了達(dá)到這一目標(biāo)，作者在同義詞發(fā)現(xiàn)任務(wù)上將傳統(tǒng)的基于單個(gè)上下文的匹配(single-piece context matching)擴(kuò)展至多個(gè)上下文(multi-piece context)，并通過(guò)多個(gè)上下文之間的雙向匹配(bilateral context matching) 來(lái)學(xué)習(xí)實(shí)體間的相似度，從而用于海量文本中的同義實(shí)體發(fā)現(xiàn)。在公開(kāi)/特定領(lǐng)域（醫(yī)療），英文/中文文本數(shù)據(jù)集上均取得了較佳的表現(xiàn)。

模型解析

SynonymNet核心idea是對(duì)于每個(gè)命名實(shí)體查找一組（多個(gè)）其出現(xiàn)的上下文句子，并通過(guò)對(duì)兩組上下文句子之間進(jìn)行匹配得到最終命名實(shí)體間的相似度。那么這樣的匹配要如何實(shí)現(xiàn)呢？

作者采用了如下圖所示的模型結(jié)構(gòu)：檢索器 (context retriever)通過(guò)檢索的方式從海量文本中選擇一組實(shí)體被提到的句子；編碼器(context encoder)將每一個(gè)上下文信息進(jìn)行編碼; 雙向匹配(bilateral matching)+泄漏單元(leaky unit)則將兩個(gè)實(shí)體對(duì)應(yīng)的兩組上下文信息進(jìn)行雙向匹配；合成器(context aggregation)利用匹配的信息選擇具有代表性，且在匹配中較為informative的上下文信息進(jìn)行多上下文的聚合。作者考慮了兩種不同的架構(gòu)：一是針對(duì)二元實(shí)體組的siamese 結(jié)構(gòu)，根據(jù)同義實(shí)體是否匹配進(jìn)行二分類(lèi)；二是針對(duì)三元實(shí)體組的triplet 結(jié)構(gòu)，希望同義實(shí)體的得分超過(guò)非同義實(shí)體。

雙向匹配。

對(duì)于一組命名實(shí)體 , 上下文檢索+編碼將器將轉(zhuǎn)化為了兩組上下文的向量：

對(duì)于每個(gè)提到實(shí)體的上下文向量 , 作者用bi-linear項(xiàng)來(lái)計(jì)算和每一個(gè)提到實(shí)體的上下文向量的匹配分?jǐn)?shù)：

同樣的，對(duì)于每一個(gè)提到實(shí)體的上下文向量，作者也利用相同的方式計(jì)算匹配分?jǐn)?shù)：

這樣的匹配看似需要進(jìn)行次，但在實(shí)際實(shí)現(xiàn)中可以通過(guò)矩陣乘法進(jìn)行高效計(jì)算：，并通過(guò)按行/列取softmax得到兩個(gè)方向的匹配分?jǐn)?shù)。

泄露單元。

當(dāng)需要和多個(gè)上下文進(jìn)行匹配的時(shí)候，可能會(huì)存在沒(méi)有高質(zhì)量的上下文進(jìn)行匹配，甚至上下文存在錯(cuò)誤的情況。為了更好的解決這個(gè)問(wèn)題，作者引入了泄漏單元(leaky unit)的概念。Leaky unit的想法是在雙向匹配時(shí)引入一個(gè)多余的上下文向量。該向量可以隨模型學(xué)習(xí)，目的是為了在沒(méi)有高質(zhì)量上下文匹配時(shí)承擔(dān)一些匹配的分?jǐn)?shù)，從而減弱低質(zhì)量上下文在匹配過(guò)程中帶來(lái)的噪聲和干擾。

在每個(gè)匹配方向上，Leaky unit會(huì)額外和/個(gè)上下文向量計(jì)算匹配分?jǐn)?shù)：

當(dāng)存在某個(gè)低質(zhì)量的上下文，比如因?yàn)閷?shí)體在句子語(yǔ)義成分中不重要時(shí)，其對(duì)應(yīng)的上下文向量在和提到實(shí)體的個(gè)上下文向量進(jìn)行匹配時(shí)：

分母中的泄漏單元會(huì)承擔(dān)匹配分?jǐn)?shù)；會(huì)減弱該在上下文在匹配時(shí)的影響。橫向比較上方兩個(gè)公式的分子：當(dāng) > 時(shí)，泄漏單元會(huì)比低質(zhì)量的上下文在匹配中更活躍，占用額外的匹配分?jǐn)?shù)，從而減弱低質(zhì)量上下文在匹配時(shí)的分?jǐn)?shù)。

上下文信息聚合。

作者將多個(gè)上下文基于attention思想進(jìn)行聚合。當(dāng)已經(jīng)獲得了個(gè)上下文之間的匹配分?jǐn)?shù)后，作者認(rèn)為某一個(gè)上下文在個(gè)上下文聚合過(guò)程中的重要的程度取決于在與另一邊個(gè)上下文匹配時(shí)最被需要的程度：

這里的動(dòng)機(jī)是如果個(gè)上下文和匹配時(shí)最高的匹配分?jǐn)?shù)已經(jīng)很低，那么可以說(shuō)明在整個(gè)匹配過(guò)程中不夠informative，聚合時(shí)應(yīng)當(dāng)給較小的attention；反之，如果在和個(gè)上下文匹配時(shí)最高的匹配分?jǐn)?shù)很高，那么可以說(shuō)明在匹配過(guò)程中非常被需要。作為informative的上下文在聚合時(shí)應(yīng)當(dāng)?shù)玫礁蟮腶ttention?；谶@個(gè)思路，聚合時(shí)采用了基于最強(qiáng)匹配分?jǐn)?shù)進(jìn)行的attention聚合，得到聚合后的上下文向量：

泄漏單元雖然在匹配時(shí)分擔(dān)了匹配分?jǐn)?shù)，但泄漏單元不參與聚合過(guò)程。因此泄漏單元不會(huì)在聚合過(guò)程中貢獻(xiàn)信息給聚合后的上下文向量。這樣是為了保證泄露的噪聲能被隔離開(kāi)，不去影響最終聚合的質(zhì)量。

siamese/triplet 結(jié)構(gòu)。

作者嘗試了兩種不同的模型結(jié)構(gòu)/損失函數(shù)。siamese 結(jié)構(gòu)以二元實(shí)體組作為輸入，損失函數(shù)利用聚合后的上下文向量刻畫(huà)兩個(gè)實(shí)體同義與否。triplet結(jié)構(gòu)以三元實(shí)體組作為輸入，損失函數(shù)利用聚合后的上下文向量希望同義實(shí)體比非同義實(shí)體獲得更高的分?jǐn)?shù)：大于一個(gè)margin。

實(shí)體發(fā)現(xiàn)流程

作者利用SynonymNet衡量實(shí)體間語(yǔ)義相似度的能力將其用于文本中的實(shí)體發(fā)現(xiàn)。如圖所示，實(shí)體發(fā)現(xiàn)分為四步：1）根據(jù)文本訓(xùn)練word embedding；2）對(duì)于一個(gè)query entity , 通過(guò)其在embedding space上的最近鄰獲得candidate entity；3）對(duì)于 < query entity, candidate entity > 利用SynonymNet獲得相似度分?jǐn)?shù)；4）最后根據(jù)SynonymNet分?jǐn)?shù)獲得同義實(shí)體對(duì)。

實(shí)驗(yàn)表現(xiàn)

作者在Wiki + Freebase, PubMed + UMLS, MedBook + MKG 三個(gè)數(shù)據(jù)集上進(jìn)行了評(píng)估。實(shí)驗(yàn)采用AUC和MAP評(píng)價(jià)采用相同的word embedding時(shí)不同模型結(jié)構(gòu)對(duì)于衡量實(shí)體同義相似度的影響。

作者對(duì)上下文個(gè)數(shù)對(duì)性能的影響進(jìn)行了評(píng)估。結(jié)果顯示采用多個(gè)上下文進(jìn)行匹配可以降低單個(gè)上下文匹配時(shí)可能帶來(lái)的噪聲，從而顯著提高同義相似度的準(zhǔn)確性。

作者還在真實(shí)的同義實(shí)體發(fā)現(xiàn)任務(wù)中進(jìn)行了一些分析。word2vec采用了利用上下文來(lái)對(duì)實(shí)體語(yǔ)義進(jìn)行建模的思想，用cosine similarity進(jìn)行embedding最近鄰選取可以得到初篩后的candidate entity。對(duì)于query entity “UNGA”，獲得的candidates雖然大多出現(xiàn)在類(lèi)似的上下文中，不相關(guān)的實(shí)體仍在前列。經(jīng)過(guò)SynonymNet對(duì)于上下文更細(xì)粒度的刻畫(huà)，以及多上下文的雙向匹配后，同義實(shí)體的排名變得更靠前了。

總結(jié)

根據(jù)多個(gè)上下文進(jìn)行雙向匹配來(lái)確定兩個(gè)實(shí)體同義程度，利用泄漏單元來(lái)處理多個(gè)上下文匹配時(shí)可能存在噪音的情況，思路直觀，實(shí)現(xiàn)的方式簡(jiǎn)潔。實(shí)驗(yàn)結(jié)果上驗(yàn)證了采用多個(gè)上下文進(jìn)行匹配來(lái)帶準(zhǔn)確度和魯棒性上的提升。

該框架對(duì)于編碼器，檢索器的選擇比較靈活。目前文中采用的是bi-LSTM結(jié)構(gòu)，和基于transformer的眾多預(yù)訓(xùn)練語(yǔ)言模型碰撞之后說(shuō)不定也能有一些新的發(fā)現(xiàn)。在需要用多個(gè)上下文進(jìn)行匹配的時(shí)候，如何利用多個(gè)上下文帶來(lái)的多樣性，全面地學(xué)習(xí)實(shí)體表示也是一個(gè)很有意思的問(wèn)題。在處理由之產(chǎn)生的噪聲方面，文中的泄漏單元給出了一個(gè)比較新穎的觀點(diǎn)。

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

編碼器

編碼器

+關(guān)注

關(guān)注
45

文章
3747

瀏覽量
136494
模型

模型

+關(guān)注

關(guān)注
1

文章
3462

瀏覽量
49782
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1220

瀏覽量
25183

原文標(biāo)題：SynonymNet: 基于多個(gè)上下文雙向匹配的同義實(shí)體發(fā)現(xiàn)

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

編寫(xiě)一個(gè)任務(wù)調(diào)度程序，在上下文切換后遇到了一些問(wèn)題求解

大家好，我正在編寫(xiě)一個(gè)任務(wù)調(diào)度程序，在上下文切換后遇到了一些問(wèn)題。為下一個(gè)任務(wù)恢復(fù)上下文后： __builtin_tricore_mt

發(fā)表于 05-22 07:50

關(guān)于進(jìn)程上下文、中斷上下文及原子上下文的一些概念理解

只是切換進(jìn)程寄存器上下文的切換。進(jìn)程上下文主要是異常處理程序和內(nèi)核線程。內(nèi)核之所以進(jìn)入進(jìn)程上下文是因?yàn)檫M(jìn)程自身的一些工作需要在內(nèi)核中做。例

發(fā)表于 09-06 09:58

進(jìn)程上下文與中斷上下文的理解

的切換1.進(jìn)程上下文主要是異常處理程序和內(nèi)核線程。內(nèi)核之所以進(jìn)入進(jìn)程上下文是因?yàn)檫M(jìn)程自身的一些工作需要在內(nèi)核中做。例如，系統(tǒng)調(diào)用是為當(dāng)前進(jìn)程服務(wù)的，異常通常是處理進(jìn)程導(dǎo)致的錯(cuò)誤狀態(tài)等。

發(fā)表于 12-11 19:45

進(jìn)程上下文/中斷上下文及原子上下文的概念

為什么會(huì)有上下文這種概念進(jìn)程上下文/中斷上下文及原子上下文的概念

發(fā)表于 01-13 07:17

中斷中的上下文切換詳解

-》 osRtxThreadSwitch）只是設(shè)置了一些內(nèi)核標(biāo)志而并沒(méi)有進(jìn)行真正的上下文切換動(dòng)作），RTX的內(nèi)核接口都被設(shè)計(jì)成系統(tǒng)調(diào)用。換句話說(shuō)，用戶程序想要獲取內(nèi)核服務(wù)，想要使得任何其他任務(wù)由pend狀態(tài)進(jìn)入ready

發(fā)表于 03-23 17:18

基于交互上下文的預(yù)測(cè)方法

傳統(tǒng)的上下文預(yù)測(cè)是在單用戶的上下文基礎(chǔ)上進(jìn)行的，忽視了實(shí)際普適計(jì)算環(huán)境中由于用戶交互活動(dòng)導(dǎo)致的上下文變化因素。為了合理、有效地解決上述局限性問(wèn)題，該文提出基

發(fā)表于 10-04 14:08 ?7次下載

終端業(yè)務(wù)上下文的定義方法及業(yè)務(wù)模型

該文針對(duì)業(yè)務(wù)上下文僅關(guān)注業(yè)務(wù)質(zhì)量較少考慮用戶終端環(huán)境的現(xiàn)狀，提出終端業(yè)務(wù)上下文的概念，為普適業(yè)務(wù)的開(kāi)展提供必要的信息支撐。給出一種終端業(yè)務(wù)上下文

發(fā)表于 03-06 11:06 ?11次下載

基于Pocket PC的上下文菜單實(shí)現(xiàn)

介紹了基于 Pocket PC 中的點(diǎn)按操作概念, 論述了在Pocket PC 中上下文菜單的實(shí)現(xiàn)原理及方法, 并給出了基于MFC 下的Windows CE 應(yīng)用程序?qū)崿F(xiàn)上下文菜單的步驟和代碼實(shí)例。

發(fā)表于 07-25 18:26 ?17次下載

基于Pocket PC的上下文菜單實(shí)現(xiàn)

本文介紹了基于 Pocket PC 中的“點(diǎn)按”操作概念論述了在 Pocket PC 中上下文菜單的實(shí)現(xiàn)原理及方法并給出了基于 MFC 下的 Windows CE 應(yīng)用程序?qū)崿F(xiàn)上下文菜單的步驟和代碼實(shí)例。

發(fā)表于 04-18 10:46 ?0次下載

基于上下文相似度的分解推薦算法

針對(duì)移動(dòng)服務(wù)推薦中用戶上下文環(huán)境復(fù)雜多變和數(shù)據(jù)稀疏性問(wèn)題，提出一種基于移動(dòng)用戶上下文相似度的張量分解推薦算法-UCS-TF。該算法組合用戶間的多維上下文相似度和

發(fā)表于 11-27 17:42 ?0次下載

基于低秩重檢測(cè)的多特征時(shí)空上下文的視覺(jué)跟蹤

時(shí)空上下文跟蹤算法充分的利用空間上下文中包含的結(jié)構(gòu)信息能夠有效的對(duì)目標(biāo)進(jìn)行跟蹤，實(shí)時(shí)性?xún)?yōu)良．但是該算法僅僅

發(fā)表于 12-15 15:01 ?0次下載

Web服務(wù)的上下文的訪問(wèn)控制策略模型

Web服務(wù)環(huán)境中，交互實(shí)體通常位于不同安全域，具有不可預(yù)見(jiàn)性。Web服務(wù)應(yīng)該基于其他與領(lǐng)域無(wú)關(guān)的信息而非身份來(lái)實(shí)施訪問(wèn)控制，以實(shí)現(xiàn)對(duì)跨域未知用戶的訪問(wèn)授權(quán)。為此，提出了適應(yīng)于Web服務(wù)的基于上

發(fā)表于 01-05 16:32 ?0次下載

初學(xué)OpenGL：什么是繪制上下文

初學(xué)OpenGL，打開(kāi)紅寶書(shū)，會(huì)告訴你OpenGL是個(gè)狀態(tài)機(jī)，OpenGL采用了客戶端-服務(wù)器模式，那時(shí)覺(jué)得好抽象，直到后來(lái)了解了繪制上下文才把這些聯(lián)系起來(lái)。我們可以認(rèn)為每一個(gè)硬件GPU是個(gè)服務(wù)器

發(fā)表于 04-28 11:47 ?2566次閱讀

如何用上下文注意力來(lái)進(jìn)行深度圖像修復(fù)

今天，我們將深入探討深度圖像修復(fù)的一個(gè)突破，上下文注意力。通過(guò)使用上下文注意力，我們可以有效地從遙遠(yuǎn)的空間位置借用信息來(lái)重建局部缺失的像素。

發(fā)表于 04-07 19:01 ?2999次閱讀

如何分析Linux CPU上下文切換問(wèn)題

在我的上一篇文章：《探討 Linux CPU 的上下文切換》中，我談到了 CPU 上下文切換的工作原理。快速回顧一下，CPU 上下文切換是保

發(fā)表于 05-05 20:11 ?2149次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

如何利用多個(gè)上下文信息來(lái)做同義實(shí)體發(fā)現(xiàn)問(wèn)題上進(jìn)行了一些新的探索

評(píng)論

編寫(xiě)一個(gè)任務(wù)調(diào)度程序，在上下文切換后遇到了一些問(wèn)題求解

關(guān)于進(jìn)程上下文、中斷上下文及原子上下文的一些概念理解

進(jìn)程上下文與中斷上下文的理解

進(jìn)程上下文/中斷上下文及原子上下文的概念

中斷中的上下文切換詳解

基于交互上下文的預(yù)測(cè)方法

終端業(yè)務(wù)上下文的定義方法及業(yè)務(wù)模型

基于Pocket PC的上下文菜單實(shí)現(xiàn)

基于Pocket PC的上下文菜單實(shí)現(xiàn)

基于上下文相似度的分解推薦算法

基于低秩重檢測(cè)的多特征時(shí)空上下文的視覺(jué)跟蹤

Web服務(wù)的上下文的訪問(wèn)控制策略模型

初學(xué)OpenGL：什么是繪制上下文

如何用上下文注意力來(lái)進(jìn)行深度圖像修復(fù)

如何分析Linux CPU上下文切換問(wèn)題

電子發(fā)燒友