亚洲成人网在线,中文字幕在线免费视频,亚洲经典在线观看

邊界信息的挖掘，對于NER的任務(wù)是非常重要的，這種類似于分詞的功能，能夠很好的挖掘到詞語，并且把一個句子拆分成多個詞語的構(gòu)成。

以目前世界杯火的例子來說：“葡萄牙有望得到冠軍”，可以按照邊界信息，分割成為以下的組成，接著有了這種邊界信息，我們可以用來做很多的上游任務(wù)。

在之前的工業(yè)技術(shù)分享中，NER的上一步就是由分割任務(wù)來做的。

NLP基礎(chǔ)任務(wù)的極限在哪里？一文告訴你工業(yè)界是如何做NER的

下面我們進(jìn)行本次論文的分享：

Unsupervised Boundary-Aware Language Model Pretraining for ChineseSequence Labeling | EMNLP2022

在這項工作中，提出了無監(jiān)督的計算邊界，并提出了一種將信息直接編碼到預(yù)訓(xùn)練的語言模型中的結(jié)構(gòu)，從而產(chǎn)生了邊界感知BERT（BABERT）。船長在此處辯證的分析一下，無監(jiān)督有什么好處，有什么壞處？

好處：

可以節(jié)省大量的人力，本模型可以直接用于中文的邊界信息計算任務(wù)中。

壞處：

有監(jiān)督的結(jié)果一般都比無監(jiān)督的結(jié)果要好，從結(jié)果的角度來看，肯定是受限的。

實際上這里最好是利用半監(jiān)督學(xué)習(xí)，使用到之前標(biāo)注的詞庫信息，在進(jìn)而進(jìn)行無監(jiān)督的訓(xùn)練，這點(diǎn)才是值得肯定的地方。

模型結(jié)構(gòu)

圖1：邊界感知預(yù)訓(xùn)練語言模型的總體架構(gòu)。總共由三部分組成：(a) 邊界信息提取器；(b)邊界感知表示；(c) 邊界感知BERT學(xué)習(xí)。

邊界信息提取器

其實為什么第一個部分是邊界信息提取器呢？因為我們的模型需要先猜一個結(jié)果，然后再判斷他是否“正確”，再進(jìn)行迭代來不斷地進(jìn)行學(xué)習(xí)。那么具體如何提取邊界信息，本文分成了兩個步驟。

從原始語料庫中收集所有N-grams，以建立一個詞典，在其中我們統(tǒng)計每個詞的頻率，并過濾掉低頻項，去除掉噪聲詞語。

考慮到詞頻不足以表示漢語上下文中的靈活邊界關(guān)系，本文進(jìn)一步計算了兩個無監(jiān)督指標(biāo)，這兩個指標(biāo)可以捕獲語料庫中的大部分邊界信息。在下文中，我們將詳細(xì)描述這兩個指標(biāo)。

公式預(yù)警，讀者覺得復(fù)雜可以直接調(diào)到邊界信息感知的BERT學(xué)習(xí)

點(diǎn)交互信息 PMI

給定一個N-gram，將其分成兩個子字符串，并計算它們之間的互信息（MI）作為候選。然后，我們枚舉所有子字符串對，并選擇最小MI作為總PMI，以估計緊密性。設(shè)g＝｛c1…cm｝是由m個字符組成的N-gram，使用以下公式計算PMI：

p()代表了文章中出現(xiàn)的概率。當(dāng)m等于1的時候PMI這時也是最大的，即為1。除去這種情況后，如果PMI指數(shù)很高，也就意味著總字符串和子字符串有著同時出現(xiàn)的概率，例如總字符串“貝克漢姆”和子字符串“貝克”+“漢姆”，這時就讓N-Gram “貝克”和“漢姆”更像是兩個實體。

左右交叉熵

給定一個N-gram g，我們首先收集到左邊的鄰接字符集合Sl，之后我們用g和Sl的條件概率來計算左交叉熵：

右交叉熵是同理的：

直觀地說，左右交叉熵（LRE）代表了N-gram中相鄰字符的數(shù)量。對于較低的LRE“漢姆”，表示它更可能是短語或?qū)嶓w的一部分。相反，具有更高LRE（例如，“貝克漢姆”），說明和上下文的交互很多，那么它很可能是單獨(dú)的一個實體，這點(diǎn)是毋庸置疑的，越高說明當(dāng)前的詞語是單個實體的概率更大。作者使用的指標(biāo)能夠感知到什么是上下文，什么是實體，從而更好的做好邊界計算的邏輯。

最后，我們利用PMI和LRE來測量中文上下文中的靈活邊界關(guān)系，然后用上面的無監(jiān)督統(tǒng)計指標(biāo)更新每個N-gram。

邊界信息表示

邊界信息計算的核心就是上下文和實體之間的差別，針對于字符Ci，我們抽取出和Ci相關(guān)的N-Gram來代表Ci的上下文。設(shè)計一種組合方法，通過使用特定的條件和規(guī)則來集成S中N個詞的統(tǒng)計特征，旨在避免統(tǒng)計信息的稀疏性和上下文獨(dú)立性限制。

具體地，我們將信息合成方法分為PMI和熵表示。首先，我們連接了所有和字符Ci相關(guān)的N-Gram，去形成PMI的表達(dá)：

a=1+2+··+N是包含ci的N-Gram的數(shù)量。注意，在PMI表示中，每個N的位置是固定的。我們嚴(yán)格遵循N-gram長度的順序和ci在N-gram中的位置來連接它們對應(yīng)的PMI，確保位置和上下文信息可以被編碼到交叉熵信息中：

從而也就有了公式5，就是左右交叉熵。那么最終，我們就有了邊界信息的表示，通過PMI和左右交叉熵的整合可以得到：

公式6很有意思，作者在文中提到，三個表達(dá)方式的順序是很特殊的，左邊的交叉熵放在了最左面，而右邊的交叉熵放在了最右邊，中間的是用來計算當(dāng)前是否是實體的概率。那么我們可以這么理解這個公式，ei代表了前文+實體+后文，也就是一種清晰的解決方案。

這個地方關(guān)于公式的地方讀者可以自行跳過，下面我們來舉一個具體的例子幫助理解，詳見圖2：

圖2：字符邊界感知表示的“長”在文本中“南京市長江大橋”

圖2顯示了邊界感知表示的示例。首先整句話呢，會按照N-Gram （N=3）來進(jìn)行拆分，所以我們有了下面的字符串序列，接著，我們?nèi)齻€公式開始計算各自的數(shù)值，LE包含了三個詞，而PMI包含了所有詞，RE包含了三個詞，最終會把三個計算的數(shù)值并在一起作為邊界信息感知的表達(dá)方式。

邊界信息感知的BERT學(xué)習(xí)

邊界信息感知的BERT是BERT預(yù)訓(xùn)練模型中的一種，在這節(jié)中，我們主要描述了如何把邊界信息引入到BERT的訓(xùn)練中。

邊界信息感知的目標(biāo)訓(xùn)練

那么如何讓BERT擁有這種信息的感知呢？實際上用MSE來規(guī)范BERT的hidden states，讓這個和公式6中的ei來不斷地接近。詳細(xì)公式如公式7所示，其中h代表了BERT中某一層的隱狀態(tài)，W是可學(xué)習(xí)參數(shù)矩陣。

不過話說回來，船長平日做實驗的時候，很少有發(fā)現(xiàn)MSE loss針對這種回歸有效的，因為兩個向量本身就在不同的向量空間，如何讓他們兩個接近呢？其實很難。

最終BERT的預(yù)訓(xùn)練損失函數(shù)，由兩部分組成，也即公式7+完形填空任務(wù)。完形填空任務(wù)類似于把某一個單詞挖空，然后讓BERT去預(yù)測這個單詞，這種方式能夠加強(qiáng)BERT對于上下文的感知能力。

序列標(biāo)注任務(wù)的微調(diào)

微調(diào)的方法是很簡單粗暴的，對于序列標(biāo)注的任務(wù)，只需要序列標(biāo)注的信號，輸入文本，模型的輸出層加上CRF進(jìn)行預(yù)測。因為本模型和BERT的結(jié)構(gòu)幾乎一樣，所以在使用起來可以完全按照BERT+CRF的框架來走。

如何引入詞語？

回到了我們做NER的初心，如何利用好詞語的信息，是增強(qiáng)NER的關(guān)鍵之一，那么本文的方式就是利用Adapter的方式來引入詞語的信息，他的方法和我之前分析過的論文是類似的，感興趣的讀者可以看看我之前發(fā)的文章。

如何把單詞插入到預(yù)訓(xùn)練模型？達(dá)摩院研究告訴你答案

數(shù)據(jù)集

圖3：基準(zhǔn)數(shù)據(jù)集的句子數(shù)統(tǒng)計。對于沒有測試部分的數(shù)據(jù)集，我們從相應(yīng)的訓(xùn)練集中隨機(jī)選擇10%的句子作為測試集。

本文的數(shù)據(jù)集有三種類型，分別是NER (Named Entity Recognition)， POS (Part-Of-Speech Tagging)，CWS (Chinese Word Segmentation)。

結(jié)果

從結(jié)果的角度來講，提升是比較明顯的，相對于原始的BERT，很多數(shù)值都已經(jīng)刷到了SOTA，確實是一篇很容易借鑒的工作。

寫在最后

在本文，提出了BABERT，一種用于中文序列標(biāo)記的新的無監(jiān)督邊界感知預(yù)訓(xùn)練模型。在BABERT中，給定一個中文句子，使用無監(jiān)督統(tǒng)計信息計算邊界感知表示以捕獲邊界信息，并在預(yù)訓(xùn)練期間將這些信息直接注入BERT的參數(shù)學(xué)習(xí)。與之前的工作不同，BABERT開發(fā)了一種以無監(jiān)督方式利用邊界信息的有效方法，從而減輕了基于監(jiān)督詞典的方法的局限性。在三個不同任務(wù)的十個基準(zhǔn)數(shù)據(jù)集上的實驗結(jié)果表明，方法非常有效，并且優(yōu)于其他中文的預(yù)訓(xùn)練模型。此外，與監(jiān)督詞典擴(kuò)展相結(jié)合可以在大多數(shù)任務(wù)上實現(xiàn)進(jìn)一步的改進(jìn)和最先進(jìn)的結(jié)果。

接下來船長提幾個問題，讀者可以思考一下：

我想用這個模型，如何使用呢？

首先，先拿論文的框架訓(xùn)練出BABERT，然后在自己的語料上訓(xùn)練/微調(diào)，最終可以當(dāng)做一個普通BERT來使用，我們可以做NER任務(wù)，也可以去做CWS任務(wù)。

這個模型好用嗎？

客觀的來說，這個模型有一些地方很難調(diào)參，比如說MSE Loss，還有MSE Loss中的隱狀態(tài)的層數(shù)，我們并不知道哪一層的結(jié)果最好。總不能每次實驗都去確定層數(shù)吧？這點(diǎn)很困難。除了上述的，其他的都比較好復(fù)現(xiàn)。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

SCWS技術(shù)

SCWS技術(shù)

+關(guān)注

關(guān)注
0

文章
2

瀏覽量
5842
PMI

PMI

+關(guān)注

關(guān)注
0

文章
15

瀏覽量
9296
NER

NER

+關(guān)注

關(guān)注
0

文章
7

瀏覽量
6218

原文標(biāo)題：如何將邊界信息融入到預(yù)訓(xùn)練模型中？最新頂會告訴你答案

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

KerasHub統(tǒng)一、全面的預(yù)訓(xùn)練模型庫

深度學(xué)習(xí)領(lǐng)域正在迅速發(fā)展，在處理各種類型的任務(wù)中，預(yù)訓(xùn)練模型變得越來越重要。Keras 以其用戶友好型 API 和對易用性的重視而聞名，始終處于這一

發(fā)表于 12-20 10:32 ?147次閱讀

什么是大模型、大模型是怎么訓(xùn)練出來的及大模型作用

，基礎(chǔ)模型。 ? 大模型是一個簡稱，完整的叫法，應(yīng)該是“人工智能預(yù)訓(xùn)練大模型”。

發(fā)表于 11-25 09:29 ?2281次閱讀

直播預(yù)約 |數(shù)據(jù)智能系列講座第4期：預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

鷺島論壇數(shù)據(jù)智能系列講座第4期「預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)」10月30日（周三）20：00精彩開播期待與您云相聚，共襄學(xué)術(shù)盛宴！|直播信息報告題目

發(fā)表于 10-18 08:09 ?257次閱讀

【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

的表達(dá)方式和生成能力。通過預(yù)測文本中缺失的部分或下一個詞，模型逐漸掌握語言的規(guī)律和特征。常用的模型結(jié)

發(fā)表于 08-02 11:03

大語言模型的預(yù)訓(xùn)練

能力，逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟，它通過在海量無標(biāo)簽數(shù)據(jù)上進(jìn)行

發(fā)表于 07-11 10:11 ?508次閱讀

預(yù)訓(xùn)練模型的基本原理和應(yīng)用

預(yù)訓(xùn)練模型（Pre-trained Model）是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個重要概念，尤其是在自然語言處理（NLP）和計算機(jī)視覺（CV）

發(fā)表于 07-03 18:20 ?3059次閱讀

CNN模型的基本原理、結(jié)構(gòu)、訓(xùn)練過程及應(yīng)用領(lǐng)域

CNN模型的基本原理、結(jié)構(gòu)、訓(xùn)練過程以及應(yīng)用領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)的基本原理 1.1 卷積運(yùn)算卷積運(yùn)算是CNN模型的核心，它是一種數(shù)學(xué)運(yùn)算

發(fā)表于 07-02 15:26 ?3988次閱讀

大語言模型：原理與工程時間+小白初識大語言模型

種語言模型進(jìn)行預(yù)訓(xùn)練，此處預(yù)訓(xùn)練為自然

發(fā)表于 05-12 23:57

【大語言模型：原理與工程實踐】大語言模型的應(yīng)用

輸出的關(guān)鍵詞或短語。對于任何輸入，大語言模型都會根據(jù)提示詞提供相應(yīng)的輸出。例如，“天空是”就是一個提示詞，引導(dǎo)模型輸出關(guān)于天空的描述。提示詞的完善度和

發(fā)表于 05-07 17:21

【大語言模型：原理與工程實踐】大語言模型的預(yù)訓(xùn)練

數(shù)據(jù)格式的轉(zhuǎn)換、數(shù)據(jù)字段的匹配和整合等。通過數(shù)據(jù)級凈化，可以進(jìn)一步提高數(shù)據(jù)的質(zhì)量和可用性，為后續(xù)的數(shù)據(jù)分析和建模提供更有價值的數(shù)據(jù)支持。在得到了大語言模型的數(shù)據(jù)之后，就是對其進(jìn)行預(yù)

發(fā)表于 05-07 17:10

【大語言模型：原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

就無法修改，因此難以靈活應(yīng)用于下游文本的挖掘中。詞嵌入表示：將每個詞映射為一個低維稠密的實值向量。不同的是，基于預(yù)訓(xùn)練的詞嵌入表示先在語

發(fā)表于 05-05 12:17

【大語言模型：原理與工程實踐】核心技術(shù)綜述

我也不打算把網(wǎng)上相關(guān)的信息在總結(jié)一下，這樣的話，工作量很大。我主要看了-大語言模型基礎(chǔ)技術(shù)這節(jié) 大語言

發(fā)表于 05-05 10:56

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

學(xué)習(xí)能力。這些模型以生成能力強(qiáng)和靈活性強(qiáng)為特點(diǎn)，逐漸演變成一種通用計算平臺。其參數(shù)多樣性、生成能力和涌現(xiàn)性使其不僅在自然語言處理領(lǐng)域表現(xiàn)出色，還能適應(yīng)多種復(fù)雜任務(wù)。參數(shù)多樣性讓模型能學(xué)

發(fā)表于 05-04 23:55

【大語言模型：原理與工程實踐】探索《大語言模型原理與工程實踐》

處理中預(yù)訓(xùn)練架構(gòu)Transformer，以及這些技術(shù)在現(xiàn)實世界中的如何應(yīng)用。通過具體案例的分析，作者展示了大語言

發(fā)表于 04-30 15:35

大語言模型中的語言與知識：一種神秘的分離現(xiàn)象

自然語言處理領(lǐng)域存在著一個非常有趣的現(xiàn)象：在多語言模型中，不同的語言之間似乎存在著

發(fā)表于 02-20 14:53 ?570次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

一種將信息直接編碼到預(yù)訓(xùn)練的語言模型中的結(jié)構(gòu)

評論

KerasHub統(tǒng)一、全面的預(yù)訓(xùn)練模型庫

什么是大模型、大模型是怎么訓(xùn)練出來的及大模型作用

直播預(yù)約 |數(shù)據(jù)智能系列講座第4期：預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

大語言模型的預(yù)訓(xùn)練

預(yù)訓(xùn)練模型的基本原理和應(yīng)用

CNN模型的基本原理、結(jié)構(gòu)、訓(xùn)練過程及應(yīng)用領(lǐng)域

大語言模型：原理與工程時間+小白初識大語言模型

【大語言模型：原理與工程實踐】大語言模型的應(yīng)用

【大語言模型：原理與工程實踐】大語言模型的預(yù)訓(xùn)練

【大語言模型：原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

【大語言模型：原理與工程實踐】核心技術(shù)綜述

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

【大語言模型：原理與工程實踐】探索《大語言模型原理與工程實踐》

大語言模型中的語言與知識：一種神秘的分離現(xiàn)象