為了進(jìn)一步促進(jìn)中文自然語(yǔ)言處理的研究發(fā)展,哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布基于全詞覆蓋(Whole Word Masking)的中文BERT預(yù)訓(xùn)練模型。我們?cè)诙鄠€(gè)中文數(shù)據(jù)集上得到了較好的結(jié)果,覆蓋了句子級(jí)到篇章級(jí)任務(wù)。同時(shí),我們對(duì)現(xiàn)有的中文預(yù)訓(xùn)練模型進(jìn)行了對(duì)比,并且給出了若干使用建議。我們歡迎大家下載試用。
下載地址:https://github.com/ymcui/Chinese-BERT-wwm
技術(shù)報(bào)告:https://arxiv.org/abs/1906.08101
摘要
基于Transformers的雙向編碼表示(BERT)在多個(gè)自然語(yǔ)言處理任務(wù)中取得了廣泛的性能提升。近期,谷歌發(fā)布了基于全詞覆蓋(Whold Word Masking)的BERT預(yù)訓(xùn)練模型,并且在SQuAD數(shù)據(jù)中取得了更好的結(jié)果。應(yīng)用該技術(shù)后,在預(yù)訓(xùn)練階段,同屬同一個(gè)詞的WordPiece會(huì)被全部覆蓋掉,而不是孤立的覆蓋其中的某些WordPiece,進(jìn)一步提升了Masked Language Model (MLM)的難度。在本文中我們將WWM技術(shù)應(yīng)用在了中文BERT中。我們采用中文維基百科數(shù)據(jù)進(jìn)行了預(yù)訓(xùn)練。該模型在多個(gè)自然語(yǔ)言處理任務(wù)中得到了測(cè)試和驗(yàn)證,囊括了句子級(jí)到篇章級(jí)任務(wù),包括:情感分類(lèi),命名實(shí)體識(shí)別,句對(duì)分類(lèi),篇章分類(lèi),機(jī)器閱讀理解。實(shí)驗(yàn)結(jié)果表明,基于全詞覆蓋的中文BERT能夠帶來(lái)進(jìn)一步性能提升。同時(shí)我們對(duì)現(xiàn)有的中文預(yù)訓(xùn)練模型BERT,ERNIE和本文的BERT-wwm進(jìn)行了對(duì)比,并給出了若干使用建議。預(yù)訓(xùn)練模型將發(fā)布在:https://github.com/ymcui/Chinese-BERT-wwm
簡(jiǎn)介
Whole Word Masking (wwm),暫翻譯為全詞Mask,是谷歌在2019年5月31日發(fā)布的一項(xiàng)BERT的升級(jí)版本,主要更改了原預(yù)訓(xùn)練階段的訓(xùn)練樣本生成策略。簡(jiǎn)單來(lái)說(shuō),原有基于WordPiece的分詞方式會(huì)把一個(gè)完整的詞切分成若干個(gè)詞綴,在生成訓(xùn)練樣本時(shí),這些被分開(kāi)的詞綴會(huì)隨機(jī)被[MASK]替換。在全詞Mask中,如果一個(gè)完整的詞的部分WordPiece被[MASK]替換,則同屬該詞的其他部分也會(huì)被[MASK]替換,即全詞Mask。
同理,由于谷歌官方發(fā)布的BERT-base(Chinese)中,中文是以字為粒度進(jìn)行切分,沒(méi)有考慮到傳統(tǒng)NLP中的中文分詞(CWS)。我們將全詞Mask的方法應(yīng)用在了中文中,即對(duì)組成同一個(gè)詞的漢字全部進(jìn)行[MASK]。該模型使用了中文維基百科(包括簡(jiǎn)體和繁體)進(jìn)行訓(xùn)練,并且使用了哈工大語(yǔ)言技術(shù)平臺(tái)LTP(http://ltp.ai)作為分詞工具。
下述文本展示了全詞Mask的生成樣例。
基線(xiàn)測(cè)試結(jié)果
我們選擇了若干中文自然語(yǔ)言處理數(shù)據(jù)集來(lái)測(cè)試和驗(yàn)證預(yù)訓(xùn)練模型的效果。同時(shí),我們也對(duì)近期發(fā)布的谷歌BERT,百度ERNIE進(jìn)行了基準(zhǔn)測(cè)試。為了進(jìn)一步測(cè)試這些模型的適應(yīng)性,我們特別加入了篇章級(jí)自然語(yǔ)言處理任務(wù),來(lái)驗(yàn)證它們?cè)陂L(zhǎng)文本上的建模效果。
以下是我們選用的基準(zhǔn)測(cè)試數(shù)據(jù)集。
我們列舉其中部分實(shí)驗(yàn)結(jié)果,完整結(jié)果請(qǐng)查看我們的技術(shù)報(bào)告。為了確保結(jié)果的穩(wěn)定性,每組實(shí)驗(yàn)均獨(dú)立運(yùn)行10次,匯報(bào)性能最大值和平均值(括號(hào)內(nèi)顯示)。
▌中文簡(jiǎn)體閱讀理解:CMRC 2018
CMRC 2018是哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布的中文機(jī)器閱讀理解數(shù)據(jù)。根據(jù)給定問(wèn)題,系統(tǒng)需要從篇章中抽取出片段作為答案,形式與SQuAD相同。
▌中文繁體閱讀理解:DRCD
DRCD數(shù)據(jù)集由中國(guó)***臺(tái)達(dá)研究院發(fā)布,其形式與SQuAD相同,是基于繁體中文的抽取式閱讀理解數(shù)據(jù)集。
▌中文命名實(shí)體識(shí)別:人民日?qǐng)?bào),MSRA-NER
中文命名實(shí)體識(shí)別(NER)任務(wù)中,我們采用了經(jīng)典的人民日?qǐng)?bào)數(shù)據(jù)以及微軟亞洲研究院發(fā)布的NER數(shù)據(jù)。
▌句對(duì)分類(lèi):LCQMC,BQ Corpus
LCQMC以及BQ Corpus是由哈爾濱工業(yè)大學(xué)(深圳)發(fā)布的句對(duì)分類(lèi)數(shù)據(jù)集。
▌篇章級(jí)文本分類(lèi):THUCNews
由清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室發(fā)布的新聞數(shù)據(jù)集,需要將新聞分成10個(gè)類(lèi)別中的一個(gè)。
使用建議
基于以上實(shí)驗(yàn)結(jié)果,我們給出以下使用建議(部分),完整內(nèi)容請(qǐng)查看我們的技術(shù)報(bào)告。
初始學(xué)習(xí)率是非常重要的一個(gè)參數(shù)(不論是BERT還是其他模型),需要根據(jù)目標(biāo)任務(wù)進(jìn)行調(diào)整。
ERNIE的最佳學(xué)習(xí)率和BERT/BERT-wwm相差較大,所以使用ERNIE時(shí)請(qǐng)務(wù)必調(diào)整學(xué)習(xí)率(基于以上實(shí)驗(yàn)結(jié)果,ERNIE需要的初始學(xué)習(xí)率較高)。
由于BERT/BERT-wwm使用了維基百科數(shù)據(jù)進(jìn)行訓(xùn)練,故它們對(duì)正式文本建模較好;而ERNIE使用了額外的百度百科、貼吧、知道等網(wǎng)絡(luò)數(shù)據(jù),它對(duì)非正式文本(例如微博等)建模有優(yōu)勢(shì)。
在長(zhǎng)文本建模任務(wù)上,例如閱讀理解、文檔分類(lèi),BERT和BERT-wwm的效果較好。
如果目標(biāo)任務(wù)的數(shù)據(jù)和預(yù)訓(xùn)練模型的領(lǐng)域相差較大,請(qǐng)?jiān)谧约旱臄?shù)據(jù)集上進(jìn)一步做預(yù)訓(xùn)練。
如果要處理繁體中文數(shù)據(jù),請(qǐng)使用BERT或者BERT-wwm。因?yàn)槲覀儼l(fā)現(xiàn)ERNIE的詞表中幾乎沒(méi)有繁體中文。
聲明
雖然我們極力的爭(zhēng)取得到穩(wěn)定的實(shí)驗(yàn)結(jié)果,但實(shí)驗(yàn)中難免存在多種不穩(wěn)定因素(隨機(jī)種子,計(jì)算資源,超參),故以上實(shí)驗(yàn)結(jié)果僅供學(xué)術(shù)研究參考。由于ERNIE的原始發(fā)布平臺(tái)是PaddlePaddle(https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE),我們無(wú)法保證在本報(bào)告中的效果能反映其真實(shí)性能(雖然我們?cè)谌舾蓴?shù)據(jù)集中復(fù)現(xiàn)了效果)。同時(shí),上述使用建議僅供參考,不能作為任何結(jié)論性依據(jù)。
該項(xiàng)目不是谷歌官方發(fā)布的中文Whole Word Masking預(yù)訓(xùn)練模型。
總結(jié)
我們發(fā)布了基于全詞覆蓋的中文BERT預(yù)訓(xùn)練模型,并在多個(gè)自然語(yǔ)言處理數(shù)據(jù)集上對(duì)比了BERT、ERNIE以及BERT-wwm的效果。實(shí)驗(yàn)結(jié)果表明,在大多數(shù)情況下,采用了全詞覆蓋的預(yù)訓(xùn)練模型(ERNIE,BERT-wwm)能夠得到更優(yōu)的效果。由于這些模型在不同任務(wù)上的表現(xiàn)不一致,我們也給出了若干使用建議,并且希望能夠進(jìn)一步促進(jìn)中文信息處理的研究與發(fā)展。
-
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1209瀏覽量
24827 -
自然語(yǔ)言處理
+關(guān)注
關(guān)注
1文章
619瀏覽量
13639
原文標(biāo)題:刷新中文閱讀理解水平,哈工大訊飛聯(lián)合發(fā)布基于全詞覆蓋中文BERT預(yù)訓(xùn)練模型
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論