亚洲欧美精品中字久久99,无遮挡免费h肉动漫在线观看,伊人久久青草

為了進(jìn)一步促進(jìn)中文自然語(yǔ)言處理的研究發(fā)展，哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布基于全詞覆蓋（Whole Word Masking）的中文BERT預(yù)訓(xùn)練模型。我們?cè)诙鄠€(gè)中文數(shù)據(jù)集上得到了較好的結(jié)果，覆蓋了句子級(jí)到篇章級(jí)任務(wù)。同時(shí)，我們對(duì)現(xiàn)有的中文預(yù)訓(xùn)練模型進(jìn)行了對(duì)比，并且給出了若干使用建議。我們歡迎大家下載試用。

下載地址：https://github.com/ymcui/Chinese-BERT-wwm

技術(shù)報(bào)告：https://arxiv.org/abs/1906.08101

摘要

基于Transformers的雙向編碼表示（BERT）在多個(gè)自然語(yǔ)言處理任務(wù)中取得了廣泛的性能提升。近期，谷歌發(fā)布了基于全詞覆蓋（Whold Word Masking）的BERT預(yù)訓(xùn)練模型，并且在SQuAD數(shù)據(jù)中取得了更好的結(jié)果。應(yīng)用該技術(shù)后，在預(yù)訓(xùn)練階段，同屬同一個(gè)詞的WordPiece會(huì)被全部覆蓋掉，而不是孤立的覆蓋其中的某些WordPiece，進(jìn)一步提升了Masked Language Model （MLM）的難度。在本文中我們將WWM技術(shù)應(yīng)用在了中文BERT中。我們采用中文維基百科數(shù)據(jù)進(jìn)行了預(yù)訓(xùn)練。該模型在多個(gè)自然語(yǔ)言處理任務(wù)中得到了測(cè)試和驗(yàn)證，囊括了句子級(jí)到篇章級(jí)任務(wù)，包括：情感分類(lèi)，命名實(shí)體識(shí)別，句對(duì)分類(lèi)，篇章分類(lèi)，機(jī)器閱讀理解。實(shí)驗(yàn)結(jié)果表明，基于全詞覆蓋的中文BERT能夠帶來(lái)進(jìn)一步性能提升。同時(shí)我們對(duì)現(xiàn)有的中文預(yù)訓(xùn)練模型BERT，ERNIE和本文的BERT-wwm進(jìn)行了對(duì)比，并給出了若干使用建議。預(yù)訓(xùn)練模型將發(fā)布在：https://github.com/ymcui/Chinese-BERT-wwm

簡(jiǎn)介

Whole Word Masking (wwm)，暫翻譯為全詞Mask，是谷歌在2019年5月31日發(fā)布的一項(xiàng)BERT的升級(jí)版本，主要更改了原預(yù)訓(xùn)練階段的訓(xùn)練樣本生成策略。簡(jiǎn)單來(lái)說(shuō)，原有基于WordPiece的分詞方式會(huì)把一個(gè)完整的詞切分成若干個(gè)詞綴，在生成訓(xùn)練樣本時(shí)，這些被分開(kāi)的詞綴會(huì)隨機(jī)被[MASK]替換。在全詞Mask中，如果一個(gè)完整的詞的部分WordPiece被[MASK]替換，則同屬該詞的其他部分也會(huì)被[MASK]替換，即全詞Mask。

同理，由于谷歌官方發(fā)布的BERT-base（Chinese）中，中文是以字為粒度進(jìn)行切分，沒(méi)有考慮到傳統(tǒng)NLP中的中文分詞（CWS）。我們將全詞Mask的方法應(yīng)用在了中文中，即對(duì)組成同一個(gè)詞的漢字全部進(jìn)行[MASK]。該模型使用了中文維基百科（包括簡(jiǎn)體和繁體）進(jìn)行訓(xùn)練，并且使用了哈工大語(yǔ)言技術(shù)平臺(tái)LTP（http://ltp.ai）作為分詞工具。

下述文本展示了全詞Mask的生成樣例。

基線(xiàn)測(cè)試結(jié)果

我們選擇了若干中文自然語(yǔ)言處理數(shù)據(jù)集來(lái)測(cè)試和驗(yàn)證預(yù)訓(xùn)練模型的效果。同時(shí)，我們也對(duì)近期發(fā)布的谷歌BERT，百度ERNIE進(jìn)行了基準(zhǔn)測(cè)試。為了進(jìn)一步測(cè)試這些模型的適應(yīng)性，我們特別加入了篇章級(jí)自然語(yǔ)言處理任務(wù)，來(lái)驗(yàn)證它們?cè)陂L(zhǎng)文本上的建模效果。

以下是我們選用的基準(zhǔn)測(cè)試數(shù)據(jù)集。

我們列舉其中部分實(shí)驗(yàn)結(jié)果，完整結(jié)果請(qǐng)查看我們的技術(shù)報(bào)告。為了確保結(jié)果的穩(wěn)定性，每組實(shí)驗(yàn)均獨(dú)立運(yùn)行10次，匯報(bào)性能最大值和平均值（括號(hào)內(nèi)顯示）。

▌中文簡(jiǎn)體閱讀理解：CMRC 2018

CMRC 2018是哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布的中文機(jī)器閱讀理解數(shù)據(jù)。根據(jù)給定問(wèn)題，系統(tǒng)需要從篇章中抽取出片段作為答案，形式與SQuAD相同。

▌中文繁體閱讀理解：DRCD

DRCD數(shù)據(jù)集由中國(guó)***臺(tái)達(dá)研究院發(fā)布，其形式與SQuAD相同，是基于繁體中文的抽取式閱讀理解數(shù)據(jù)集。

▌中文命名實(shí)體識(shí)別：人民日?qǐng)?bào)，MSRA-NER

中文命名實(shí)體識(shí)別（NER）任務(wù)中，我們采用了經(jīng)典的人民日?qǐng)?bào)數(shù)據(jù)以及微軟亞洲研究院發(fā)布的NER數(shù)據(jù)。

▌句對(duì)分類(lèi)：LCQMC，BQ Corpus

LCQMC以及BQ Corpus是由哈爾濱工業(yè)大學(xué)（深圳）發(fā)布的句對(duì)分類(lèi)數(shù)據(jù)集。

▌篇章級(jí)文本分類(lèi)：THUCNews

由清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室發(fā)布的新聞數(shù)據(jù)集，需要將新聞分成10個(gè)類(lèi)別中的一個(gè)。

使用建議

基于以上實(shí)驗(yàn)結(jié)果，我們給出以下使用建議（部分），完整內(nèi)容請(qǐng)查看我們的技術(shù)報(bào)告。

初始學(xué)習(xí)率是非常重要的一個(gè)參數(shù)（不論是BERT還是其他模型），需要根據(jù)目標(biāo)任務(wù)進(jìn)行調(diào)整。

ERNIE的最佳學(xué)習(xí)率和BERT/BERT-wwm相差較大，所以使用ERNIE時(shí)請(qǐng)務(wù)必調(diào)整學(xué)習(xí)率（基于以上實(shí)驗(yàn)結(jié)果，ERNIE需要的初始學(xué)習(xí)率較高）。

由于BERT/BERT-wwm使用了維基百科數(shù)據(jù)進(jìn)行訓(xùn)練，故它們對(duì)正式文本建模較好；而ERNIE使用了額外的百度百科、貼吧、知道等網(wǎng)絡(luò)數(shù)據(jù)，它對(duì)非正式文本（例如微博等）建模有優(yōu)勢(shì)。

在長(zhǎng)文本建模任務(wù)上，例如閱讀理解、文檔分類(lèi)，BERT和BERT-wwm的效果較好。

如果目標(biāo)任務(wù)的數(shù)據(jù)和預(yù)訓(xùn)練模型的領(lǐng)域相差較大，請(qǐng)?jiān)谧约旱臄?shù)據(jù)集上進(jìn)一步做預(yù)訓(xùn)練。

如果要處理繁體中文數(shù)據(jù)，請(qǐng)使用BERT或者BERT-wwm。因?yàn)槲覀儼l(fā)現(xiàn)ERNIE的詞表中幾乎沒(méi)有繁體中文。

聲明

雖然我們極力的爭(zhēng)取得到穩(wěn)定的實(shí)驗(yàn)結(jié)果，但實(shí)驗(yàn)中難免存在多種不穩(wěn)定因素（隨機(jī)種子，計(jì)算資源，超參），故以上實(shí)驗(yàn)結(jié)果僅供學(xué)術(shù)研究參考。由于ERNIE的原始發(fā)布平臺(tái)是PaddlePaddle（https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE），我們無(wú)法保證在本報(bào)告中的效果能反映其真實(shí)性能（雖然我們?cè)谌舾蓴?shù)據(jù)集中復(fù)現(xiàn)了效果）。同時(shí)，上述使用建議僅供參考，不能作為任何結(jié)論性依據(jù)。

該項(xiàng)目不是谷歌官方發(fā)布的中文Whole Word Masking預(yù)訓(xùn)練模型。

總結(jié)

我們發(fā)布了基于全詞覆蓋的中文BERT預(yù)訓(xùn)練模型，并在多個(gè)自然語(yǔ)言處理數(shù)據(jù)集上對(duì)比了BERT、ERNIE以及BERT-wwm的效果。實(shí)驗(yàn)結(jié)果表明，在大多數(shù)情況下，采用了全詞覆蓋的預(yù)訓(xùn)練模型（ERNIE，BERT-wwm）能夠得到更優(yōu)的效果。由于這些模型在不同任務(wù)上的表現(xiàn)不一致，我們也給出了若干使用建議，并且希望能夠進(jìn)一步促進(jìn)中文信息處理的研究與發(fā)展。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1209

瀏覽量
24827
自然語(yǔ)言處理

自然語(yǔ)言處理

+關(guān)注

關(guān)注
1

文章
619

瀏覽量
13639

原文標(biāo)題：刷新中文閱讀理解水平，哈工大訊飛聯(lián)合發(fā)布基于全詞覆蓋中文BERT預(yù)訓(xùn)練模型

文章出處：【微信號(hào)：rgznai100，微信公眾號(hào)：rgznai100】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

科大訊飛星火大模型升級(jí)發(fā)布會(huì)回顧

發(fā)布首個(gè)基于全國(guó)產(chǎn)算力平臺(tái)訓(xùn)練的具備深度思考和推理能力的大模型——訊飛星火深度推理模型X1，

發(fā)表于 01-16 14:51 ?829次閱讀

科大訊飛即將發(fā)布訊飛星火深度推理模型X1

近日，科大訊飛在1月7日成功舉辦的辦公智能體產(chǎn)品升級(jí)發(fā)布會(huì)上，宣布了一項(xiàng)令人振奮的新進(jìn)展。據(jù)科大訊飛官方透露，公司將于1月15日正式對(duì)外發(fā)布

發(fā)表于 01-08 10:30 ?321次閱讀

阿里云與零一萬(wàn)物戰(zhàn)略合作，成立產(chǎn)業(yè)大模型聯(lián)合實(shí)驗(yàn)室

近日，阿里云與業(yè)界領(lǐng)先的大模型企業(yè)零一萬(wàn)物宣布達(dá)成模型平臺(tái)業(yè)務(wù)的戰(zhàn)略合作。此次合作的核心內(nèi)容是雙方將共同成立“產(chǎn)業(yè)大模型聯(lián)合實(shí)驗(yàn)室”，旨在加

發(fā)表于 01-03 11:12 ?240次閱讀

小米與聚飛光電成立聯(lián)合實(shí)驗(yàn)室

近日，“小米&聚飛聯(lián)合實(shí)驗(yàn)室”在惠州聚飛正式揭牌成立。該實(shí)驗(yàn)室將以Mini背光技術(shù)創(chuàng)新為主要方向，進(jìn)一步強(qiáng)化雙方在顯示終端領(lǐng)域的多元化合作。

發(fā)表于 11-27 10:45 ?242次閱讀

科大訊飛發(fā)布訊飛星火4.0 Turbo大模型及星火多語(yǔ)言大模型

，科大訊飛以其一貫的創(chuàng)新精神，開(kāi)創(chuàng)性地發(fā)布了星火多語(yǔ)言大模型。這一創(chuàng)新之舉不僅進(jìn)一步鞏固了科大訊飛在中文

發(fā)表于 10-24 13:58 ?463次閱讀

華工科技聯(lián)合哈工大實(shí)現(xiàn)國(guó)內(nèi)首臺(tái)激光智能除草機(jī)器人落地

華工科技黨委書(shū)記、董事長(zhǎng)、總裁馬新強(qiáng)一行赴哈爾濱對(duì)哈爾濱工業(yè)大學(xué)機(jī)器人技術(shù)與系統(tǒng)全國(guó)重點(diǎn)實(shí)驗(yàn)室（后簡(jiǎn)稱(chēng)哈工大機(jī)器人實(shí)驗(yàn)室）、愛(ài)輝區(qū)智能激光除草機(jī)器人試點(diǎn)基地進(jìn)行實(shí)地調(diào)研，代表華工科技中央研究院同

發(fā)表于 09-06 10:45 ?897次閱讀

榮耀與智譜攜手共建AI大模型聯(lián)合實(shí)驗(yàn)室

近日，榮耀終端有限公司與北京智譜華章科技有限公司正式攜手，共同宣布成立AI大模型技術(shù)聯(lián)合實(shí)驗(yàn)室，并簽署了戰(zhàn)略合作協(xié)議。此次合作標(biāo)志著雙方在人工智能領(lǐng)域的深度合作邁入新階段，共同致力于為用戶(hù)帶來(lái)前所未有的智能體驗(yàn)。

發(fā)表于 09-03 18:15 ?1087次閱讀

MediaTek與小米集團(tuán)聯(lián)合實(shí)驗(yàn)室正式揭幕

MediaTek 宣布攜手小米集團(tuán)持續(xù)強(qiáng)化戰(zhàn)略合作，共同開(kāi)啟更深層次的多元合作，并為位于小米深圳研發(fā)總部的「聯(lián)合實(shí)驗(yàn)室」揭牌。此次「聯(lián)合實(shí)驗(yàn)室」的揭幕將進(jìn)一步強(qiáng)化雙方合作伙伴關(guān)系，推動(dòng)

發(fā)表于 07-03 14:52 ?752次閱讀

中山聯(lián)合光電：精密光學(xué)實(shí)驗(yàn)室簽約落地長(zhǎng)春理工大學(xué)中山研究院

5月7日，中山聯(lián)合光電研究院有限公司與長(zhǎng)春理工大學(xué)中山研究院“付秀華精密光學(xué)薄膜實(shí)驗(yàn)室”簽約儀式在中山聯(lián)合光電科技股份有限公司正式舉行。聯(lián)合

發(fā)表于 05-10 10:08 ?846次閱讀

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練

大語(yǔ)言模型的核心特點(diǎn)在于其龐大的參數(shù)量，這賦予了模型強(qiáng)大的學(xué)習(xí)容量，使其無(wú)需依賴(lài)微調(diào)即可適應(yīng)各種下游任務(wù)，而更傾向于培養(yǎng)通用的處理能力。然而，隨著學(xué)習(xí)容量的增加，對(duì)預(yù)訓(xùn)練數(shù)據(jù)的需求也相

發(fā)表于 05-07 17:10

全志科技與佰維存儲(chǔ)簽署聯(lián)合實(shí)驗(yàn)室合作協(xié)議

近日，珠海全志科技股份有限公司與深圳佰維存儲(chǔ)科技股份有限公司在深圳佰維總部正式簽署聯(lián)合實(shí)驗(yàn)室合作協(xié)議。此次合作旨在加強(qiáng)SoC平臺(tái)與存儲(chǔ)器之間的適配和測(cè)試驗(yàn)證工作。

發(fā)表于 05-06 16:01 ?493次閱讀

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

模型架構(gòu)奠定基礎(chǔ)。然后，引介一些經(jīng)典的預(yù)訓(xùn)練模型，如BERT、GPT等。最后，解讀ChatGPT和LLaMA系列

發(fā)表于 05-05 12:17

西井科技和香港理工大學(xué)簽署合作協(xié)議，將共建聯(lián)合創(chuàng)新實(shí)驗(yàn)室

西井科技和香港理工大學(xué)簽署了人工智能和自動(dòng)駕駛方面的深度產(chǎn)學(xué)研合作協(xié)議，將共建聯(lián)合創(chuàng)新實(shí)驗(yàn)室，雙方共同探索該領(lǐng)域的前沿技術(shù)和應(yīng)用實(shí)踐。

發(fā)表于 04-29 09:42 ?625次閱讀

AI+教育深圳市中小學(xué)聯(lián)合實(shí)驗(yàn)室正式啟用

4月18日，深圳市中小學(xué)人工智能聯(lián)合實(shí)驗(yàn)室在深圳高級(jí)中學(xué)（集團(tuán)）南校區(qū)啟用。去年，深圳市教育局發(fā)布推進(jìn)中小學(xué)人工智能教育工作方案，提出要建成具有深圳特色的人工智能教育課程體系，構(gòu)建社會(huì)資源支持

發(fā)表于 04-22 10:07 ?261次閱讀

全志科技與佰維存儲(chǔ)簽署建立聯(lián)合實(shí)驗(yàn)室合作協(xié)議

近日，珠海全志科技股份有限公司與深圳佰維存儲(chǔ)科技股份有限公司在深圳佰維總部簽署建立聯(lián)合實(shí)驗(yàn)室合作協(xié)議。

發(fā)表于 04-16 10:23 ?644次閱讀