色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌再次發(fā)布BERT的多語言模型和中文模型

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-11-08 09:50 ? 次閱讀

今天,在開源最強NLP模型BERT的TensorFlow代碼和預(yù)訓(xùn)練模型的基礎(chǔ)上,谷歌AI團(tuán)隊再次發(fā)布一個多語言模型和一個中文模型。

上周,谷歌AI團(tuán)隊開源了備受關(guān)注的“最強NLP模型”BERT的TensorFlow代碼和預(yù)訓(xùn)練模型,不到一天時間,收獲3000多星!

今天,谷歌再次發(fā)布BERT的多語言模型和中文模型!

BERT,全稱是BidirectionalEncoderRepresentations fromTransformers,是一種預(yù)訓(xùn)練語言表示的新方法。

BERT有多強大呢?它在機(jī)器閱讀理解頂級水平測試SQuAD1.1中表現(xiàn)出驚人的成績:全部兩個衡量指標(biāo)上全面超越人類!并且還在11種不同NLP測試中創(chuàng)出最佳成績,包括將GLUE基準(zhǔn)推至80.4%(絕對改進(jìn)7.6%),MultiNLI準(zhǔn)確度達(dá)到86.7% (絕對改進(jìn)率5.6%)等。

新智元近期對BERT模型作了詳細(xì)的報道和專家解讀:

NLP歷史突破!谷歌BERT模型狂破11項紀(jì)錄,全面超越人類!

狂破11項記錄,谷歌年度最強NLP論文到底強在哪里?

解讀谷歌最強NLP模型BERT:模型、數(shù)據(jù)和訓(xùn)練

如果你已經(jīng)知道BERT是什么,只想馬上開始使用,可以下載預(yù)訓(xùn)練過的模型,幾分鐘就可以很好地完成調(diào)優(yōu)。

戳這里直接使用:

https://github.com/google-research/bert/blob/master/multilingual.md

模型

目前有兩種多語言模型可供選擇。我們不打算發(fā)布更多單語言模型,但可能會在未來發(fā)布這兩種模型的BERT-Large版本:

BERT-Base, Multilingual:102 languages, 12-layer, 768-hidden, 12-heads, 110M parameters

BERT-Base, Chinese:Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters

多語言模型支持的語言是維基百科上語料最大的前100種語言(泰語除外)。多語言模型也包含中文(和英文),但如果你的微調(diào)數(shù)據(jù)僅限中文,那么中文模型可能會產(chǎn)生更好的結(jié)果。

結(jié)果

為了評估這些系統(tǒng),我們使用了XNLI dataset,它是MultiNLI的一個版本,其中dev集和test集已經(jīng)(由人類)翻譯成15種語言。需要注意的是,訓(xùn)練集是機(jī)器翻譯的(我們使用的是XNLI提供的翻譯,而不是Google NMT)。

以下6種主要語言的評估結(jié)果:

前兩行是XNLI baseline的結(jié)果,后三行是使用BERT的結(jié)果。

Translate Train表示MultiNLI的訓(xùn)練集是從英語用機(jī)器翻譯成外語的。所以訓(xùn)練和評估都是用外語完成的。遺憾的是,由于是用機(jī)器翻譯的數(shù)據(jù)進(jìn)行訓(xùn)練,因此無法量化較低的精度在多大程度上歸因于機(jī)器翻譯的質(zhì)量,多大程度上歸因于預(yù)訓(xùn)練模型的質(zhì)量。

Translate Test表示XNLI測試集是從外語用機(jī)器翻譯成英語的。因此,訓(xùn)練和評估都是用英語進(jìn)行的。但是,由于測試評估是在機(jī)器翻譯的英語上進(jìn)行的,因此準(zhǔn)確性取決于機(jī)器翻譯系統(tǒng)的質(zhì)量。

Zero Shot表示多語言BERT模型在英語MultiNLI上進(jìn)行了微調(diào),然后在外語XNLI測試集上進(jìn)行了評估。在這種情況下,預(yù)訓(xùn)練和微調(diào)的過程都不涉及機(jī)器翻譯。

請注意,英語的結(jié)果比MultiNLI baseline的84.2要差,因為這個訓(xùn)練使用的是Multilingual BERT模型,而不是English-only的BERT模型。這意味著對于語料資源大的語言,多語言模型的表現(xiàn)不如單語言模型。但是,訓(xùn)練和維護(hù)數(shù)十種單語言模型是不可行的。因此,如果你的目標(biāo)是使用英語和中文以外的語言最大限度地提高性能,那么從我們的多語言模型開始,對你感興趣的語言數(shù)據(jù)進(jìn)行額外的預(yù)訓(xùn)練是有益的。

對于中文來說,用MultilingualBERT-Base和Chinese-onlyBERT-Base訓(xùn)練的中文模型的結(jié)果比較如下:

跟英語類似,單語言模型比多語言模型好3%。

Fine-tuning 示例

多語言模型不需要任何特殊考慮或更改API。我們在tokenization.py中更新了BasicTokenizer的實現(xiàn)以支持漢字的tokenization,但沒有更改 tokenization API。

為了測試新模型,我們修改了run_classifier.py以添加對XNLI數(shù)據(jù)集的支持。這是MultiNLI的15種語言版本,其中dev/test 集已經(jīng)經(jīng)過人工翻譯的,訓(xùn)練集已經(jīng)經(jīng)過機(jī)器翻譯。

要運行 fine-tuning 代碼,請下載XNLI dev/test set和XNLI機(jī)器翻譯的訓(xùn)練集,然后將兩個.zip文件解壓縮到目錄$XNLI_DIR中。

在XNLI上運行 fine-tuning。該語言被硬編碼為run_classifier.py(默認(rèn)為中文),因此如果要運行其他語言,請修改XnliProcessor。

這是一個大型數(shù)據(jù)集,因此在GPU上訓(xùn)練需要花費幾個小時(在Cloud TPU上大約需要30分鐘)。要快速運行實驗以進(jìn)行調(diào)試,只需將num_train_epochs設(shè)置為較小的值(如0.1)即可。

export BERT_BASE_DIR=/path/to/bert/chinese_L-12_H-768_A-12 # or multilingual_L-12_H-768_A-12export XNLI_DIR=/path/to/xnli python run_classifier.py --task_name=XNLI --do_train=true --do_eval=true --data_dir=$XNLI_DIR --vocab_file=$BERT_BASE_DIR/vocab.txt --bert_config_file=$BERT_BASE_DIR/bert_config.json --init_checkpoint=$BERT_BASE_DIR/bert_model.ckpt --max_seq_length=128 --train_batch_size=32 --learning_rate=5e-5 --num_train_epochs=2.0 --output_dir=/tmp/xnli_output/

使用 Chinese-only 模型,結(jié)果應(yīng)該是這樣的:

***** Eval results ***** eval_accuracy = 0.774116 eval_loss = 0.83554 global_step = 24543 loss = 0.74603訓(xùn)練細(xì)節(jié)

數(shù)據(jù)源和采樣

我們選擇的語言是維基百科上語料最大的前100種語言。將每種語言的整個Wikipedia轉(zhuǎn)儲數(shù)據(jù)(不包括用戶頁和討論頁)作為每種語言的訓(xùn)練數(shù)據(jù)。

然而,對于特定語言,維基百科的語料大小差異很大,而在神經(jīng)網(wǎng)絡(luò)模型中,低資源語言可能是“代表性不足”的(假設(shè)語言一定程度上在有限的模型容量中“競爭”)。

維基百科的語料大小也與該語言的使用者人數(shù)有關(guān),而且我們也不想為了一種特定語言在很小的數(shù)據(jù)集上執(zhí)行數(shù)千個epochs,造成過度擬合模型。

為了平衡這兩個因素,我們在訓(xùn)練前數(shù)據(jù)創(chuàng)建(以及WordPiece詞匯創(chuàng)建)期間對數(shù)據(jù)進(jìn)行了指數(shù)平滑加權(quán)。換句話說,假設(shè)一種語言的概率是P(L),例如P(English) = 0.21,表示在將所有維基百科總合在一起之后,21%的數(shù)據(jù)是英語的。我們通過某個因子S對每個概率求冪,然后重新規(guī)范化,并從這個分布中進(jìn)行采樣。

在這個示例中,我們使S = 0.7。因此,像英語這樣的高資源語言會被抽樣不足,而像冰島語這樣的低資源語言會被過度采樣。比如說,在原始分布中,英語比冰島語采樣率高1000倍,但在平滑后,英語的采樣率只高100倍。

Tokenization

對于Tokenization,我們使用110k共享的WordPiece詞匯表。單詞計數(shù)的加權(quán)方式與數(shù)據(jù)相同,因此低資源語言的加權(quán)會增大。 我們故意不使用任何標(biāo)記來表示輸入語言(以便zero-shot訓(xùn)練可以工作)。

因為中文沒有空白字符,所以在使用WordPiece之前,我們在CJK Unicode范圍內(nèi)的每個字符周圍添加了空格。這意味著中文被有效地符號化了。請注意,CJK Unicode block僅包含漢字字符,不包括朝鮮文/韓文或日語片假名/平假名,這些與其他語言一樣使用空格+ WordPiece進(jìn)行標(biāo)記化。

對于所有其他語言,我們應(yīng)用與英語相同的方法:(a)字母小寫+重音刪除,(b)標(biāo)點符號分割,(c)空白標(biāo)記化。 我們知道口音標(biāo)記在某些語言中具有重要意義,但認(rèn)為減少有效詞匯的好處可以彌補這一點。一般來說,BERT強大的上下文模型應(yīng)該能彌補刪除重音標(biāo)記而引入的歧義。

支持的語言

多語言模型支持維基百科上語料量最大的前100種語言。

但我們不得不排除的唯一一種語言是泰語,因為它是唯一一種不使用空格來劃分單詞的語言(除了漢語),而且每個單詞的字符太多,不能使用基于字符的tokenization。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6184

    瀏覽量

    105793
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    536

    瀏覽量

    10311
  • 機(jī)器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    139

    瀏覽量

    14922

原文標(biāo)題:谷歌最強NLP模型BERT官方中文版來了!多語言模型支持100種語言

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    ChatGPT 的多語言支持特點

    )技術(shù)迎來了巨大的挑戰(zhàn)和機(jī)遇。ChatGPT,作為一個領(lǐng)先的語言模型,其多語言支持的特點成為了它在眾多應(yīng)用場景中不可或缺的優(yōu)勢。 1. 多語言理解能力 ChatGPT 的
    的頭像 發(fā)表于 10-25 17:30 ?865次閱讀

    科大訊飛發(fā)布訊飛星火4.0 Turbo大模型及星火多語言模型

    ,科大訊飛以其一貫的創(chuàng)新精神,開創(chuàng)性地發(fā)布了星火多語言模型。這一創(chuàng)新之舉不僅進(jìn)一步鞏固了科大訊飛在中文和英文處理領(lǐng)域的領(lǐng)先地位,更將語言
    的頭像 發(fā)表于 10-24 13:58 ?443次閱讀

    谷歌全新推出開放式視覺語言模型PaliGemma

    這種熱烈的反響非常鼓舞人心,開發(fā)者們打造了一系列多樣的項目,例如用于印度語言多語言變體 Navarasa,以及設(shè)備端側(cè)動作模型 Octopus v2。開發(fā)者們展示了 Gemma 在打造極具影響力且易于使用的 AI 解決方案方面
    的頭像 發(fā)表于 10-15 17:37 ?426次閱讀

    使用OpenVINO 2024.4在算力魔方上部署Llama-3.2-1B-Instruct模型

    前面我們分享了《三步完成Llama3在算力魔方的本地量化和部署》。2024年9月25日,Meta又發(fā)布了Llama3.2:一個多語言大型語言模型(LLMs)的集合。
    的頭像 發(fā)表于 10-12 09:39 ?670次閱讀
    使用OpenVINO 2024.4在算力魔方上部署Llama-3.2-1B-Instruct<b class='flag-5'>模型</b>

    Mistral AI與NVIDIA推出全新語言模型Mistral NeMo 12B

    Mistral AI 和 NVIDIA 于近日共同發(fā)布了一款全新的領(lǐng)先語言模型Mistral NeMo 12B。開發(fā)者可以輕松定制和部署該模型,令其適用于支持聊天機(jī)器人、
    的頭像 發(fā)表于 07-27 11:04 ?697次閱讀

    谷歌發(fā)布新型大語言模型Gemma 2

    在人工智能領(lǐng)域,大語言模型一直是研究的熱點。近日,全球科技巨頭谷歌宣布,面向全球研究人員和開發(fā)人員,正式發(fā)布了其最新研發(fā)的大語言
    的頭像 發(fā)表于 06-29 09:48 ?470次閱讀

    【大語言模型:原理與工程實踐】大語言模型的評測

    ,例如將中文詩句“獨在異鄉(xiāng)為異客,每逢佳節(jié)倍思親”翻譯成英文。其次,多語言能力則評估模型對不同國家和地區(qū)語言的掌握程度,如將“我要出去吃晚飯”翻譯成日語。針對翻譯類評測任務(wù),我們主要關(guān)
    發(fā)表于 05-07 17:12

    【大語言模型:原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

    下游任務(wù)提供豐富的文本表示,如谷歌公司推出的BERT。(2) Decoder-Only 預(yù)訓(xùn)練語言模型:這類模型一般使用單向的 Decode
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    了如BERT和GPT等劃時代的模型BERT通過雙向訓(xùn)練增強了文本理解能力,而GPT則展示了強大的文本生成能力。 大語言模型,擁有數(shù)百億甚
    發(fā)表于 05-04 23:55

    這個多語言包 怎么搜不到

    大家好,這個多語言包怎么搜不到 seven language lib 誰有離線包不 感謝分享,
    發(fā)表于 03-24 10:06

    語言模型(LLMs)如何處理多語言輸入問題

    研究者們提出了一個框架來描述LLMs在處理多語言輸入時的內(nèi)部處理過程,并探討了模型中是否存在特定于語言的神經(jīng)元。
    發(fā)表于 03-07 14:44 ?676次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>(LLMs)如何處理<b class='flag-5'>多語言</b>輸入問題

    谷歌模型軟件有哪些功能

    谷歌模型軟件通常指的是谷歌推出的一系列人工智能模型和軟件工具,其中最具代表性的是Google Gemini。Google Gemini是谷歌
    的頭像 發(fā)表于 03-01 16:20 ?716次閱讀

    谷歌交互世界模型重磅發(fā)布

    谷歌模型
    北京中科同志科技股份有限公司
    發(fā)布于 :2024年02月28日 09:13:06

    谷歌大型模型終于開放源代碼,遲到但重要的開源戰(zhàn)略

    在人工智能領(lǐng)域,谷歌可以算是開源的鼻祖。今天幾乎所有的大語言模型,都基于谷歌在 2017 年發(fā)布的 Transformer 論文;
    發(fā)表于 02-22 18:14 ?483次閱讀
    <b class='flag-5'>谷歌</b>大型<b class='flag-5'>模型</b>終于開放源代碼,遲到但重要的開源戰(zhàn)略

    語言模型中的語言與知識:一種神秘的分離現(xiàn)象

    自然語言處理領(lǐng)域存在著一個非常有趣的現(xiàn)象:在多語言模型中,不同的語言之間似乎存在著一種隱含的對齊關(guān)系。
    發(fā)表于 02-20 14:53 ?570次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>中的<b class='flag-5'>語言</b>與知識:一種神秘的分離現(xiàn)象
    主站蜘蛛池模板: 暖暖日本在线手机免费完整版| 奶大B紧17p| 桃色园社区| 国产午夜精AV在线麻豆| 午夜福利合集1000在线| 国产色综合色产在线视频| 亚洲AV久久久噜噜噜噜| 花蝴蝶高清影视视频在线播放| 一本道久在线综合道| 芒果影院网站在线观看| 菠萝菠萝蜜免费播放高清| 肉奴隷 赤坂丽在线播放| 国产 日韩 欧美 综合 激情 | 哇嘎在线精品视频在线观看| 国产亚洲精品久久7777777| 伊人久久国产| 日韩欧美1区| 精品高潮呻吟99AV无码| 99国产精品人妻无码免费| 日韩欧美一区二区三区免费看| 国产精品综合AV一区二区国产馆| 亚洲午夜久久影院| 日韩人妻少妇一区二区三区| 好男人好资源视频高清| china男士同性视频tv| 亚洲精品AV中文字幕在线| 女张腿男人桶羞羞漫画| 果冻传媒2021精品影视| wwwxxc| 永久免费观看视频| 午夜性色一区二区三区不卡视频 | 精品日韩二区三区精品视频| av女优快播| 中文字幕乱码在线人视频| 素人约啪第五季| 免费xxx成年大片| 久久国产精品无码视欧美| 国产精品亚洲AV毛片一区二区三区 | 接吻吃胸摸下面啪啪教程| 高h乱np甄宓| 德国xxxx|