十大网站免费货源,亚洲另类在线观看,性色生活片在线观看

近日，谷歌AI團(tuán)隊(duì)新發(fā)布的BERT模型，在NLP業(yè)內(nèi)引起巨大反響。BERT在機(jī)器閱讀理解測(cè)試SQuAD1.1中表現(xiàn)出驚人的成績(jī)：全部?jī)蓚€(gè)衡量指標(biāo)上全面超越人類(lèi)，并且還在11種不同NLP任務(wù)中創(chuàng)出最佳成績(jī)。這項(xiàng)工作被認(rèn)為是NLP領(lǐng)域里程碑式的進(jìn)步。新智元專(zhuān)欄作者鄧侃博士對(duì)這篇論文進(jìn)行了詳細(xì)解讀。

一個(gè)完整的深度學(xué)習(xí)系統(tǒng)，通常包括以下四個(gè)部分，1. 應(yīng)用場(chǎng)景、2. 模型、3. 訓(xùn)練數(shù)據(jù)、4. 算力。

從2018年年初以來(lái)，深度學(xué)習(xí)在語(yǔ)言處理方面，一直沒(méi)有特別靚麗的突破性進(jìn)展。三天前，2018年10月11日，谷歌人工智能語(yǔ)言研究組發(fā)表了一篇論文，立刻引起業(yè)界巨大反響。

這篇論文的題目是，《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》。這個(gè)題目很直白，一眼望去就能猜得到，這篇文章至少會(huì)講到四大問(wèn)題中的三個(gè)，應(yīng)用場(chǎng)景、模型、訓(xùn)練數(shù)據(jù)。

論文地址：

https://arxiv.org/abs/1810.04805

多種應(yīng)用場(chǎng)景，與通用語(yǔ)言模型

自然語(yǔ)言處理（NLP）的應(yīng)用場(chǎng)景，從大的方面講，是對(duì)于語(yǔ)言文字的智能處理，包括閱讀理解、問(wèn)答對(duì)話(huà)、寫(xiě)作、翻譯等等。這些應(yīng)用場(chǎng)景，又可以細(xì)分成若干任務(wù)，包括從一連串字中識(shí)別詞，從一連串詞中識(shí)別詞組、從語(yǔ)句中識(shí)別主謂賓定語(yǔ)狀語(yǔ)、從語(yǔ)句中識(shí)別語(yǔ)氣情緒、從整篇文章中提煉摘要、根據(jù)提問(wèn)從整篇文章中尋找答案，等等。

這篇論文介紹了一種模型，BERT，它至少能解決 NLP 諸多任務(wù)中的 11 種，包括：

* 淘寶上有很多用戶(hù)評(píng)論，能否把每一條用戶(hù)轉(zhuǎn)換成評(píng)分？-2、-1、0、1、2，其中 -2 是極差，+2 是極好。假如有這樣一條用戶(hù)評(píng)語(yǔ)，“買(mǎi)了一件鹿晗同款襯衫，沒(méi)想到，穿在自己身上，不像小鮮肉，倒像是廚師”，請(qǐng)問(wèn)這條評(píng)語(yǔ)，等同于 -2，還是其它？

* 當(dāng)用戶(hù)提問(wèn)，“兩歲的男孩為什么食欲不振”，深度學(xué)習(xí)是否可以從大量書(shū)籍中，自動(dòng)摘錄相關(guān)內(nèi)容，并組織成流暢的語(yǔ)言，回答用戶(hù)提問(wèn)？

用同一種模型，解決多種不同任務(wù)。這涉及到一個(gè)十分激進(jìn)的猜想：在以往的實(shí)踐中，我們通常為每種具體任務(wù)，單獨(dú)定制模型。是否存在一種“通用”的語(yǔ)言模型，能夠用它來(lái)完成多種不同的任務(wù)？

BERT 的研究者們，試圖證明Deep Bidirectional Transformers就是這樣一種通用的語(yǔ)言模型，它不僅能解決 11 種不同的 NLP 任務(wù)，而且在所有任務(wù)上的精度，大幅度領(lǐng)先以往其它模型，甚至超越人類(lèi)。

為什么Deep Bidirectional Transformers能夠擔(dān)當(dāng)通用的語(yǔ)言模型？論文沒(méi)有提供嚴(yán)格的數(shù)學(xué)證明，只是用 11 種不同的具體任務(wù)，來(lái)經(jīng)驗(yàn)地驗(yàn)證這個(gè)模型的通用性。

Deep Bidirectional Transformers，這三個(gè)詞分別是什么意思？

假如在一個(gè)句子 “中國(guó)的首都是北京”中，先遮蓋某一個(gè)詞，譬如 “首都”。然后，把遮蓋后的殘缺的句子，“中國(guó)的[mask]是北京”，輸入進(jìn)電腦，讓電腦猜一猜 [mask] 應(yīng)該是什么詞。

電腦可以從前往后猜，也就是根據(jù)前文“中國(guó)/的” ，猜測(cè) [mask] 會(huì)是什么詞。電腦也可以從后往前猜，也就是根據(jù)后文 “北京/是”，猜測(cè)[mask] 會(huì)是什么詞。這兩種方式都是單向預(yù)測(cè)unidirectional。

很顯然，單向預(yù)測(cè)不能完整地理解整個(gè)語(yǔ)句的語(yǔ)義。于是研究者們嘗試雙向預(yù)測(cè)。把從前往后，與從后往前的兩個(gè)預(yù)測(cè)，拼接在一起 [mask1/mask2]，這就是雙向預(yù)測(cè) bi-directional。細(xì)節(jié)參閱《Neural Machine Translation by Jointly Learning to Align and Translate》。

BERT 的作者認(rèn)為，bi-directional 仍然不能完整地理解整個(gè)語(yǔ)句的語(yǔ)義，更好的辦法是用上下文全向來(lái)預(yù)測(cè)[mask]，也就是用 “中國(guó)/的/ .. /是/北京”，來(lái)預(yù)測(cè) [mask]。BERT 的作者把上下文全向的預(yù)測(cè)方法，稱(chēng)之為 deep bi-directional。

如何來(lái)實(shí)現(xiàn)上下文全向預(yù)測(cè)呢？BERT 的作者建議使用Transformer 模型。這個(gè)模型在《Attention Is All You Need》一文中，被首次提出。論文發(fā)表后，立刻引起業(yè)界轟動(dòng)，成為深度學(xué)習(xí) NLP 的里程碑式的進(jìn)展。

Transformer模型的核心是聚焦機(jī)制，對(duì)于一個(gè)語(yǔ)句，可以同時(shí)啟用多個(gè)聚焦點(diǎn)，而不必局限于從前往后的或者從后往前的，序列的串行處理。所以，幾乎不用修改 Transformer 的代碼，就可以完成上下文全向的預(yù)測(cè)任務(wù)。

訓(xùn)練數(shù)據(jù)與 Pre-training

模型不僅需要功能強(qiáng)勁的結(jié)構(gòu)，而且還必須具備正確的參數(shù)，這樣才能擔(dān)當(dāng)通用語(yǔ)言模型，準(zhǔn)確理解文章語(yǔ)句的語(yǔ)義。

BERT 這篇論文，嘗試了兩種規(guī)模的 transformer 模型。第一個(gè)模型的規(guī)模較小，總共有 12 層模塊（L=12）、在每個(gè)模塊中語(yǔ)義數(shù)值向量的維度為 786（H=768）、聚焦探頭 12 個(gè)（A=12）。整個(gè)小模型，需要訓(xùn)練的模型參數(shù)的總數(shù)是 12 * 768 * 12 = 110M。大模型 L=24，H=1024，A=16, 大模型參數(shù)的總數(shù)是 24 * 1024 * 16 = 393M。

幾億個(gè)參數(shù)需要訓(xùn)練，自然需要海量的訓(xùn)練數(shù)據(jù)。如果全部用人力標(biāo)注的辦法，來(lái)制作訓(xùn)練數(shù)據(jù)，人力成本太大。從哪里收集這些海量的訓(xùn)練數(shù)據(jù)？

2003年發(fā)表的《A Neural Probabilistic Language Model》論文，提出一個(gè)收集訓(xùn)練數(shù)據(jù)的辦法：每一篇文章，從新聞到小說(shuō)到論文，天生都是訓(xùn)練數(shù)據(jù)，不需要額外做人工標(biāo)注。

受這篇論文的啟發(fā)，BERT 研究者們嘗試用以下方法，訓(xùn)練模型參數(shù)。方法分兩步，

1. 把一篇文章中 15% 的詞匯遮蓋，讓模型根據(jù)上下文全向地預(yù)測(cè)被遮蓋的詞。通過(guò)預(yù)測(cè)任務(wù)，來(lái)初步訓(xùn)練 Transformer 模型的參數(shù)。

假如有 1 萬(wàn)篇文章，每篇文章平均由 1 千個(gè)詞匯構(gòu)成，隨機(jī)遮蓋 15% 的詞匯，那么模型需要預(yù)測(cè) 150 萬(wàn)個(gè)詞匯。

2. 用一個(gè)新任務(wù)，識(shí)別兩個(gè)句子是否連續(xù)，來(lái)進(jìn)一步訓(xùn)練模型參數(shù)。

譬如從上述 1 萬(wàn)篇文章中，挑選 20 萬(wàn)對(duì)語(yǔ)句，總共 40 萬(wàn)句語(yǔ)句。在這些語(yǔ)句中，經(jīng)過(guò)第一步的處理，15% 的詞匯被遮蓋（某些細(xì)節(jié)，不必絮述）。

挑選 20 萬(wàn)對(duì)語(yǔ)句的時(shí)候，讓其中一半是上下文中連續(xù)的兩個(gè)語(yǔ)句，剩余的一半，由不是連續(xù)的兩個(gè)語(yǔ)句構(gòu)成。然后讓 Transformer 模型來(lái)識(shí)別這 20 萬(wàn)對(duì)語(yǔ)句中，哪些對(duì)子是連續(xù)的，哪些對(duì)子不連續(xù)。

這兩步訓(xùn)練合在一起，稱(chēng)為預(yù)訓(xùn)練 pre-training。訓(xùn)練結(jié)束后的 Transformer 模型，就是通用的語(yǔ)言模型，BERT。

Pre-training 與 Fine-tuning

預(yù)訓(xùn)練 pre-training 出來(lái)的通用模型，能夠正確理解語(yǔ)句和文章的語(yǔ)義。通用模型不能直接用于解決不同的 NLP 具體問(wèn)題，需要給通用模型穿一件外套。

BERT 論文中的 Figure 3，描述了針對(duì)四類(lèi)不同問(wèn)題的四種不同外套。

Figure 3

不僅模型需要穿外套，而且外套也有參數(shù)，找到這些參數(shù)的最優(yōu)值，是精加工 fine-tuning 的目標(biāo)。另外，在精加工的過(guò)程中，有時(shí)也自動(dòng)地順帶微調(diào)BERT 通用模型的一些參數(shù)。

對(duì)模型外套進(jìn)行精加工時(shí)，不同具體問(wèn)題，需要不同的訓(xùn)練數(shù)據(jù)。這篇論文，嘗試了 11 種不同問(wèn)題的多種公開(kāi)的，經(jīng)過(guò)人工標(biāo)注的訓(xùn)練數(shù)據(jù)集。

模型的參數(shù)高達(dá)幾億個(gè)，用海量的文章作為 pre-training 的訓(xùn)練數(shù)據(jù)，再用多種人工標(biāo)注的訓(xùn)練數(shù)據(jù)，來(lái)訓(xùn)練模型，找到模型參數(shù)的最優(yōu)值。不難想象，計(jì)算成本非常非常高。

BERT 論文中說(shuō)，他們動(dòng)用了谷歌 Cloud AI 資源，用了 64 顆 TPU，算了 4 天，模型參數(shù)尋優(yōu)的訓(xùn)練過(guò)程才收斂。

如果不是用 TPU，而是用普通 GPU，不知道會(huì)需要多長(zhǎng)時(shí)間。

按谷歌 Cloud AI的正常價(jià)格，每訓(xùn)練一次，需要 9.6 萬(wàn)人民幣。即便這些天 Google Cloud AI 打七折，也需要 1.4 萬(wàn)。如果程序有 bugs，需要返工，計(jì)算成本相當(dāng)高。

深度學(xué)習(xí) NLP四大里程碑

前文說(shuō)到，“一個(gè)完整的深度學(xué)習(xí)系統(tǒng)，通常包括以下四個(gè)部分，1. 應(yīng)用場(chǎng)景、2. 模型、3. 訓(xùn)練數(shù)據(jù)、4. 算力”。BERT 這篇論文，一口氣把四個(gè)問(wèn)題，全部說(shuō)到了。

有業(yè)界老師認(rèn)為，深度學(xué)習(xí) NLP 到目前為止，有四大里程碑，分別是，

1.2003年2月，深度學(xué)習(xí)大神 Yoshua Bengio，與他的學(xué)生共同發(fā)表論文《A Neural Probabilistic Language Model》，把深度學(xué)習(xí)引入自然處理領(lǐng)域，把自然語(yǔ)言的詞匯，轉(zhuǎn)換成數(shù)值向量。從此，自然語(yǔ)言處理的基本研究方法，發(fā)生質(zhì)的飛躍。這是深度學(xué)習(xí) NLP 的第一個(gè)里程碑。

2. 2016年5月，Sequence to Sequence 技術(shù)日臻成熟，尤其是引入聚焦機(jī)制，如虎添翼。這是深度學(xué)習(xí) NLP 的第二個(gè)里程碑，代表作是Yoshua Bengio 大神與他的學(xué)生們，共同執(zhí)筆的論文《Neural Machine Translation by Jointly Learning Align and Translate》。

3. 2017年6月，谷歌的 Ashish Vaswani 等人，發(fā)表論文《Attention Is All You Need》，對(duì) NLP 使用的深度學(xué)習(xí)模型，做了革命性的改進(jìn)。這是深度學(xué)習(xí) NLP 的第三個(gè)里程碑。

4. 2018年10月，谷歌的 Jacob Devlin 等人，發(fā)表的這篇 BERT 論文，很可能是第四個(gè)里程碑。不僅提議了一個(gè)通用的語(yǔ)言模型，而且用非監(jiān)督的辦法做預(yù)訓(xùn)練，用有監(jiān)督的辦法做精加工，取得了驚艷的效果。

2018年以后，會(huì)發(fā)生什么？很可能會(huì)出現(xiàn)若干深度學(xué)習(xí) NLP 產(chǎn)品，獲得巨大的商業(yè)成功。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6217

瀏覽量
106976
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5540

瀏覽量
122207

原文標(biāo)題：狂破11項(xiàng)記錄，谷歌年度最強(qiáng)NLP論文到底強(qiáng)在哪里？

文章出處：【微信號(hào)：AI_era，微信公眾號(hào)：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

現(xiàn)在研究微電網(wǎng) 系統(tǒng)穩(wěn)定性，，在阻抗建模這塊，阻抗表現(xiàn)出正負(fù)阻尼特性。。

如題，現(xiàn)在研究微電網(wǎng) 系統(tǒng)穩(wěn)定性，，在阻抗建模這塊，阻抗表現(xiàn)出正負(fù)阻尼特性。。對(duì)正負(fù)阻抗理解不是很清楚，希望大神指點(diǎn)一下多多謝謝

發(fā)表于 09-16 21:38

飛機(jī)表現(xiàn)出什么現(xiàn)象才叫調(diào)好了？

一種說(shuō)法是飛機(jī)緩慢往一邊傾斜但不抖動(dòng)就好了應(yīng)該信哪種??？I值是定角度能力但是加小了沒(méi)用大了就抖D值不知道調(diào)到什么程度就好淺談四軸PID的那文章看了又看但是不知道三個(gè)參數(shù)分別讓飛機(jī)表現(xiàn)出什么現(xiàn)象才叫調(diào)好？望高人指點(diǎn)一番

發(fā)表于 08-01 22:14

為什么DAC控制寄存器在某些值上會(huì)表現(xiàn)出某種奇怪的行為？

：GET_PERI_REG_BITS ( SENS_SAR_DAC_CTRL1_REG , 7 , 0 ) ;我的疑問(wèn)是為什么 DAC 控制寄存器在某些值上會(huì)表現(xiàn)出這種奇怪的行為？

發(fā)表于 03-02 06:18

中頻逆變點(diǎn)焊機(jī)在控制系統(tǒng)部分表現(xiàn)出來(lái)的優(yōu)勢(shì)

：焊接故障率低。得益于優(yōu)化的控制系統(tǒng)，中頻逆變點(diǎn)焊機(jī)在應(yīng)用的時(shí)候，出現(xiàn)焊接故障的幾率很低，能夠確保取得良好的焊接效果。上述這些就是中頻逆變點(diǎn)焊機(jī)在控制系統(tǒng)部分表現(xiàn)出來(lái)的優(yōu)勢(shì)，這些優(yōu)勢(shì)都可以促使設(shè)備呈

發(fā)表于 03-02 10:46

尚德太陽(yáng)能組件在第三方的PID測(cè)試中表現(xiàn)優(yōu)異

世界最大的太陽(yáng)能組件生廠(chǎng)商尚德太陽(yáng)能電力控股有限公司（NYSE：STP）今天宣布，其 Wd 多晶、Wd 單晶和 Ve 多晶系列組件在近期與世界權(quán)威的 VDE 測(cè)試機(jī)構(gòu)合作的第三方測(cè)試中表現(xiàn)出

發(fā)表于 11-02 10:08 ?1201次閱讀

機(jī)器閱讀理解領(lǐng)域頂級(jí)賽事SQuAD刷新排名，阿里打破世界紀(jì)錄

82.304的成績(jī)。據(jù)悉，SQuAD比賽構(gòu)建了一個(gè)大規(guī)模的機(jī)器閱讀理解數(shù)據(jù)集（包含10萬(wàn)個(gè)問(wèn)題），文章來(lái)源于500多篇維基百科文章。

發(fā)表于 01-14 05:58 ?2523次閱讀

機(jī)器閱讀理解的含義以及如何工作

機(jī)器閱讀理解，雖然看起來(lái)只是讓AI上陣來(lái)一場(chǎng)考試。但是卻是自然語(yǔ)言處理技術(shù)中，繼語(yǔ)音判斷、語(yǔ)義理解之后最大的挑戰(zhàn)：讓智能體

發(fā)表于 01-16 13:47 ?6949次閱讀

剝開(kāi)機(jī)器閱讀理解的神秘外衣

，就像斯坦福大學(xué)著名的AI競(jìng)賽ImageNet一樣，都是由一個(gè)官方給定的數(shù)據(jù)集+一場(chǎng)跑分競(jìng)賽組成。各大科技巨頭和世界名校的AI研究團(tuán)隊(duì)是主要參賽選手。百度此次參與的機(jī)器閱讀理解比賽，是微軟在

發(fā)表于 03-19 18:47 ?799次閱讀

可穿戴技術(shù)在各領(lǐng)域表現(xiàn)出廣闊的應(yīng)用潛力

隨著計(jì)算機(jī)軟硬件和互聯(lián)網(wǎng)技術(shù)的高速發(fā)展，可穿戴式智能設(shè)備的形態(tài)開(kāi)始多樣化，逐漸在工業(yè)、醫(yī)療健康、軍事、教育、娛樂(lè)等領(lǐng)域表現(xiàn)出廣闊的應(yīng)用潛力。

發(fā)表于 01-24 11:33 ?4928次閱讀

人工智能機(jī)器表現(xiàn)出的智能程度極其有限不可能取代人類(lèi)

人工智能領(lǐng)域，人工智能機(jī)器因?yàn)闊o(wú)法如人一樣理解常識(shí)知識(shí)，而使人工智能機(jī)器表現(xiàn)出的智能程度極其有限。

發(fā)表于 03-21 16:31 ?1689次閱讀

還在愁到哪里找到需要的機(jī)器學(xué)習(xí)數(shù)據(jù)集嗎？

應(yīng)閱讀文章的一段文本。SQuAD 包含 500 多篇文章的 10 萬(wàn)對(duì)以上的問(wèn)答對(duì)，因此規(guī)模明顯大于之前的閱讀理解數(shù)據(jù)集。 SQuAD2.0

發(fā)表于 03-29 11:45 ?2514次閱讀

小i機(jī)器人在國(guó)際權(quán)威機(jī)器閱讀理解評(píng)測(cè)SQuAD1.1挑戰(zhàn)賽中排名全球第三

憑借最新研究成果——BERT+WWM+MT的單模型，在由斯坦福大學(xué)發(fā)起的國(guó)際權(quán)威機(jī)器閱讀理解評(píng)測(cè)SQuA

發(fā)表于 09-01 09:04 ?3754次閱讀

Kuka新推出SCARA機(jī)器人：在小零件裝配，材料處理等應(yīng)用中表現(xiàn)出色

Kuka推出了新系列的SCARA機(jī)器人。該公司表示，新型KR SCARA關(guān)節(jié)臂機(jī)器人是工業(yè)生產(chǎn)的可靠助手，在小零件裝配，材料處理和檢查任務(wù)等應(yīng)用中表現(xiàn)出色。 Kuka稱(chēng)，

發(fā)表于 10-15 12:02 ?2819次閱讀

會(huì)話(huà)式機(jī)器閱讀理解概述

1 會(huì)話(huà)式機(jī)器閱讀理解是什么？如何在會(huì)話(huà)式閱讀理解里面能夠建模它的implicative reasoning，即如何去學(xué)習(xí)會(huì)話(huà)與

發(fā)表于 11-25 16:07 ?2432次閱讀

功率 MOSFET 在同步整流器應(yīng)用中表現(xiàn)出色

功率 MOSFET 在同步整流器應(yīng)用中表現(xiàn)出色

發(fā)表于 11-15 18:30 ?3次下載