色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

BERT在機器閱讀理解測試SQuAD1.1中表現出驚人的成績

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-10-18 10:31 ? 次閱讀

近日,谷歌AI團隊新發布的BERT模型,在NLP業內引起巨大反響。BERT在機器閱讀理解測試SQuAD1.1中表現出驚人的成績:全部兩個衡量指標上全面超越人類,并且還在11種不同NLP任務中創出最佳成績。這項工作被認為是NLP領域里程碑式的進步。新智元專欄作者鄧侃博士對這篇論文進行了詳細解讀。

一個完整的深度學習系統,通常包括以下四個部分,1. 應用場景、2. 模型、3. 訓練數據、4. 算力。

從2018年年初以來,深度學習在語言處理方面,一直沒有特別靚麗的突破性進展。三天前,2018年10月11日,谷歌人工智能語言研究組發表了一篇論文,立刻引起業界巨大反響。

這篇論文的題目是,《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》。這個題目很直白,一眼望去就能猜得到,這篇文章至少會講到四大問題中的三個,應用場景、模型、訓練數據。

論文地址:

https://arxiv.org/abs/1810.04805

多種應用場景,與通用語言模型

自然語言處理(NLP)的應用場景,從大的方面講,是對于語言文字的智能處理,包括閱讀理解、問答對話、寫作、翻譯等等。這些應用場景,又可以細分成若干任務,包括從一連串字中識別詞,從一連串詞中識別詞組、從語句中識別主謂賓定語狀語、從語句中識別語氣情緒、從整篇文章中提煉摘要、根據提問從整篇文章中尋找答案,等等。

這篇論文介紹了一種模型,BERT,它至少能解決 NLP 諸多任務中的 11 種,包括:

* 淘寶上有很多用戶評論,能否把每一條用戶轉換成評分?-2、-1、0、1、2,其中 -2 是極差,+2 是極好。假如有這樣一條用戶評語,“買了一件鹿晗同款襯衫,沒想到,穿在自己身上,不像小鮮肉,倒像是廚師”,請問這條評語,等同于 -2,還是其它?

* 當用戶提問,“兩歲的男孩為什么食欲不振”,深度學習是否可以從大量書籍中,自動摘錄相關內容,并組織成流暢的語言,回答用戶提問?

用同一種模型,解決多種不同任務。這涉及到一個十分激進的猜想:在以往的實踐中,我們通常為每種具體任務,單獨定制模型。是否存在一種“通用”的語言模型,能夠用它來完成多種不同的任務?

BERT 的研究者們,試圖證明Deep Bidirectional Transformers就是這樣一種通用的語言模型,它不僅能解決 11 種不同的 NLP 任務,而且在所有任務上的精度,大幅度領先以往其它模型,甚至超越人類。

為什么Deep Bidirectional Transformers能夠擔當通用的語言模型?論文沒有提供嚴格的數學證明,只是用 11 種不同的具體任務,來經驗地驗證這個模型的通用性。

Deep Bidirectional Transformers,這三個詞分別是什么意思?

假如在一個句子 “中國的首都是北京”中 ,先遮蓋某一個詞,譬如 “首都”。然后,把遮蓋后的殘缺的句子,“中國的[mask]是北京”,輸入進電腦,讓電腦猜一猜 [mask] 應該是什么詞。

電腦可以從前往后猜,也就是根據前文“中國/的” ,猜測 [mask] 會是什么詞。電腦也可以從后往前猜,也就是根據后文 “北京/是”,猜測[mask] 會是什么詞。這兩種方式都是單向預測unidirectional。

很顯然,單向預測不能完整地理解整個語句的語義。于是研究者們嘗試雙向預測。把從前往后,與從后往前的兩個預測,拼接在一起 [mask1/mask2],這就是雙向預測 bi-directional。細節參閱《Neural Machine Translation by Jointly Learning to Align and Translate》。

BERT 的作者認為,bi-directional 仍然不能完整地理解整個語句的語義,更好的辦法是用上下文全向來預測[mask],也就是用 “中國/的/ .. /是/北京”,來預測 [mask]。BERT 的作者把上下文全向的預測方法,稱之為 deep bi-directional。

如何來實現上下文全向預測呢?BERT 的作者建議使用Transformer 模型。這個模型在《Attention Is All You Need》一文中,被首次提出。論文發表后,立刻引起業界轟動,成為深度學習 NLP 的里程碑式的進展。

Transformer模型的核心是聚焦機制,對于一個語句,可以同時啟用多個聚焦點,而不必局限于從前往后的或者從后往前的,序列的串行處理。所以,幾乎不用修改 Transformer 的代碼,就可以完成上下文全向的預測任務。

訓練數據與 Pre-training

模型不僅需要功能強勁的結構,而且還必須具備正確的參數,這樣才能擔當通用語言模型,準確理解文章語句的語義。

BERT 這篇論文,嘗試了兩種規模的 transformer 模型。第一個模型的規模較小,總共有 12 層模塊(L=12)、在每個模塊中語義數值向量的維度為 786(H=768)、聚焦探頭 12 個(A=12)。整個小模型,需要訓練的模型參數的總數是 12 * 768 * 12 = 110M。大模型 L=24,H=1024,A=16, 大模型參數的總數是 24 * 1024 * 16 = 393M。

幾億個參數需要訓練,自然需要海量的訓練數據。如果全部用人力標注的辦法,來制作訓練數據,人力成本太大。從哪里收集這些海量的訓練數據?

2003年發表的《A Neural Probabilistic Language Model》論文,提出一個收集訓練數據的辦法:每一篇文章,從新聞到小說到論文,天生都是訓練數據,不需要額外做人工標注。

受這篇論文的啟發,BERT 研究者們嘗試用以下方法,訓練模型參數。方法分兩步,

1. 把一篇文章中 15% 的詞匯遮蓋,讓模型根據上下文全向地預測被遮蓋的詞。通過預測任務,來初步訓練 Transformer 模型的參數。

假如有 1 萬篇文章,每篇文章平均由 1 千個詞匯構成,隨機遮蓋 15% 的詞匯,那么模型需要預測 150 萬個詞匯。

2. 用一個新任務,識別兩個句子是否連續,來進一步訓練模型參數。

譬如從上述 1 萬篇文章中,挑選 20 萬對語句,總共 40 萬句語句。在這些語句中,經過第一步的處理,15% 的詞匯被遮蓋(某些細節,不必絮述)。

挑選 20 萬對語句的時候,讓其中一半是上下文中連續的兩個語句,剩余的一半,由不是連續的兩個語句構成。然后讓 Transformer 模型來識別這 20 萬對語句中,哪些對子是連續的,哪些對子不連續。

這兩步訓練合在一起,稱為預訓練 pre-training。訓練結束后的 Transformer 模型,就是通用的語言模型,BERT。

Pre-training 與 Fine-tuning

預訓練 pre-training 出來的通用模型,能夠正確理解語句和文章的語義。通用模型不能直接用于解決不同的 NLP 具體問題,需要給通用模型穿一件外套。

BERT 論文中的 Figure 3,描述了針對四類不同問題的四種不同外套。

Figure 3

不僅模型需要穿外套,而且外套也有參數,找到這些參數的最優值,是精加工 fine-tuning 的目標。另外,在精加工的過程中,有時也自動地順帶微調BERT 通用模型的一些參數。

對模型外套進行精加工時,不同具體問題,需要不同的訓練數據。這篇論文,嘗試了 11 種不同問題的多種公開的,經過人工標注的訓練數據集。

模型的參數高達幾億個,用海量的文章作為 pre-training 的訓練數據,再用多種人工標注的訓練數據,來訓練模型,找到模型參數的最優值。不難想象,計算成本非常非常高。

BERT 論文中說,他們動用了谷歌 Cloud AI 資源,用了 64 顆 TPU,算了 4 天,模型參數尋優的訓練過程才收斂。

如果不是用 TPU,而是用普通 GPU,不知道會需要多長時間。

按谷歌 Cloud AI的正常價格,每訓練一次,需要 9.6 萬人民幣。即便這些天 Google Cloud AI 打七折,也需要 1.4 萬。如果程序有 bugs,需要返工,計算成本相當高。

深度學習 NLP四大里程碑

前文說到,“一個完整的深度學習系統,通常包括以下四個部分,1. 應用場景、2. 模型、3. 訓練數據、4. 算力”。BERT 這篇論文,一口氣把四個問題,全部說到了。

有業界老師認為,深度學習 NLP 到目前為止,有四大里程碑,分別是,

1.2003年2月,深度學習大神 Yoshua Bengio,與他的學生共同發表論文《A Neural Probabilistic Language Model》,把深度學習引入自然處理領域,把自然語言的詞匯,轉換成數值向量。從此,自然語言處理的基本研究方法,發生質的飛躍。這是深度學習 NLP 的第一個里程碑。

2. 2016年5月,Sequence to Sequence 技術日臻成熟,尤其是引入聚焦機制,如虎添翼。這是深度學習 NLP 的第二個里程碑,代表作是Yoshua Bengio 大神與他的學生們,共同執筆的論文《Neural Machine Translation by Jointly Learning Align and Translate》。

3. 2017年6月,谷歌的 Ashish Vaswani 等人,發表論文《Attention Is All You Need》,對 NLP 使用的深度學習模型,做了革命性的改進。這是深度學習 NLP 的第三個里程碑。

4. 2018年10月,谷歌的 Jacob Devlin 等人,發表的這篇 BERT 論文,很可能是第四個里程碑。不僅提議了一個通用的語言模型,而且用非監督的辦法做預訓練,用有監督的辦法做精加工,取得了驚艷的效果。

2018年以后,會發生什么?很可能會出現若干深度學習 NLP 產品,獲得巨大的商業成功。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6192

    瀏覽量

    105814
  • 深度學習
    +關注

    關注

    73

    文章

    5512

    瀏覽量

    121413

原文標題:狂破11項記錄,谷歌年度最強NLP論文到底強在哪里?

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    現在研究微電網 系統穩定性,,阻抗建模這塊,阻抗表現出正負阻尼特性。。

    如題 ,現在研究微電網 系統穩定性,,阻抗建模這塊,阻抗表現出正負阻尼特性。。對正負阻抗理解不是很清楚,希望大神指點一下多多謝謝
    發表于 09-16 21:38

    飛機表現出什么現象才叫調好了?

    一種說法是飛機緩慢往一邊傾斜但不抖動就好了 應該信哪種啊?I值是定角度能力 但是加小了沒用 大了就抖D值不知道調到什么程度就好淺談四軸PID的那文章看了又看 但是不知道三個參數分別讓飛機表現出什么現象才叫調好?望高人指點一番
    發表于 08-01 22:14

    為什么DAC控制寄存器某些值上會表現出某種奇怪的行為?

    :GET_PERI_REG_BITS ( SENS_SAR_DAC_CTRL1_REG , 7 , 0 ) ;我的疑問是為什么 DAC 控制寄存器某些值上會表現出這種奇怪的行為?
    發表于 03-02 06:18

    中頻逆變點焊機控制系統部分表現出來的優勢

    :焊接故障率低。得益于優化的控制系統,中頻逆變點焊機應用的時候,出現焊接故障的幾率很低,能夠確保取得良好的焊接效果。上述這些就是中頻逆變點焊機控制系統部分表現出來的優勢,這些優勢都可以促使設備呈
    發表于 03-02 10:46

    尚德太陽能組件第三方的PID測試中表現優異

    世界最大的太陽能組件生廠商尚德太陽能電力控股有限公司(NYSE:STP)今天宣布,其 Wd 多晶、Wd 單晶和 Ve 多晶系列組件近期與世界權威的 VDE 測試機構合作的第三方測試中表現出
    發表于 11-02 10:08 ?1165次閱讀

    機器閱讀理解領域頂級賽事SQuAD刷新排名,阿里打破世界紀錄

    82.304的成績。 據悉,SQuAD比賽構建了一個大規模的機器閱讀理解數據集(包含10萬個問題),文章來源于500多篇維基百科文章。
    發表于 01-14 05:58 ?2462次閱讀

    機器閱讀理解的含義以及如何工作

    機器閱讀理解,雖然看起來只是讓AI上陣來一場考試。但是卻是自然語言處理技術,繼語音判斷、語義理解之后最大的挑戰:讓智能體
    的頭像 發表于 01-16 13:47 ?6877次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>閱讀</b><b class='flag-5'>理解</b>的含義以及如何工作

    剝開機器閱讀理解的神秘外衣

    ,就像斯坦福大學著名的AI競賽ImageNet一樣,都是由一個官方給定的數據集+一場跑分競賽組成。各大科技巨頭和世界名校的AI研究團隊是主要參賽選手。百度此次參與的機器閱讀理解比賽,是微軟
    發表于 03-19 18:47 ?764次閱讀
    剝開<b class='flag-5'>機器</b><b class='flag-5'>閱讀</b><b class='flag-5'>理解</b>的神秘外衣

    可穿戴技術各領域表現出廣闊的應用潛力

    隨著計算機軟硬件和互聯網技術的高速發展,可穿戴式智能設備的形態開始多樣化,逐漸工業、醫療健康、軍事、教育、娛樂等領域表現出廣闊的應用潛力。
    的頭像 發表于 01-24 11:33 ?4833次閱讀

    人工智能機器表現出的智能程度極其有限 不可能取代人類

    人工智能領域,人工智能機器因為無法如人一樣理解常識知識,而使人工智能機器表現出的智能程度極其有限。
    發表于 03-21 16:31 ?1674次閱讀

    還在愁到哪里找到需要的機器學習數據集嗎?

    閱讀文章的一段文本。SQuAD 包含 500 多篇文章的 10 萬對以上的問答對,因此規模明顯大于之前的閱讀理解數據集。 SQuAD2.0
    的頭像 發表于 03-29 11:45 ?2424次閱讀
    還在愁到哪里找到需要的<b class='flag-5'>機器</b>學習數據集嗎?

    小i機器人在國際權威機器閱讀理解評測SQuAD1.1挑戰賽中排名全球第三

    憑借最新研究成果——BERT+WWM+MT的單模型,由斯坦福大學發起的國際權威機器閱讀理解評測SQuA
    的頭像 發表于 09-01 09:04 ?3656次閱讀

    Kuka新推出SCARA機器人:小零件裝配,材料處理等應用中表現出

    Kuka推出了新系列的SCARA機器人。該公司表示,新型KR SCARA關節臂機器人是工業生產的可靠助手,小零件裝配,材料處理和檢查任務等應用中表現出色。 Kuka稱,
    的頭像 發表于 10-15 12:02 ?2733次閱讀

    會話式機器閱讀理解概述

    1 會話式機器閱讀理解是什么? 如何在會話式閱讀理解里面能夠建模它的implicative reasoning,即如何去學習會話與
    的頭像 發表于 11-25 16:07 ?2313次閱讀

    功率 MOSFET 同步整流器應用中表現出

    功率 MOSFET 同步整流器應用中表現出
    發表于 11-15 18:30 ?3次下載
    功率 MOSFET <b class='flag-5'>在</b>同步整流器應用<b class='flag-5'>中表現出</b>色
    主站蜘蛛池模板: 久久九九久精品国产尤物 | 99RE6国产精品视频播放 | 伦理片a在线线2 | 无码国产成人777爽死在线观看 | 十八禁久久成人一区二区 | 中文亚洲大香伊蕉不卡一区 | 国产专区亚洲欧美另类在线 | 国产高清精品国语特黄A片 国产高清国内精品福利色噜噜 | 在线观看视频中文字幕 | 国产精品96久久久久久AV网址 | 中文字幕 亚洲 有码 在线 | jizzjizz丝袜| 九色PORNY丨视频入口 | 色欲色香天天天综合 | 日韩精品无码久久一区二区三 | 爱情岛论坛免费在线观看 | 两性午夜色视频免费网站 | 三级黄色在线视频 | 色偷偷网址 | 色噜噜色啪在线视频 | 亚洲精品乱码久久久久久中文字幕 | 色偷偷男人 | 久久精品国产亚洲AV蜜臀 | 神电影院午夜dy888我不卡 | free高跟丝袜秘书hd | 久久www成人看片 | 成人午夜剧场 | 驯服有夫之妇HD中字日本 | 久久九九有精品国产23百花影院 | jizzjizz中国大学生 | 国产人妻777人伦精品HD | 国产人在线成免费视频 | 色偷偷成人网免费视频男人的天堂 | 国产在线观看不卡 | 秋霞三级理伦免费观看 | SM双性精跪趴灌憋尿调教H | 日本三级按摩推拿按摩 | 亚洲国产精品久久无套麻豆 | 99热这里只有精品6 99热这里只有精品 99热这里只有的精品 | 天堂无码人妻精品AV一区 | 午夜伦理:伦理片 |