色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

微軟在ICML 2019上提出了一個全新的通用預訓練方法MASS

DPVg_AI_era ? 來源:lq ? 2019-05-11 09:19 ? 次閱讀

微軟亞洲研究院的研究員在 ICML 2019 上提出了一個全新的通用預訓練方法 MASS,在序列到序列的自然語言生成任務中全面超越 BERT 和 GPT。本文帶來論文作者的技術解讀。

從 2018 年開始,預訓練(pre-train) 毫無疑問成為 NLP 領域最熱的研究方向。

借助于 BERT 和 GPT 等預訓練模型,人類在多個自然語言理解任務中取得了重大突破。然而,在序列到序列的自然語言生成任務中,目前主流預訓練模型并沒有取得顯著效果。

為此,微軟亞洲研究院的研究員在 ICML 2019 上提出了一個全新的通用預訓練方法 MASS,在序列到序列的自然語言生成任務中全面超越 BERT 和 GPT。在微軟參加的 WMT19 機器翻譯比賽中,MASS 幫助中 - 英、英 - 立陶宛兩個語言對取得了第一名的成績。

BERT 在自然語言理解(比如情感分類、自然語言推理、命名實體識別、SQuAD 閱讀理解等)任務中取得了很好的結果,受到了越來越多的關注。然而,在自然語言處理領域,除了自然語言理解任務,還有很多序列到序列的自然語言生成任務,比如機器翻譯、文本摘要生成、對話生成、問答、文本風格轉換等。在這類任務中,目前主流的方法是編碼器 - 注意力 - 解碼器框架,如下圖所示。

編碼器 - 注意力 - 解碼器框架

編碼器(Encoder)將源序列文本 X 編碼成隱藏向量序列,然后解碼器(Decoder)通過注意力機制(Attention)抽取編碼的隱藏向量序列信息,自回歸地生成目標序列文本 Y。

BERT 通常只訓練一個編碼器用于自然語言理解,而 GPT 的語言模型通常是訓練一個解碼器。如果要將 BERT 或者 GPT 用于序列到序列的自然語言生成任務,通常只有分開預訓練編碼器和解碼器,因此編碼器 - 注意力 - 解碼器結構沒有被聯合訓練,記憶力機制也不會被預訓練,而解碼器對編碼器的注意力機制在這類任務中非常重要,因此 BERT 和 GPT 在這類任務中只能達到次優效果。

新的預訓練方法 ——MASS

專門針對序列到序列的自然語言生成任務,微軟亞洲研究院提出了新的預訓練方法:屏蔽序列到序列預訓練(MASS: Masked Sequence to Sequence Pre-training)。MASS 對句子隨機屏蔽一個長度為 k 的連續片段,然后通過編碼器 - 注意力 - 解碼器模型預測生成該片段。

屏蔽序列到序列預訓練 MASS 模型框架

如上圖所示,編碼器端的第 3-6 個詞被屏蔽掉,然后解碼器端只預測這幾個連續的詞,而屏蔽掉其它詞,圖中 “_” 代表被屏蔽的詞。

MASS 預訓練有以下幾大優勢:

(1)解碼器端其它詞(在編碼器端未被屏蔽掉的詞)都被屏蔽掉,以鼓勵解碼器從編碼器端提取信息來幫助連續片段的預測,這樣能促進編碼器 - 注意力 - 解碼器結構的聯合訓練;

(2)為了給解碼器提供更有用的信息,編碼器被強制去抽取未被屏蔽掉詞的語義,以提升編碼器理解源序列文本的能力;

(3)讓解碼器預測連續的序列片段,以提升解碼器的語言建模能力。

統一的預訓練框架

MASS 有一個重要的超參數 k(屏蔽的連續片段長度),通過調整 k 的大小,MASS 能包含 BERT 中的屏蔽語言模型訓練方法以及 GPT 中標準的語言模型預訓練方法,使 MASS 成為一個通用的預訓練框架。

當 k=1 時,根據 MASS 的設定,編碼器端屏蔽一個單詞,解碼器端預測一個單詞,如下圖所示。解碼器端沒有任何輸入信息,這時 MASS 和 BERT 中的屏蔽語言模型的預訓練方法等價。

當 k=m(m 為序列長度)時,根據 MASS 的設定,編碼器屏蔽所有的單詞,解碼器預測所有單詞,如下圖所示,由于編碼器端所有詞都被屏蔽掉,解碼器的注意力機制相當于沒有獲取到信息,在這種情況下 MASS 等價于 GPT 中的標準語言模型。

MASS 在不同 K 下的概率形式如下表所示,其中 m 為序列長度,u 和 v 為屏蔽序列的開始和結束位置,x^u:v 表示從位置 u 到 v 的序列片段,x^\u:v 表示該序列從位置 u 到 v 被屏蔽掉。可以看到,當K=1 或者 m 時,MASS 的概率形式分別和 BERT 中的屏蔽語言模型以及 GPT 中的標準語言模型一致。

我們通過實驗分析了屏蔽 MASS 模型中不同的片段長度(k)進行預訓練的效果,如下圖所示。

當 k 取大約句子長度一半時(50% m),下游任務能達到最優性能。屏蔽句子中一半的詞可以很好地平衡編碼器和解碼器的預訓練,過度偏向編碼器(k=1,即 BERT)或者過度偏向解碼器(k=m,即 LM/GPT)都不能在該任務中取得最優的效果,由此可以看出 MASS 在序列到序列的自然語言生成任務中的優勢。

序列到序列自然語言生成任務實驗

預訓練流程

MASS 只需要無監督的單語數據(比如 WMT News Crawl Data、Wikipedia Data 等)進行預訓練。MASS 支持跨語言的序列到序列生成(比如機器翻譯),也支持單語言的序列到序列生成(比如文本摘要生成、對話生成)。當預訓練 MASS 支持跨語言任務時(比如英語 - 法語機器翻譯),我們在一個模型里同時進行英語到英語以及法語到法語的預訓練。需要單獨給每個語言加上相應的語言嵌入向量,用來區分不同的語言。我們選取了無監督機器翻譯、低資源機器翻譯、文本摘要生成以及對話生成四個任務,將 MASS 預訓練模型針對各個任務進行精調,以驗證 MASS 的效果。

無監督機器翻譯

在無監督翻譯任務上,我們和當前最強的 Facebook XLM 作比較(XLM 用 BERT 中的屏蔽預訓練模型,以及標準語言模型來分別預訓練編碼器和解碼器),對比結果如下表所示。

可以看到,MASS 的預訓練方法在 WMT14 英語 - 法語、WMT16 英語 - 德語一共 4 個翻譯方向上的表現都優于 XLM。MASS 在英語 - 法語無監督翻譯上的效果已經遠超早期有監督的編碼器 - 注意力 - 解碼器模型,同時極大縮小了和當前最好的有監督模型之間的差距。

低資源機器翻譯

低資源機器翻譯指的是監督數據有限情況下的機器翻譯。我們在 WMT14 英語 - 法語、WMT16 英語 - 德語上的不同低資源場景上(分別只有 10K、100K、1M 的監督數據)驗證我們方法的有效性,結果如下所示。

在不同的數據規模下,我們的預訓練方法的表現均比不用預訓練的基線模型有不同程度的提升,監督數據越少,提升效果越顯著。

文本摘要生成

在文本摘要生成(Gigaword Corpus)任務上,我們將 MASS 同 BERT+LM(編碼器用 BERT 預訓練,解碼器用標準語言模型 LM 預訓練)以及 DAE(去噪自編碼器)進行了比較。從下表可以看到,MASS 的效果明顯優于 BERT+LM 以及 DAE。

對話生成

在對話生成(Cornell Movie Dialog Corpus)任務上,我們將 MASS 同 BERT+LM 進行了比較,結果如下表所示。MASS 的 PPL 低于 BERT+LM。

在不同的序列到序列自然語言生成任務中,MASS 均取得了非常不錯的效果。接下來,我們還將測試 MASS 在自然語言理解任務上的性能,并為該模型增加支持監督數據預訓練的功能,以期望在更多自然語言任務中取得提升。未來,我們還希望將 MASS 的應用領域擴展到包含語音、視頻等其它序列到序列的生成任務中。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 微軟
    +關注

    關注

    4

    文章

    6614

    瀏覽量

    104176
  • 編碼器
    +關注

    關注

    45

    文章

    3651

    瀏覽量

    134780
  • 自然語言
    +關注

    關注

    1

    文章

    288

    瀏覽量

    13365

原文標題:【ICML 2019】微軟最新通用預訓練模型MASS,超越BERT、GPT!

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    KerasHub統、全面的訓練模型庫

    深度學習領域正在迅速發展,處理各種類型的任務中,訓練模型變得越來越重要。Keras 以其用戶友好型 API 和對易用性的重視而聞名,始終處于這動向的前沿。Keras 擁有專用的內
    的頭像 發表于 12-20 10:32 ?126次閱讀

    LLM和傳統機器學習的區別

    訓練方法 LLM: 訓練和微調: LLM通常采用訓練(Pre-training)和微調(Fine-tuning)的
    的頭像 發表于 11-08 09:25 ?601次閱讀

    使用PyTorch英特爾獨立顯卡訓練模型

    《PyTorch 2.5重磅更新:性能優化+新特性》中的新特性就是:正式支持英特爾獨立顯卡訓練模型!
    的頭像 發表于 11-01 14:21 ?592次閱讀
    使用PyTorch<b class='flag-5'>在</b>英特爾獨立顯卡<b class='flag-5'>上</b><b class='flag-5'>訓練</b>模型

    直播預約 |數據智能系列講座第4期:訓練的基礎模型下的持續學習

    神經網絡,特別是訓練的基礎模型研究得到了廣泛的應用,但其仍然主要依賴于大量樣本的批量式訓練。本報告將探討實現模型的增量式
    的頭像 發表于 10-18 08:09 ?240次閱讀
    直播預約 |數據智能系列講座第4期:<b class='flag-5'>預</b><b class='flag-5'>訓練</b>的基礎模型下的持續學習

    蘋果承認使用谷歌芯片來訓練AI

    蘋果公司最近在篇技術論文中披露,其先進的人工智能系統Apple Intelligence背后的兩關鍵AI模型,是谷歌設計的云端芯片完成
    的頭像 發表于 07-30 17:03 ?748次閱讀

    蘋果揭示AI新動向:Apple Intelligence模型谷歌云端芯片訓練

    蘋果公司最新的技術論文中披露了項重要信息,其全新的人工智能系統Apple Intelligence所依賴的模型并非傳統大型科技公司首選的NVIDIA GPU,而是選擇了
    的頭像 發表于 07-30 15:00 ?558次閱讀

    ai大模型訓練方法有哪些?

    AI大模型訓練方法復雜且不斷發展的領域。以下是ai大模型訓練方法: 數據預處理和增強 數據清洗:去除噪聲和不完整的數據。 數據標準化:將數據縮放到統
    的頭像 發表于 07-16 10:11 ?1592次閱讀

    訓練和遷移學習的區別和聯系

    訓練和遷移學習是深度學習和機器學習領域中的兩重要概念,它們提高模型性能、減少訓練時間和降低對數據量的需求方面發揮著關鍵作用。本文將從定
    的頭像 發表于 07-11 10:12 ?1122次閱讀

    大語言模型的訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型的訓練是這技術發展的關鍵步驟,它通過海量無標簽數據上進行訓練,使模型學習到語言的
    的頭像 發表于 07-11 10:11 ?455次閱讀

    LLM訓練的基本概念、基本原理和主要優勢

    人工智能和自然語言處理(NLP)領域,大型語言模型(Large Language Model,簡稱LLM)的興起極大地推動了技術的進步和應用的發展。LLM通過大規模文本數據上進行訓練
    的頭像 發表于 07-10 11:03 ?1114次閱讀

    訓練模型的基本原理和應用

    訓練模型(Pre-trained Model)是深度學習和機器學習領域中的重要概念,尤其是自然語言處理(NLP)和計算機視覺(CV)
    的頭像 發表于 07-03 18:20 ?2954次閱讀

    【大語言模型:原理與工程實踐】大語言模型的訓練

    數據格式的轉換、數據字段的匹配和整合等。通過數據級凈化,可以進步提高數據的質量和可用性,為后續的數據分析和建模提供更有價值的數據支持。 得到了大語言模型的數據之后,就是對其進行訓練
    發表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    處理各種自然語言任務時都表現出了驚人的能力。這促使新的研究方向誕生——基于Transformer 的訓練語言模型。這類模型的核心思想是
    發表于 05-05 12:17

    谷歌模型訓練軟件有哪些功能和作用

    谷歌模型訓練軟件主要是指ELECTRA,這是種新的訓練方法,源自谷歌AI。ELECTRA不僅擁有BERT的優勢,而且效率
    的頭像 發表于 02-29 17:37 ?816次閱讀

    混合專家模型 (MoE)核心組件和訓練方法介紹

    ) 的 Transformer 模型開源人工智能社區引起了廣泛關注。本篇博文中,我們將深入探討 MoEs 的核心組件、訓練方法,以及推理過程中需要考量的各種因素。 讓我們開始吧!
    的頭像 發表于 01-13 09:37 ?1326次閱讀
    混合專家模型 (MoE)核心組件和<b class='flag-5'>訓練方法</b>介紹
    主站蜘蛛池模板: 小货SAO边洗澡边CAO你动漫| 欧美日韩国产高清综合二区 | 日日色在线影院| 欧美性爱 先锋影音| 国产亚洲精品看片在线观看| 国产精品女主播主要上线| 极品色αv影院| 捏揉舔水插按摩师| 思思久99久女女精品| 在线中文高清资源免费观看| 99精品在线播放| 国产成人拍精品免费视频爱情岛 | 亚洲色大成网站WWW永久麻豆| 一本二卡三卡四卡乱码麻豆| 99久久精品久久久| 黑色丝袜在线观看| 欧洲另类一二三四区| 一本道在线综合久久88| 囯产少妇BBBBBB高潮喷水一| 久久AV国产麻豆HD真实乱| 日本免费xxx| 99精品在线播放| 伦理79电影网在线观看| 午夜福利免费视频921000电影| 中文字幕在线播放视频| 中国老太太xxx| 国产人妻麻豆蜜桃色在线| 欧美三级aaa| 1024人成网站色www下载| 2019精品国产品在线不卡| 国产系列在线亚洲视频| 桃花色影院| 亚洲视频中文字幕在线观看| 成人a毛片久久免费播放| 邻家美姨在线观看全集免费| 亚洲精品国产高清嫩草影院| 荡乳乱公小说| 黑人性xxx| 亚洲色偷偷偷网站色偷一区人人藻 | 欧美影院在线观看完整版 mp4| 一个人HD在线观看免费高清视频|