色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

什么是XLNet,它為什么比BERT效果好

電子設計 ? 來源:電子設計 ? 作者:電子設計 ? 2020-12-10 19:10 ? 次閱讀
介紹最基本的XLNet的原理,理解XLNet和BERT的直覺上的不同點。
作者:Xu LIANG
編譯:ronghuaiyang
首發:AI公園公眾號


在發布后不到一周,我周圍的NLP領域的每個人似乎都在談論XLNet

是的,“在20個任務上比BERT做得更好”確實吸引了我們的眼球。但更重要的是理解它是如何工作的,以及為什么它比BERT表現得更好。所以我寫了這個博客來分享我讀了這篇文章后的想法。

內容結構如下。

  • 什么是XLNet?
  • XLNet和BERT有什么不同?
  • XLNet是如何工作的?

什么是XLNet?

首先,XLNet是一個類似于bert的模型,而不是一個完全不同的模型。但它是一個非常有前途和潛力的。總之,XLNet是一種廣義的自回歸預訓練方法。

那么,什么是自回歸(AR)語言模型

AR語言模型是利用上下文單詞預測下一個單詞的一種模型。但是在這里,上下文單詞被限制在兩個方向,要么向前,要么向后。

GPT和GPT-2都是AR語言模型

AR語言模型的優點是擅長NLP生成任務。因為在生成上下文時,通常是正向的。AR語言模型在這類NLP任務中很自然地工作得很好。

但是AR語言模型有一些缺點,它只能使用前向上下文或后向上下文,這意味著它不能同時使用前向上下文和后向上下文

XLNet和BERT的區別是什么?

與AR語言模型不同,BERT被歸類為自動編碼器(AE)語言模型

AE語言模型的目的是從損壞的輸入中重建原始數據

損壞的輸入意味著我們使用在訓練前階段將原始tokeninto替換為 [MASK] 。我們的目標是預測into來得到原來的句子。

AE語言模型的優點是它可以在向前和向后兩個方向上看到上下文。

但是AE語言模型也有其不足之處。它在預訓練中使用了[MASK],但是這種人為的符號在finetune的時候在實際數據中時沒有的,導致了預訓練 — finetune的不一致。[MASK]的另一個缺點是它假設所預測的(mask掉的)token是相互獨立的,給出的是未掩碼的tokens。例如,我們有一句話“It shows that the housing crisis was turned into a banking crisis”。我們蓋住了“banking”和“crisis”。注意這里,我們知道,蓋住的“banking”與“crisis”之間隱含著相互關聯。但AE模型是利用那些沒有蓋住的tokens試圖預測“banking”,并獨立利用那些沒有蓋住的tokens預測“crisis”。它忽視了“banking”與“crisis”之間的關系。換句話說,它假設預測的(屏蔽的)tokens是相互獨立的。但是我們知道模型應該學習(屏蔽的)tokens之間的這種相關性來預測其中的一個token。

作者想要強調的是,XLNet提出了一種新的方法,讓AR語言模型從雙向的上下文中學習,避免了AE語言模型中mask方法帶來的弊端。

XLNet如何工作?

AR語言模型只能使用前向或后向的上下文,如何讓它學習雙向上下文呢?語言模型由預訓練階段和調優階段兩個階段組成。XLNet專注于預訓練階段。在預訓練階段,它提出了一個新的目標,稱為重排列語言建模。 我們可以從這個名字知道基本的思想,它使用重排列。

這里我們用一個例子來解釋。序列順序是[x1, x2, x3, x4]。該序列的所有排列如下。

對于這4個tokens (N)的句子,有24個(N!)個排列。假設我們想要預測x3。24個排列中有4種模式,x3在第1位,第2位,第3位,第4位。

[x3, xx, xx, xx]
[xx, x3, xx, xx]
[xx, xx, x3, xx]
[xx, xx, xx, x3]


4種模式

在這里,我們將x3的位置設為第t位,它前面的t-1個tokens用來預測x3。

x3之前的單詞包含序列中所有可能的單詞和長度。直觀地,模型將學習從兩邊的所有位置收集信息

具體實現要比上面的解釋復雜得多,這里就不討論了。但是你應該對XLNet有最基本和最重要的了解。

來自XLNet的靈感

與BERT將mask方法公布于眾一樣,XLNet表明重排列法是一種很好的語言模型目標選擇。可以預見,未來在語言模型目標方面的探索工作將會越來越多。

—END—

關注圖像處理,自然語言處理,機器學習人工智能領域。
歡迎關注微信公眾號

審核編輯 黃昊宇
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1794

    文章

    47642

    瀏覽量

    239667
  • 語言模型
    +關注

    關注

    0

    文章

    538

    瀏覽量

    10315
收藏 人收藏

    評論

    相關推薦

    ADS1601的參考電壓是內部給效果,還是外接好?

    請問一下ADS1601的參考電壓是內部給效果,還是外接好?謝謝
    發表于 12-20 07:29

    導電布屏蔽效果用銅箔的原因分析

    在EMC(電磁兼容)實驗中,使用導電布的屏蔽效果可能優于銅箔,主要是由于以下幾個原因: 1.高頻電磁波的吸收與反射 銅箔的作用: 銅箔是一種良好的導體,主要通過反射來屏蔽電磁波。但在高頻情況下,僅靠
    的頭像 發表于 11-26 10:18 ?454次閱讀

    什么兩個THS3091并聯然后和一個THS3092級聯,得到的不失真波形往往不少單個的

    為什么兩個THS3091并聯然后和一個THS3092級聯...得到的不失真波形往往不少單個的??而且單個的放大最高不失真波形只有峰峰值14V?
    發表于 09-24 07:06

    內置誤碼率測試儀(BERT)和采樣示波器一體化測試儀器安立MP2110A

    BERTWave MP2110A是一款內置誤碼率測試儀(BERT)和采用示波器的一體化測量儀器,支持光模塊的誤碼率(BERT)測量、眼圖模式測試、眼圖分析等評估操作
    的頭像 發表于 09-23 14:34 ?423次閱讀
    內置誤碼率測試儀(<b class='flag-5'>BERT</b>)和采樣示波器一體化測試儀器安立MP2110A

    數字地和模擬地利用磁珠隔離或者單點接地效果都不怎么,怎樣隔離效果會比較好一些?

    數字地和模擬地利用磁珠隔離或者單點接地效果都不怎么,怎樣隔離效果會比較好一些?
    發表于 09-20 06:23

    osd開啟還是關閉

    ,這主要取決于你的使用習慣和需求。 開啟OSD的優點: 方便性 :通過OSD,用戶可以直接在屏幕上看到當前的設置選項和調節效果,無需翻閱復雜的說明書或進入內部菜單。 直觀性 :OSD菜單通常設計得直觀易懂,即使是初次使用的用戶也能快速上手。 實時反饋 :
    的頭像 發表于 09-19 16:25 ?3416次閱讀

    請問光電二極管用正電源反偏效果,還是用負電源反偏效果

    請問光電二極管用正電源反偏效果,還是用負電源反偏效果
    發表于 09-11 07:07

    M8020A J-BERT 高性能比特誤碼率測試儀

    M8020A 比特誤碼率測試儀 J-BERT M8020A 高性能 BERT 產品綜述 Keysight J-BERT M8020A 高性能比特誤碼率測試儀能夠快速、準確地表征傳輸速率高達 16 或
    的頭像 發表于 08-21 17:13 ?248次閱讀

    AWG和BERT常見問題解答

    隨著信號的速率越來越高,調制格式越來越復雜,對測試儀器的性能要求也越來越高。是德科技也一直在推出業界領先的高帶寬、高采樣率的AWG和高性能的BERT
    的頭像 發表于 08-06 17:27 ?771次閱讀

    EMC與EMI測試整改:從問題識別到效果驗證

    深圳創達電子|EMC與EMI測試整改:從問題識別到效果驗證
    的頭像 發表于 06-27 10:37 ?568次閱讀
    EMC與EMI測試整改:從問題識別到<b class='flag-5'>效果</b>驗證

    芯片膠點膠加工的效果和質量的檢測方法有哪些?

    芯片膠點膠加工的效果和質量的檢測方法有哪些?芯片膠在電子封裝領域用的是比較多的,特別是高度精密集成芯片器件。那么如何判斷點膠后的效果和質量的與壞?芯片膠點膠加工的效果和質量的檢測是一
    的頭像 發表于 04-26 16:27 ?668次閱讀
    芯片膠點膠加工的<b class='flag-5'>效果</b>和質量的檢測方法有哪些?

    什么是邊緣計算?它為何如此重要?

    ,什么是邊緣計算?它為何如此重要?本文將對其進行詳細的解析。 邊緣計算,簡而言之,是指在靠近物或數據源頭的一側,采用網絡、計算、存儲、應用核心能力為一體的開放平臺,就近提供最近端服務。它的核心思想是將計算任
    的頭像 發表于 04-22 15:25 ?515次閱讀

    網線扁線和圓線哪個效果

    一起難以分離。此外,扁線網線可以像圓線那樣附加屏蔽層,具備較好的抗干擾能力。在短距離應用上,扁線網線的傳輸效果和圓線網線差別不大。但是,扁線網線的價格圓線網線高出約50%,柔軟性使其更適合在家庭環境中使用,可以輕松
    的頭像 發表于 03-28 10:03 ?6022次閱讀

    扁平線共模電感對CE噪聲的高效抑制?|深圳創達電子EMC(中)a

    有遇到過類似的情況,相同感量的扁平線共模電感的插損要比繞線共模電感強10dB左右,參見“電源用共模電感,感量越大越好?”一文)換上之后,效果出奇的,整體降到了限值線以下,如圖5所示,超標最嚴重
    發表于 02-28 10:31

    扁平線共模電感對CE噪聲的高效抑制?|深圳創達電子EMC(中)

    有遇到過類似的情況,相同感量的扁平線共模電感的插損要比繞線共模電感強10dB左右,參見“電源用共模電感,感量越大越好?”一文)換上之后,效果出奇的,整體降到了限值線以下,如圖5所示,超標最嚴重
    發表于 02-28 10:26
    主站蜘蛛池模板: 51久久夜色精品国产 | 高清国语自产拍免费 | 亚洲精品一线二线三线无人区 | 国产永久视频 | 色婷婷五月综合久久中文字幕 | 中国老太太xxx | 99久久做夜夜爱天天做精品 | 欧美乱妇狂野欧美在线视频 | 午夜影视免费 | 亚洲大片免费观看 | 狠狠色噜噜狠狠狠狠米奇777 | 国产欧美日韩精品a在线观看高清 | 在教室伦流澡到高潮HNP视频 | 乳欲性高清在线 | 午夜福利免费体检区 | 综合伊人久久 | 成人午夜精品久久久久久久秋霞 | 国产乱辈通伦影片在线播放亚洲 | 国产36d在线观看 | 差差差差差差差差免费观看 | 强奸美女老师 | 久久怡红院国产精品 | 色多多涩涩屋下载软件 | 午夜DV内射一区二区 | 黑人强伦姧人妻日韩那庞大的 | 国产亚洲精品久久久久久无码网站 | 久久无码人妻AV精品一区 | 正在播放黑人杂交派对卧槽 | 99九九精品国产高清自在线 | 久久99精品视频 | 最近日本免费观看MV免费 | 蜜芽TV影院在线视频 | cctv官网 | 久久re视频这里精品青 | 91精品国产色综合久久不 | 国产成人综合网在线观看 | 墨西哥美女主播 | 成人亚洲乱码在线 | 99视频在线精品免费观看18 | 国产精品观看视频免费完整版 | 亚洲在线中文无码首页 |