色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何更高效地使用預(yù)訓(xùn)練語(yǔ)言模型

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:夕小瑤的賣(mài)萌屋 ? 作者:小偉 ? 2022-07-08 11:28 ? 次閱讀

概覽

本文對(duì)任務(wù)低維本征子空間的探索是基于 prompt tuning, 而不是fine-tuning。原因是預(yù)訓(xùn)練模型的參數(shù)實(shí)在是太多了,很難找到這么多參數(shù)的低維本征子空間。作者基于之前的工作提出了一個(gè)基本的假設(shè):預(yù)訓(xùn)練模型在不同下游任務(wù)上學(xué)習(xí)的過(guò)程,可以被重新參數(shù)化(reparameterized)為在同一個(gè)低維本征子空間上的優(yōu)化過(guò)程。如下圖所示,模型在不同的任務(wù)上學(xué)習(xí)的參數(shù)雖然不同,但這些參數(shù)共享了同一個(gè)低維本征子空間。

c5318178-ed60-11ec-ba43-dac502259ad0.png

基于這一假設(shè),作者提出了探索公共低維本征子空間的方法:intrinsic prompt tuning (IPT)。

IPT由兩個(gè)階段組成:

Multi-task Subspace Finding (MSF):尋找多個(gè)任務(wù)的公共子空間,這是一個(gè)低維的、更為本征的一個(gè)空間

Intrinsic Subspace Tuning (IST):在找到的公共本征子空間上進(jìn)行模型優(yōu)化

下圖展示了 IPT 與 fine-tuning 和 prompt tuning 的對(duì)比。

c5542552-ed60-11ec-ba43-dac502259ad0.png

下面我們具體來(lái)了解一下IPT的兩個(gè)階段

IPT

作者使用intrinsic prompt tuning (IPT)來(lái)驗(yàn)證本文的基本假設(shè): 預(yù)訓(xùn)練模型對(duì)多個(gè)不同下游任務(wù)的學(xué)習(xí)可以被重新參數(shù)化為在同一個(gè)低維本征子空間上的優(yōu)化。

第一個(gè)階段是multi-task subspace finding (MSF)。

1. 尋找公共本征子空間(MSF)

MSF階段旨在通過(guò)對(duì)多個(gè)任務(wù)進(jìn)行學(xué)習(xí),來(lái)找到公共的低維本征子空間。如上圖所示,本質(zhì)上就是在學(xué)習(xí)一個(gè)自編碼器

我們用 來(lái)代表自編碼器的Encoder部分(上圖中處于下方的梯形),用 來(lái)代表自編碼器的Decoder部分(上圖中處于上方的梯形),那么自編碼器會(huì)先用把Prompt參數(shù)映射為一個(gè)低維(維)的向量(向量所在的維空間就是我們想要的低維本征子空間),然后再用把該低維向量重新映射回原始的prompt空間,得到 這樣我們就可以使用 和 的距離來(lái)計(jì)算自編碼器的重建loss ,形式化表述就是:

另外,使用自編碼器來(lái)學(xué)習(xí)公共低維本征子空間的最終目的還是為了解決多個(gè)任務(wù),所以作者引入了面向任務(wù)的語(yǔ)言模型loss 來(lái)提供任務(wù)相關(guān)的監(jiān)督(例如圖中模型生成的結(jié)果"positive"和正確標(biāo)簽之間的交叉熵)。那么MSF階段最終的loss就是:

其中 代表 和 的參數(shù),這也是我們?cè)贛SF階段要學(xué)習(xí)的參數(shù)。

2. 本征子空間優(yōu)化(IST)

在MSF階段中,我們通過(guò)對(duì)多個(gè)任務(wù)的學(xué)習(xí)找到了維的公共本征子空間,然后就進(jìn)入了第二個(gè)階段IST。在這一階段中,我們想評(píng)價(jià)我們?cè)贛SF階段中找到的低維本征子空間是不是能夠很好的泛化到 (a) MSF階段訓(xùn)練過(guò)的任務(wù)的新數(shù)據(jù),以及 (b) MSF階段沒(méi)有訓(xùn)練過(guò)的任務(wù)。如果該低維本征子空間在這兩種情況下都有比較好的泛化性能的話,那么在我們?cè)谝欢ǔ潭壬暇统晒Φ卣业搅讼胍谋菊髯涌臻g。

在本階段中,如上圖 所示, 我們只保留自編碼器的Decoder部分并凍結(jié)它的參數(shù)。對(duì)于每個(gè)測(cè)試任務(wù),我們只微調(diào)本征子空間中的個(gè)自由參數(shù) , 會(huì)將解碼回原始的prompt空間中來(lái)計(jì)算loss:

實(shí)驗(yàn)

作者使用了120個(gè)few-shot任務(wù)來(lái)進(jìn)行實(shí)驗(yàn),并進(jìn)行了三種不同的訓(xùn)練-測(cè)試任務(wù)劃分

random: 隨機(jī)選擇100個(gè)任務(wù)作為訓(xùn)練任務(wù),其余20個(gè)任務(wù)作為測(cè)試任務(wù)

non-cls: 隨機(jī)選擇非分類(lèi)任務(wù)中的35作為訓(xùn)練任務(wù),其余所有任務(wù)作為測(cè)試任務(wù)

cls: 隨機(jī)選擇分類(lèi)任務(wù)中的35個(gè)作為訓(xùn)練任務(wù),其余所有任務(wù)作為測(cè)試任務(wù)

同時(shí),對(duì)每一種任務(wù)劃分,作者進(jìn)行了5種不同的實(shí)驗(yàn)

: 在MSF階段,直接使用學(xué)習(xí)到的低維本征子空間來(lái)評(píng)估訓(xùn)練任務(wù)在訓(xùn)練數(shù)據(jù)上的性能

: 在MSF階段,直接使用學(xué)習(xí)到的低維本征子空間來(lái)評(píng)估測(cè)試任務(wù)(0-shot)的泛化性能

: 在IST階段,微調(diào)學(xué)習(xí)到的低維本征子空間來(lái)評(píng)估訓(xùn)練任務(wù)在訓(xùn)練數(shù)據(jù)上的性能

: 在IST階段,微調(diào)學(xué)習(xí)到的低維本征子空間來(lái)評(píng)估訓(xùn)練任務(wù)在新數(shù)據(jù)上的泛化性能

: 在IST階段,微調(diào)學(xué)習(xí)到的低維本征子空間來(lái)評(píng)估測(cè)試任務(wù)的泛化性能

c594f0fa-ed60-11ec-ba43-dac502259ad0.png

整體的實(shí)驗(yàn)結(jié)果如上圖所示,作者通過(guò)分析不同實(shí)驗(yàn)的結(jié)果,得出了一些比較重要的結(jié)論:

在random劃分中,僅僅微調(diào)低維本征子空間中的5個(gè)自由參數(shù),就可以分別獲得full prompt tuning 87%(訓(xùn)練過(guò)的任務(wù),不同訓(xùn)練數(shù)據(jù))以及65%(未訓(xùn)練過(guò)的任務(wù))的性能,這證明我們?cè)贛SF階段中找到的低維本征子空間是比較有效的。但從另一個(gè)方面來(lái)講,使用低維本征子空間無(wú)法獲得和full prompt tuning相當(dāng)?shù)男阅埽晕覀儾荒苤苯拥贸鲱A(yù)訓(xùn)練模型對(duì)多個(gè)任務(wù)的學(xué)習(xí)可以被重新參數(shù)化為在完全相同的子空間中的優(yōu)化的結(jié)論。

訓(xùn)練-測(cè)試任務(wù)的劃分會(huì)對(duì)結(jié)果有很大的影響。比如在cls劃分中,訓(xùn)練時(shí)找到的本征子空間可以在分類(lèi)的測(cè)試任務(wù)上有比較合理的表現(xiàn),但在非分類(lèi)的測(cè)試任務(wù)上表現(xiàn)很差。

隨著MSF階段中訓(xùn)練任務(wù)數(shù)量的增加,找到的本征子空間的泛化能力會(huì)有所提高。這反映了增加MSF階段中訓(xùn)練任務(wù)的覆蓋范圍和多樣性可以幫助IPT找到更通用的本征子空間。

結(jié)論

本文設(shè)計(jì)了IPT框架來(lái)驗(yàn)證提出的假設(shè): 預(yù)訓(xùn)練模型對(duì)多個(gè)不同下游任務(wù)的學(xué)習(xí)可以被重新參數(shù)化為在同一個(gè)低維本征子空間上的優(yōu)化。詳盡的實(shí)驗(yàn)為假設(shè)提供了一定的積極證據(jù),也幫助大家對(duì)如何更高效地使用預(yù)訓(xùn)練語(yǔ)言模型有了更好的了解。

思考

雖然文章中的實(shí)驗(yàn)結(jié)果不能直接驗(yàn)證“預(yù)訓(xùn)練模型對(duì)多個(gè)任務(wù)的學(xué)習(xí)可以被重新參數(shù)化為在完全相同的子空間中的優(yōu)化”這一假設(shè)是完全正確的,但起碼它證明了各種任務(wù)重參數(shù)化后的低維子空間是有比較大的交集的,而且我們可以通過(guò)MSF來(lái)找到這個(gè)交集。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3651

    瀏覽量

    134777

原文標(biāo)題:Prompt Learning | 五個(gè)參數(shù)解決下游任務(wù) fine-tuning

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    什么是大模型、大模型是怎么訓(xùn)練出來(lái)的及大模型作用

    ,基礎(chǔ)模型。 ? 大模型是一個(gè)簡(jiǎn)稱(chēng),完整的叫法,應(yīng)該是“人工智能預(yù)訓(xùn)練模型”。預(yù)
    的頭像 發(fā)表于 11-25 09:29 ?1878次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓(xùn)練</b>出來(lái)的及大<b class='flag-5'>模型</b>作用

    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

    鷺島論壇數(shù)據(jù)智能系列講座第4期「預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)」10月30日(周三)20:00精彩開(kāi)播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報(bào)告題目預(yù)
    的頭像 發(fā)表于 10-18 08:09 ?240次閱讀
    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的基礎(chǔ)<b class='flag-5'>模型</b>下的持續(xù)學(xué)習(xí)

    摩爾線程與羽人科技完成大語(yǔ)言模型訓(xùn)練測(cè)試

    近日,摩爾線程與羽人科技攜手宣布,雙方已成功實(shí)現(xiàn)夸娥(KUAE)千卡智算集群與羽人系列模型解決方案的訓(xùn)練兼容適配。在本次測(cè)試中,羽人科技通過(guò)摩爾線程夸娥千卡智算集群,高效完成了70億參數(shù)羽人7B
    的頭像 發(fā)表于 08-27 16:19 ?553次閱讀

    預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

    預(yù)訓(xùn)練和遷移學(xué)習(xí)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的兩個(gè)重要概念,它們?cè)谔岣?b class='flag-5'>模型性能、減少訓(xùn)練時(shí)間和降低對(duì)數(shù)據(jù)量的需求方面發(fā)揮著關(guān)鍵作用。本文將從定義、原理、應(yīng)用、區(qū)別和聯(lián)系等方面詳細(xì)探討
    的頭像 發(fā)表于 07-11 10:12 ?1122次閱讀

    語(yǔ)言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語(yǔ)言模型預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過(guò)在海量無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使
    的頭像 發(fā)表于 07-11 10:11 ?454次閱讀

    LLM預(yù)訓(xùn)練的基本概念、基本原理和主要優(yōu)勢(shì)

    在人工智能和自然語(yǔ)言處理(NLP)領(lǐng)域,大型語(yǔ)言模型(Large Language Model,簡(jiǎn)稱(chēng)LLM)的興起極大地推動(dòng)了技術(shù)的進(jìn)步和應(yīng)用的發(fā)展。LLM通過(guò)在大規(guī)模文本數(shù)據(jù)上進(jìn)行預(yù)
    的頭像 發(fā)表于 07-10 11:03 ?1114次閱讀

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要概念,尤其是在自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(jué)(CV)等領(lǐng)域中得到了廣泛應(yīng)用。
    的頭像 發(fā)表于 07-03 18:20 ?2954次閱讀

    語(yǔ)言模型:原理與工程時(shí)間+小白初識(shí)大語(yǔ)言模型

    語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練,此處預(yù)訓(xùn)練為自然語(yǔ)言處理領(lǐng)域的
    發(fā)表于 05-12 23:57

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

    。 關(guān)于大語(yǔ)言模型是否具備與人類(lèi)“系統(tǒng)2”相似的能力,存在廣泛的爭(zhēng)議。然而,隨著模型參數(shù)量的增加和大規(guī)模預(yù)訓(xùn)練的實(shí)施,大
    發(fā)表于 05-07 17:21

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型預(yù)訓(xùn)練

    語(yǔ)言模型的核心特點(diǎn)在于其龐大的參數(shù)量,這賦予了模型強(qiáng)大的學(xué)習(xí)容量,使其無(wú)需依賴(lài)微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學(xué)習(xí)容量的增加,對(duì)預(yù)
    發(fā)表于 05-07 17:10

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

    全面剖析大語(yǔ)言模型的核心技術(shù)與基礎(chǔ)知識(shí)。首先,概述自然語(yǔ)言的基本表示,這是理解大語(yǔ)言模型技術(shù)的前提。接著,詳細(xì)介紹自然
    發(fā)表于 05-05 12:17

    【大語(yǔ)言模型:原理與工程實(shí)踐】核心技術(shù)綜述

    的復(fù)雜模式和長(zhǎng)距離依賴(lài)關(guān)系。 預(yù)訓(xùn)練策略: 預(yù)訓(xùn)練是LLMs訓(xùn)練過(guò)程的第一階段,模型在大量的
    發(fā)表于 05-05 10:56

    【大語(yǔ)言模型:原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

    了探索更大、更高效模型架構(gòu)和訓(xùn)練方法的空間。在實(shí)際應(yīng)用中,大語(yǔ)言模型的縮放定律推動(dòng)了自然語(yǔ)言處理
    發(fā)表于 05-04 23:55

    【大語(yǔ)言模型:原理與工程實(shí)踐】探索《大語(yǔ)言模型原理與工程實(shí)踐》

    處理中預(yù)訓(xùn)練架構(gòu)Transformer,以及這些技術(shù)在現(xiàn)實(shí)世界中的如何應(yīng)用。通過(guò)具體案例的分析,作者展示了大語(yǔ)言模型在解決實(shí)際問(wèn)題中的強(qiáng)大能力,同時(shí)也指出了當(dāng)前技術(shù)面臨的挑戰(zhàn)和局限性。
    發(fā)表于 04-30 15:35

    名單公布!【書(shū)籍評(píng)測(cè)活動(dòng)NO.30】大規(guī)模語(yǔ)言模型:從理論到實(shí)踐

    榜銷(xiāo)售TOP1的桂冠,可想大家對(duì)本書(shū)的認(rèn)可和支持! 這本書(shū)為什么如此受歡迎?它究竟講了什么?下面就給大家詳細(xì)~~ 本書(shū)主要內(nèi)容 本書(shū)圍繞大語(yǔ)言模型構(gòu)建的四個(gè)主要階段——預(yù)訓(xùn)練、有監(jiān)督
    發(fā)表于 03-11 15:16
    主站蜘蛛池模板: 中文字幕99香蕉在线| 久久99r66热这里有精品| 国精产品一区二区三区 | 国产AV午夜精品一区二区入口 | 国产在线一区二区AV视频| 欧美亚洲精品午夜福利AV| 野花日本手机观看大全免费3 | 狠狠狠狠狠狠干| 色婷婷综合激情中文在线| 69久久国产精品热88人妻| 国际老妇高清在线观看| 日日色在线影院| 99re久久热在线播放8| 精品久久久爽爽久久久AV| 日韩精品无码久久一区二区三| 中文无码字慕在线观看| 国产午夜精品久久久久九九| 日本电影免费久久精品| 18禁黄无遮挡禁游戏在线下载| 国产综合在线视频| 色欲久久99精品久久久久久AV| 91欧洲在线视精品在亚洲| 加勒比一本之道高清视频在线观看| 三级黄色a| 99热这里只有的精品| 撅高 自己扒开 调教| 亚洲欧美色综合影院| 国产精品福利片| 日本高清免费观看| 3a丝袜论坛| 久久热国产在线视频| 亚洲欧美日韩国产另类电影| 观看免费做视频| 日本阿v直播在线| av免费网站不卡观看| 久久人妻无码毛片A片麻豆| 亚洲欧美日韩在线观看一区二区三区 | 99久久爱re热6在线播放| 久久精品男人影院| 亚洲色爽视频在线观看| 国产午夜永久福利视频在线观看 |