色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大模型如何快速構建指令遵循數據集

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-06-27 16:56 ? 次閱讀

一、概述

1 Motivation

構造instruction data非常耗時耗力,常受限于質量,多樣性,創造性,阻礙了instruction-tuned模型的發展。

背景:instruction-tuned方法是指利用非常多的指令數據【人類instructions指令和respond回答數據】去finetuned LLM模型,讓模型能夠理解人類指令,訓練后使其對新的任務有非常強的zero-shot能力。

2 Methods

方法概述:本文提出self-instruct框架,通過bootstrapping off方法讓原始的LM模型直接生成instruction數據,通過過濾和篩選后,產生大量的insturction指令數據(多樣性和效果都不錯),進而可以極大降低instruction數據的構建成本。

方法步驟總結:通過少量種子數據 + LM模型本身(未經過tuned模型)=> 生成instruction(指令)+ input(指令提到的輸入,可以為空)+ output(響應輸出)=> 然后filters過濾無效和相似的樣本 => 來構造非常多的instruction指令遵循數據,詳細步驟如下:

d4cc32ac-14c1-11ee-962d-dac502259ad0.png

2.1 Defining Instruction Data

Instruction:指令

X:根據instruction,X可能為空或者不為空。例如:輸入X為空的Instruction:write an essay about school safety,輸入不為空的Instruction:write an essay about the following topic

Y:答案,只根據X或者Instruction理想的response回答

2.2 Automatic Instruction Data Generation

Instruction Generation:使用175個種子數據來生成新的Instruction,每一步采用8-few-shot的策略,其中6個是人類寫的,2個是機器生成的。

d50f2d6e-14c1-11ee-962d-dac502259ad0.png

Classification Task Identification:利用LM采用few-shot的方式來預測1中生成的instructions是否為分類任務,采用12個分類任務,19個非分類任務作為few-shot的例子。

d52c46d8-14c1-11ee-962d-dac502259ad0.png

2.3 Instance Generation:采用兩種方法來生成實例X和Y

輸入優先方法(Input-first Approach),首先根據說明提出輸入字段X,然后產生相應的輸出Y,這里task就是input X,output就是輸出Y,也是通過in-context learning來做的,主要處理非分類的實例生成。

d561ab66-14c1-11ee-962d-dac502259ad0.png

分類任務的輸出優先方法(Output-first Approach),先生成可能的類標簽,然后生成對應句子【這么做是為了控制正負樣本比例】

d576ee0e-14c1-11ee-962d-dac502259ad0.png

2.4Filtering and Postprocessing

過濾相似度比較高的,和已有的樣本ROUGE-L小于0.7的才要

過濾image,picture,graph通常LLM無法處理的詞

過濾instruction相同但是answer不同的

過濾太長或者太短

2.5FineTuning

采用多個templates模版,來encode instruction和instance進行訓練,提升不同格式的魯棒性。

3 Conclusion

比原始的GPT-3模型,絕對提升了33%,并且達到了差不多追上InstructGPT001的效果。就算利用公開的instruct數據,也有不錯的提升。

d5ad3130-14c1-11ee-962d-dac502259ad0.png

總結:

就用了175個原始種子數據,利用GPT3接口finetuned模型,比原始的GPT3高了33個點,并且居然和InstructGPT001效果差不太多了。

有了充分的訓練數據,在SUPERNI數據集(其更偏向于研究領域任務,與人類的Instruction的分布還是有差異,后續也針對真實的人類Instruction分布做了實驗)上訓練,用了本文提出的self-instruct還是有2個點的提升。

self-instruct提供了一個不用大量標注就能讓原始的LM(未經過指令學習的模型)學習理解人類指令的解決方案,極大地降低指令數據的生成和標注成本。

本文發布了大規模的synthetic數據集,方便后續大家進行instruction tuning的研究。

4 limitation

長尾效應還比較嚴重:self-instruct依賴于LMs生成數據,會繼承LM的缺陷,偏向于出現頻率高的詞。在常見的指令上效果可能不錯,在長尾樣本上可能效果比較差。

依賴大模型:依賴大模型的歸納偏差(inductive biases),可能只在大模型上效果比較好,由于大模型資源要求比較大,這也限制了小模型的使用。

可能會增強LM的偏見:可能會放大social bias,例如模型可能無法產生比較balanced的label。

二、詳細內容

1 評估本文self-instruct在用戶實際需求的Instructions上是否有效果

d5ca21be-14c1-11ee-962d-dac502259ad0.png

背景:SUPERNI數據更偏向于研究任務,這里通過頭腦風暴構造了一些更偏向用戶實際需求的Instructions,來檢驗self-instruct的效果,還是和InstructGPT系列來比較

d6073b76-14c1-11ee-962d-dac502259ad0.png

結論:效果也基本接近InstructGPT001,說明了其有效性,這里只使用了252個種子數據,也可以極大地降低Instruction構建的成本。

2 評估使用本文self-instruct方法擴充的Instruction是否真的有用

方法:從Instruction數量、回復response質量兩個角度來進行試驗,其中response質量對比是通過蒸餾更好模型的response來做的實驗。

d623ea96-14c1-11ee-962d-dac502259ad0.png

實驗1:評估擴充的訓練數據量級對效果的影響

方法:從最開始的175個種子數據,逐步增加數據量,評估效果。

結論:大概訓練數據在16K左右,效果就比較平了,帶來的提升沒那么大了。

實驗2:評估生成的response的質量對效果的影響(從更好的模型InstructGPT蒸餾得到更好的response)

結論:44.4%提升到54.4%,說明更好的回復質量對模型的提升也是巨大的。

3 生成的數據量級

d65ba30a-14c1-11ee-962d-dac502259ad0.png

訓練GPT3的數據量級:52k個Instruction數據,82k個實例。

4 生成的數據的多樣性

d67029ce-14c1-11ee-962d-dac502259ad0.png

d6a12c5e-14c1-11ee-962d-dac502259ad0.png

評估方法1:挑選top20最常見的動詞,然后畫出其top4的直接noun object分布,衡量整體的數據分布。

評估方法2:畫出與種子數據中,最相近文本的Rouge-L的分布,衡量與種子數據的分布差異。

結論:發現多樣性還不錯,這也是生成的數據能讓模型學會通用的指令遵循的原因之一。

5 生成數據的質量

d6bb8b6c-14c1-11ee-962d-dac502259ad0.png

統計指標:隨機挑選200個指令,每個指令隨機挑選一個實例來標注

指令有效率:92%

input與指令一致:79%

output正確(能很好地響應Instruction和input的要求):58%

各個場景都有效:54%

總結:盡管生成的數據還是包含誤差,但是大多數還是正確的,可以提供有用的指導,讓模型能學會遵循人類指令。

三、個人總結

相當于驗證了少量種子數據 + 原始預訓練模型 => 生成大批量 多樣性 + 質量還不錯的 指令數據的可行性 => 好處是可以極大降低指令遵循數據集構建的成本

這篇文章解釋了為什么大模型能聽懂人類指令的困惑,可以看出,原始的GPT-3模型學習了非常多的知識,但是人類指令遵循的能力非常非常差通過self-instruct構造大量的多樣、高質量的指令數據和答案,模型就開始能聽懂指令,理解這個指令的具體含義,并給出人類期望的respond響應。其中指令的【多樣性】和回復的【質量】是非常關鍵的兩個因素。

d6ce9644-14c1-11ee-962d-dac502259ad0.png

對于如何對齊人類的價值觀:可以參考復旦moss模型【參考資源1】,也是構造了非常多的對人類無害的種子數據,然后利用模型生成非常多的指令遵循數據,讓模型盡可能的生成無害的結果,從另一個角度看,如果不法分子誘導模型去生成暴力傾向等不符合人類期望的答案,那么可能會訓練出毒性非常大的模型,這也是非常恐怖的,難怪微軟的文章說原始的gpt-3.5系列可能具備更強的能力,說明OpenAI在這方面做了非常強的約束。也難怪OpenAI強烈建議對大模型進行監管。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器
    +關注

    關注

    0

    文章

    784

    瀏覽量

    40778
  • 模型
    +關注

    關注

    1

    文章

    3298

    瀏覽量

    49065
  • 數據集
    +關注

    關注

    4

    文章

    1209

    瀏覽量

    24792

原文標題:ACL2023 | 大模型如何快速構建指令遵循數據集?Self-Instruct:只需175條種子數據追上InstructGPT

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    請問NanoEdge AI數據該如何構建?

    我想用NanoEdge來識別異常的聲音,但我目前沒有辦法生成模型,我感覺可能是數據的問題,請問我該怎么構建數據
    發表于 05-28 07:27

    高階API構建模型數據使用

    了TensorFlow2.0Beta版本,同pytorch一樣支持動態執行(TensorFlow2.0默認eager模式,無需啟動會話執行計算圖),同時刪除了雜亂低階API,使用高階API簡單地構建復雜神經網絡模型,本文主要分享用高階API
    發表于 11-04 07:49

    ARM指令集詳解

    ARM指令集詳解 內容提要 ARM指令集 ARM指令集分類與指令格式 ARM指令的尋址方式 ARM
    發表于 03-09 09:39 ?263次下載
    ARM<b class='flag-5'>指令集</b>詳解

    sse指令集

    sse指令集 SSE(Streaming SIMD Extensions,單指令數據流擴展)指令集是Intel在Pentium III處理器中率先推出的。其實,早在PIII正式推出
    發表于 12-25 10:59 ?1575次閱讀

    ARM和Thumb-2指令集快速參考卡

    ARM和Thumb-2指令集快速參考卡,有需要的下來看看。
    發表于 01-12 18:07 ?21次下載

    Thumb指令集之Thumb編程模型

    所有的Thumb指令都是16位的。它們都是ARM指令重新編碼得到的,所以繼承了ARM指令集的許多特點。 ① 有數據處理、數據傳送和流控制的
    發表于 10-19 10:02 ?0次下載

    ARM和Thumb-2的指令集快速參考卡

    ARM和Thumb-2的指令集快速參考卡
    發表于 10-30 09:13 ?21次下載
    ARM和Thumb-2的<b class='flag-5'>指令集</b><b class='flag-5'>快速</b>參考卡

    thumb指令集是什么_thumb指令集與arm指令集的區別

    。thumb不是一個完整的體系結構,不能指望處理器只執行thumb指令集而不支持arm指令集。 thumb指令集分為:分支指令數據傳送
    發表于 11-03 17:34 ?1.8w次閱讀
    thumb<b class='flag-5'>指令集</b>是什么_thumb<b class='flag-5'>指令集</b>與arm<b class='flag-5'>指令集</b>的區別

    mips指令集指的是什么

    指令集是存儲在CPU內部,對CPU運算進行指導和優化的硬程序。擁有這些指令集,CPU就可以更高效地運行。MIPS指令集屬于精簡指令集,MIPS的所有
    發表于 12-16 10:25 ?1.3w次閱讀

    模型如何快速構建指令遵循數據

    構造instruction data非常耗時耗力,常受限于質量,多樣性,創造性,阻礙了instruction-tuned模型的發展。
    的頭像 發表于 06-27 16:52 ?2971次閱讀
    大<b class='flag-5'>模型</b>如何<b class='flag-5'>快速</b><b class='flag-5'>構建</b><b class='flag-5'>指令</b><b class='flag-5'>遵循</b><b class='flag-5'>數據</b><b class='flag-5'>集</b>?

    如何構建高質量的大語言模型數據

    構建高質量的大語言模型數據是訓練強大自然語言處理模型的關鍵一步。以下是一些關鍵步驟和考慮因素,有助于創建具有多樣性、準確性和時效性的
    的頭像 發表于 09-11 17:00 ?1690次閱讀

    如何解決LLMs的規則遵循問題呢?

    傳統的計算系統是圍繞計算機程序中表達的指令的執行來設計的。相反,語言模型可以遵循用自然語言表達的指令,或者從大量數據中的隱含模式中學習該做什
    的頭像 發表于 11-15 09:33 ?616次閱讀
    如何解決LLMs的規則<b class='flag-5'>遵循</b>問題呢?

    模型數據構建、挑戰與未來趨勢

    隨著深度學習技術的快速發展,大型預訓練模型如GPT-4、BERT等在各個領域取得了顯著的成功。這些大模型背后的關鍵之一是龐大的數據,為
    的頭像 發表于 12-06 15:28 ?1937次閱讀

    模型數據:突破邊界,探索未來

    隨著人工智能技術的快速發展,大型預訓練模型如GPT-4、BERT等在自然語言處理領域取得了顯著的成功。這些大模型背后的關鍵之一是龐大的數據
    的頭像 發表于 12-06 16:10 ?684次閱讀

    模型數據:力量的源泉,進步的階梯

    一、引言 在? ? 的繁榮發展中,大模型數據的作用日益凸顯。它們如龐大的知識庫,為AI提供了豐富的信息和理解能力。本文將用一種獨特的風格來探討大模型
    的頭像 發表于 12-07 17:18 ?722次閱讀
    主站蜘蛛池模板: 538prom精品视频我们不只是 | 国产一卡2卡3卡4卡孕妇网站 | 亚洲精品色情婷婷在线播放 | 久久成人永久免费播放 | 啪啪啪社区 | 视频一区国产第一页 | 日本一本免费线观看视频 | 花蝴蝶在线观看中字 | 国产一区免费在线观看 | 影音先锋av333资源网 | 国产亚洲精品久久久久久国模美 | 久久免费精彩视频 | 欧美精品成人久久网站 | 一二三四电影完整版免费观看 | 乱VODAFONEWIFI熟妇 | 语文老师扒开胸罩喂我奶 | 亚洲欧美一区二区三区导航 | 一道精品视频一区二区 | 精品福利一区 | 欧美精品专区免费观看 | 亚洲精品喷白浆在线观看 | 日本又黄又爽又色又刺激的视频 | 中国xxxxx69| 国产人妻精品久久久久久很牛 | 乐乐亚洲精品综合影院 | 精品欧美小视频在线观看 | 天美传媒麻豆精品 | 依人青青青在线观看 | 欧美多毛的大隂道 | 夜夜国产亚洲视频香蕉 | 永久精品视频无码一区 | 久久观看视频 | 中文在线观看永久免费 | 亚洲视频中文字幕 | 超清无码波多野吉衣与黑人 | 国产亚洲精品香蕉视频播放 | 伊人久在线观看视频 | 伦理 电影在线观看百度影音 | 帝王被大臣们调教高肉 | 天天拍拍国产在线视频 | 国产免费69成人精品视频 |