目前關(guān)于chatGPT的資料過(guò)于零散,沒(méi)有詳盡所有知識(shí)點(diǎn)、系統(tǒng)概述的文章,因此,筆者作了這篇總結(jié)性文章。
訓(xùn)練過(guò)程總覽
理清演化路徑
預(yù)訓(xùn)練(pretrain)
GPT-3概述
GPT 3模型的理念
GPT-3如何學(xué)習(xí)
數(shù)據(jù)集
指令微調(diào) (Instruction Fine-Tuning,IFT)
有監(jiān)督微調(diào) (Supervised Fine-tuning, SFT)
人類(lèi)反饋強(qiáng)化學(xué)習(xí) (Reinforcement Learning From Human Feedback,RLHF)
其他方法
思維鏈 (Chain-of-thought,CoT)
與chatGPT類(lèi)似的工作
引用
進(jìn)NLP群—>加入NLP交流群(備注nips/emnlp/nlpcc進(jìn)入對(duì)應(yīng)投稿群)
訓(xùn)練過(guò)程總覽
OpenAI 使用了 175B參數(shù)的大型語(yǔ)言模型(LM) 和 6B參數(shù)的獎(jiǎng)勵(lì)模型(RM)。除預(yù)訓(xùn)練之外,訓(xùn)練過(guò)程分為三步:
收集NLP各種任務(wù)的數(shù)據(jù)集,加上任務(wù)描述和提示組裝成新的數(shù)據(jù)集,并使用這些數(shù)據(jù)微調(diào)預(yù)訓(xùn)練的大型語(yǔ)言模型。包括指令微調(diào)和有監(jiān)督微調(diào)。
從上述數(shù)據(jù)集中采樣,使用大型語(yǔ)言模型生成多個(gè)響應(yīng),手動(dòng)對(duì)這些響應(yīng)進(jìn)行排名,并訓(xùn)練獎(jiǎng)勵(lì)模型 (RM) 以適應(yīng)人類(lèi)偏好。
基于第一階段的有監(jiān)督微調(diào)模型和第二階段的獎(jiǎng)勵(lì)模型,使用強(qiáng)化學(xué)習(xí)算法進(jìn)一步訓(xùn)練大型語(yǔ)言模型。
img
理清演化路徑
GPT-3.5 參數(shù)量仍然為175B,總體進(jìn)化樹(shù)如下:
img
img
預(yù)訓(xùn)練(pretrain)
GPT-3概述
GPT-3是一種自回歸模型,僅使用解碼器,訓(xùn)練目標(biāo)也是預(yù)測(cè)下一個(gè)單詞(沒(méi)有判斷下一句任務(wù))。
最大的GPT-3模型有175B參數(shù),是BERT模型大470倍(0.375B)
image-20230221144754842
GPT 3模型的理念
不需要接新的模型結(jié)構(gòu):如bert用于NER任務(wù)一般接LSTM+CRF
不需要微調(diào)
一個(gè)模型解決NLP多種任務(wù)
NLP任務(wù)都可以用生成模型解決
和人類(lèi)一樣,只需要看極少數(shù)量的樣例就能學(xué)會(huì)
GPT-3如何學(xué)習(xí)
零樣本學(xué)習(xí):提供任務(wù)描述、提示
單樣本學(xué)習(xí):提供任務(wù)描述、一個(gè)樣例、提示
少樣本學(xué)習(xí):提供任務(wù)描述、幾個(gè)樣例、提示
數(shù)據(jù)集
模型 | 發(fā)布時(shí)間 | 參數(shù)量 | 預(yù)訓(xùn)練數(shù)據(jù)量 |
---|---|---|---|
BERT-large | 2019 年 3 月 | 3.75 億 | 約3.3GB |
GPT | 2018 年 6 月 | 1.17 億 | 約 5GB |
GPT-2 | 2019 年 2 月 | 15 億 | 40GB |
GPT-3 | 2020 年 5 月 | 1,750 億 | 45TB |
BERT-large:BooksCorpus 800M words、 English Wikipedia 2.5Bwords
GPT:WebText2, BooksCorpus、Wikipedia超過(guò) 5GB。
GPT-2:WebText2, BooksCorpus、Wikipedia總量達(dá)到了40GB。
GPT-3:**WebText2, BooksCorpus、Wikipedia、Common Crawl **等數(shù)據(jù)集45TB數(shù)據(jù)。
image-20230221153905277
指令微調(diào) (Instruction Fine-Tuning,IFT)
收集NLP各種任務(wù)的數(shù)據(jù)集,加上任務(wù)描述和提示組裝成新的數(shù)據(jù)集。chatGPT使用到的數(shù)據(jù)集如下:
image-20230221113507381
相關(guān)的一些論文:
Unnatural Instructions (Honovich 等, '22)//arxiv.org/abs/2212.09689
Super-natural instructions (Wang 等, '22)//arxiv.org/abs/2204.07705
Self-Instruct (Wang 等, '22)//arxiv.org/abs/2212.10560
T0 (Sanh 等, '22)//arxiv.org/abs/2110.08207
Natural instructions 數(shù)據(jù)集 (Mishra 等, '22)//arxiv.org/abs/2104.08773
FLAN LM (Wei 等, '22)//arxiv.org/abs/2109.01652
OPT-IML (Iyer 等, '22)//arxiv.org/abs/2212.12017
有監(jiān)督微調(diào) (Supervised Fine-tuning, SFT)
此步驟未為了防止遇到敏感話題時(shí),回復(fù)【不知道】這種無(wú)意義的回答,以加入一些人工標(biāo)注數(shù)據(jù),增加回復(fù)安全性,百級(jí)別的數(shù)據(jù)集即可完成。
相關(guān)的一些論文:
Google 的 LaMDA:附錄 Ahttps://arxiv.org/abs/2201.08239
DeepMind 的 Sparrow: Sparrow :附錄 Fhttps://arxiv.org/abs/2209.14375
人類(lèi)反饋強(qiáng)化學(xué)習(xí) (Reinforcement Learning From Human Feedback,RLHF)
描述:
策略 (policy) :一個(gè)接受提示并返回一系列文本 (或文本的概率分布) 的 LM。
行動(dòng)空間 (action space) :LM 的詞表對(duì)應(yīng)的所有詞元 (一般在 50k 數(shù)量級(jí)) ,
觀察空間 (observation space) 是可能的輸入詞元序列,也比較大 (詞匯量 ^ 輸入標(biāo)記的數(shù)量) 。
獎(jiǎng)勵(lì)函數(shù)是偏好模型和策略轉(zhuǎn)變約束 (Policy shift constraint) 的結(jié)合。
此過(guò)程分為兩步:
聚合問(wèn)答數(shù)據(jù)并訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型 (Reward Model,RM)
用強(qiáng)化學(xué)習(xí) (RL) 方式微調(diào) LM
開(kāi)源數(shù)據(jù)集:
Anthropic/hh-rlhf · Datasets at Hugging Face
OpenAI 使用的是用戶提交的反饋。
image-20230221111329526
其他方法
這部分簡(jiǎn)單介紹一下和chatGPT使用的微調(diào)并列的一些方法
思維鏈 (Chain-of-thought,CoT)
如下圖所示使用一些帶有逐步推理的數(shù)據(jù)集進(jìn)行微調(diào)
橙色是任務(wù)描述,粉色是問(wèn)題和答案,藍(lán)色是推理過(guò)程
思維鏈提示 (Wei 等, '22)//arxiv.org/abs/2201.11903
與chatGPT類(lèi)似的工作
Meta 的 BlenderBot//arxiv.org/abs/2208.03188
Google 的 LaMDA//arxiv.org/abs/2201.08239
DeepMind 的 Sparrow//arxiv.org/abs/2209.14375
Anthropic 的 Assistant//arxiv.org/abs/2204.05862
審核編輯 :李倩
-
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1209瀏覽量
24794 -
nlp
+關(guān)注
關(guān)注
1文章
489瀏覽量
22079 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1566瀏覽量
7964
原文標(biāo)題:通俗易懂chatGPT原理
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論