昨天Meta AI+CMU這篇文章一出,twitter都炸了!
LIMA,只使用1000個精心挑選的樣本微調(diào)一個 65B LLaMa,無需RLHF,性能媲美甚至優(yōu)于GPT-4!
論文:LIMA: Less Is More for Alignment
地址:https://arxiv.org/pdf/2305.11206.pdf
天下人苦“對齊”久矣!要讓預(yù)訓(xùn)練語言模型的響應(yīng)和特定任務(wù)和用戶偏好對齊,動輒需要百萬示例數(shù)據(jù)集上的instruction tuning、以及最近從人類反饋中進(jìn)行的強化學(xué)習(xí),才能實現(xiàn)ChatGPT級別的性能。
這篇文章旨在用簡單的方法解決復(fù)雜的對齊問題,作者提出表面對齊假說(Superficial Alignment Hypothesis),將對齊視為一個簡單的過程:學(xué)習(xí)與用戶交互的樣式或格式,來展示預(yù)訓(xùn)練期間就已經(jīng)獲得的知識和能力!
結(jié)果發(fā)現(xiàn),少量高質(zhì)量樣例上的簡單微調(diào)就足以與當(dāng)今最先進(jìn)的技術(shù)競爭!這也證明預(yù)訓(xùn)練過程的強大威力和重要性,遠(yuǎn)勝于大規(guī)模instruction tuning和強化學(xué)習(xí)!
實驗設(shè)置
數(shù)據(jù)集來源:這1000個近似真實用戶提示和高質(zhì)量響應(yīng)的示例中,有750個來自Stack Exchange和wikiHow這樣的社區(qū)論壇,其余250個則是手動編寫。
微調(diào)的超參數(shù):使用AdamW進(jìn)行微調(diào),其中,權(quán)重衰減為0.1。沒有熱身步驟,初始學(xué)習(xí)率設(shè)置為,并線性地降至訓(xùn)練結(jié)束時的。批量大小設(shè)為32個示例(更小的模型為64個),長度大于2048 token的文本將被裁剪。與以往的顯著不同是在殘差連接上應(yīng)用dropout,從底層的 開始,線性升高到最后一層的 (更小的模型為 )。
基準(zhǔn)模型
實驗將 LIMA 與五個基準(zhǔn)模型進(jìn)行比較:
(1)Alpaca 65B:將 LLaMa 65B 在 Alpaca 訓(xùn)練集中的 52,000 個樣例上進(jìn)行微調(diào);(2) OpenAI 的DaVinci003,經(jīng)過 RLHF 訓(xùn)練的大語言模型;(3) 基于 PaLM 的 谷歌Bard;(4) Anthropic 的Claude, 52B 參數(shù),經(jīng)過從 AI 反饋進(jìn)行強化學(xué)習(xí) (Constitutional AI) 訓(xùn)練;(5) OpenAI 的GPT-4,經(jīng)過 RLHF 訓(xùn)練,目前認(rèn)為最先進(jìn)的大語言模型。
結(jié)果
根據(jù)人類偏好的實驗結(jié)果,LIMA 的表現(xiàn)比 Alpaca 65B 和 DaVinci003 都要更好!盡管Alpaca 65B 的訓(xùn)練數(shù)據(jù)量比 LIMA 高52倍,而DaVinci003 采用了 RLHF,一種被認(rèn)為是更優(yōu)秀的對齊方法。
Bard 情況要好,在 42% 的時間產(chǎn)生了比 LIMA 更好的響應(yīng);然而,這也意味著至少58%的時間, LIMA 的表現(xiàn)和 Bard 相當(dāng)。
最后,雖然 Claude 和 GPT-4 通常比 LIMA 的表現(xiàn)更加出色,但很多情況下,LIMA 確實能產(chǎn)生更好的響應(yīng)。有些諷刺的是,即使是 GPT-4 也有19% 的時間會認(rèn)為 LIMA 的輸出更好。
我們來欣賞下LLaMa的出色表演。藍(lán)色文本為prompt,左邊是與訓(xùn)練集中示例相關(guān)的提示,中間是訓(xùn)練集中不存在的提示,右邊則是挑戰(zhàn)模型拒絕不安全行為。
數(shù)據(jù)質(zhì)量和多樣性更重要
為了證明LIMA (Less Is More for Alignment)這個少勝于多的觀點,作者通過消融實驗研究了訓(xùn)練數(shù)據(jù)的多樣性、質(zhì)量和數(shù)量對模型的影響。
結(jié)果發(fā)現(xiàn),數(shù)據(jù)質(zhì)量對生成質(zhì)量存在顯著影響,使用篩選過的數(shù)據(jù)集訓(xùn)練的模型與使用未經(jīng)過濾的數(shù)據(jù)源訓(xùn)練的模型之間存在0.5分差異。但是,令人驚訝的是,示例數(shù)量的加倍并不能改善響應(yīng)的質(zhì)量。這表明對齊的 scaling laws 不僅僅取決于數(shù)量,而在于保證質(zhì)量的同時提高提示的多樣性。
多輪對話
不過,一個僅在1,000個單輪對話上進(jìn)行微調(diào)的模型能否從事多輪對話(Multi-Turn Dialogue)呢?
在零樣本上,LIMA的響應(yīng)出奇地連貫,并引用了前面對話的信息。但很明顯,這個模型正在超出分布范圍;在10次交流中有6次,LIMA在3個互動之內(nèi)未能遵循提示。
為了提高對話能力,作者收集了30個多輪對話鏈。使用組合的1,030個示例對預(yù)訓(xùn)練的LLaMa模型進(jìn)行微調(diào),得到一個新版本的LIMA,并針對相同的提示進(jìn)行了10次實時對話。發(fā)現(xiàn)加入這30個示例后生成質(zhì)量顯著提升,優(yōu)質(zhì)響應(yīng)比例從45.2%提高到76.1%!
30個樣本的有限監(jiān)督就能調(diào)用模型的多輪對話能力,這也支持了作者提出的表面對齊假說,即:這些能力是在預(yù)訓(xùn)練期間學(xué)習(xí)的。
總結(jié)
作者在discussion部分指出了該方法的一系列問題:比如構(gòu)建數(shù)據(jù)集示例需要巨大的腦力投入、難以擴展,不如產(chǎn)品級別的模型穩(wěn)健等~
話雖如此,這篇研究證明了簡單方法就有解決復(fù)雜對齊問題的潛力。幾乎所有大語言模型中的知識都是在預(yù)訓(xùn)練期間學(xué)習(xí)的,教導(dǎo)模型產(chǎn)生高質(zhì)量輸出只需少量但精心的instructional tuning.
簡單才是王道!
審核編輯 :李倩
-
語言模型
+關(guān)注
關(guān)注
0文章
536瀏覽量
10311 -
CMU
+關(guān)注
關(guān)注
0文章
21瀏覽量
15268 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1566瀏覽量
7927
原文標(biāo)題:Meta AI 重磅推出LIMA!媲美GPT-4、無需RLHF就能對齊!
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論