LLM可以標記人類偏好數據,用于強化學習嗎?盡管之前有一些類似的研究,但從沒有人系統地對比RLHF和RLAIF的性能。今天,我們為大家帶來一項Google最新的研究,來看看LLM是否懂得人類的偏好。
基于人類反饋的強化學習(RLHF)通過收集人類反饋,以強化學習方法訓練LLM,可以更好地理解人類偏好。然而,這個方法有一個很大的問題:收集高質量的人類反饋非常困難和耗時。
那有沒有更好的方法呢?
RLAIF方法
RLAIF即Reinforcement learning from AI feedback。顧名思義,RLAIF是指使用LLM來代替人類標記偏好,基于這些標記數據訓練獎勵模型,然后進行RL微調。
下圖是一個展示了RLAIF(上)和RLHF(下)的基本流程。
如圖所示,在RLAIF中,首先使用LLM來評估給定的文本和2個候選回復,然后,這些由LLM生成的偏好數據被用來訓練一個獎勵模型,這個獎勵模型用于強化學習,以便進一步優化LLM。
一個LLM用于評估回復的prompt示例如下圖,遵循以下流程:
Preamble-描述任務介紹和說明
Few-shot exemplars(可選)
Sample to annotate
結束字符串
在這篇研究中,作者還探索了:
避免位置偏差: 候選回復喂給LLM的順序可能會偏向它喜歡的候選順序,尤其是在 LLM 參數較小的情況下。為了減輕位置偏差的影響,作者進行了雙重推理和平均處理。
prompt改進: 還嘗試了使用思維鏈(CoT)推理和self-consistency等方法促進LLM的評估。
實驗結果
作者使用PaLM 2 Extra-Small(XS)在OpenAI的過濾過的TL;DR數據集上訓練了一個SFT模型作為baseline。
對于RLHF方法,獎勵模型在OpenAI的TL;DR人類偏好數據集上進行訓練。
對于RLAIF方法,使用PaLM 2 L生成AI標記的偏好
對于強化學習,使用A2C訓練策略。策略和價值模型都是從SFT模型初始化的。
實驗主要有以下發現:
在性能方面:RLAIF與RLHF有相似的表現。
在人類評估上,與SFT策略相比,RLAIF被偏好71%的時間,而RLHF則被偏好73%的時間。盡管RLHF略微優于RLAIF,但這個差異在統計上并不顯著。
直接對比勝率:RLAIF與RLHF在被偏好的程度上是平等的,勝率都是50%。
與人工寫的摘要比較:RLAIF和RLHF生成的摘要分別在79%和80%的時間內被更偏好,與參考摘要的差異也不具統計意義。
影響因素:RLAIF和RLHF策略傾向于生成比SFT策略更長的摘要,這可能是質量提升的一個因素。
長度調整后表現:即使控制摘要的長度,RLAIF和RLHF都依然在同樣的幅度內優于SFT策略。
下圖是SFT,RLHF和RLAIF策略生成的示例摘要。RLHF和RLAIF 比SFT產生更高質量的摘要。
對于prompt方式,使用詳細的OpenAI preamble和CoT給出了最高的對齊性能。少樣本提示并沒有提高準確性,甚至可能使它變得更糟。
Self-Consistency with CoT對性能的影響如下,用T=1采樣會導致與人類偏好的一致性較低。
作者還對用于評估的LLM的參數大小進行了探索,發現與人類偏好的一致性隨著LLM大小的增加而增加。
總結
這項工作似乎暗示RLAIF是一個不依賴于人工標注的、與RLHF可行的替代方案。但是,為了更好地了解這些發現是否能推廣到其他NLP任務,還需要在更廣泛的任務范圍內進行實驗。
-
模型
+關注
關注
1文章
3298瀏覽量
49075 -
強化學習
+關注
關注
4文章
268瀏覽量
11283 -
LLM
+關注
關注
0文章
298瀏覽量
366
原文標題:RLAIF:一個不依賴人工的RLHF替代方案
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論