一级做a爰久久毛片武则天,视频免费,四虎影音在线

LLM可以標記人類偏好數據，用于強化學習嗎？盡管之前有一些類似的研究，但從沒有人系統地對比RLHF和RLAIF的性能。今天，我們為大家帶來一項Google最新的研究，來看看LLM是否懂得人類的偏好。

基于人類反饋的強化學習(RLHF)通過收集人類反饋，以強化學習方法訓練LLM，可以更好地理解人類偏好。然而，這個方法有一個很大的問題：收集高質量的人類反饋非常困難和耗時。

那有沒有更好的方法呢？

RLAIF方法

RLAIF即Reinforcement learning from AI feedback。顧名思義，RLAIF是指使用LLM來代替人類標記偏好，基于這些標記數據訓練獎勵模型，然后進行RL微調。

下圖是一個展示了RLAIF(上)和RLHF(下)的基本流程。

如圖所示，在RLAIF中，首先使用LLM來評估給定的文本和2個候選回復，然后，這些由LLM生成的偏好數據被用來訓練一個獎勵模型，這個獎勵模型用于強化學習，以便進一步優化LLM。

一個LLM用于評估回復的prompt示例如下圖，遵循以下流程：

Preamble-描述任務介紹和說明

Few-shot exemplars(可選)

Sample to annotate

結束字符串

在這篇研究中，作者還探索了：

避免位置偏差: 候選回復喂給LLM的順序可能會偏向它喜歡的候選順序，尤其是在 LLM 參數較小的情況下。為了減輕位置偏差的影響，作者進行了雙重推理和平均處理。

prompt改進: 還嘗試了使用思維鏈（CoT）推理和self-consistency等方法促進LLM的評估。

實驗結果

作者使用PaLM 2 Extra-Small(XS)在OpenAI的過濾過的TL;DR數據集上訓練了一個SFT模型作為baseline。

對于RLHF方法，獎勵模型在OpenAI的TL;DR人類偏好數據集上進行訓練。

對于RLAIF方法，使用PaLM 2 L生成AI標記的偏好

對于強化學習，使用A2C訓練策略。策略和價值模型都是從SFT模型初始化的。

實驗主要有以下發現：

在性能方面：RLAIF與RLHF有相似的表現。

在人類評估上，與SFT策略相比，RLAIF被偏好71%的時間，而RLHF則被偏好73%的時間。盡管RLHF略微優于RLAIF，但這個差異在統計上并不顯著。

直接對比勝率：RLAIF與RLHF在被偏好的程度上是平等的，勝率都是50%。

與人工寫的摘要比較：RLAIF和RLHF生成的摘要分別在79%和80%的時間內被更偏好，與參考摘要的差異也不具統計意義。

影響因素：RLAIF和RLHF策略傾向于生成比SFT策略更長的摘要，這可能是質量提升的一個因素。

長度調整后表現：即使控制摘要的長度，RLAIF和RLHF都依然在同樣的幅度內優于SFT策略。

下圖是SFT，RLHF和RLAIF策略生成的示例摘要。RLHF和RLAIF 比SFT產生更高質量的摘要。

對于prompt方式，使用詳細的OpenAI preamble和CoT給出了最高的對齊性能。少樣本提示并沒有提高準確性，甚至可能使它變得更糟。

Self-Consistency with CoT對性能的影響如下，用T=1采樣會導致與人類偏好的一致性較低。

作者還對用于評估的LLM的參數大小進行了探索，發現與人類偏好的一致性隨著LLM大小的增加而增加。

總結

這項工作似乎暗示RLAIF是一個不依賴于人工標注的、與RLHF可行的替代方案。但是，為了更好地了解這些發現是否能推廣到其他NLP任務，還需要在更廣泛的任務范圍內進行實驗。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

模型

模型

+關注

關注
1

文章
3298

瀏覽量
49075
強化學習

強化學習

+關注

關注
4

文章
268

瀏覽量
11283
LLM

LLM

+關注

關注
0

文章
298

瀏覽量
366

原文標題：RLAIF：一個不依賴人工的RLHF替代方案

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

SILABS CP2103芯片是否不依賴于我錯過的微/ picoblaze處理器？

/TechnicalDocs/CP2103.pdf幾乎沒有說明這個芯片的使用情況（除了告訴我RTS和CTS之外）活躍的低）。這個芯片的vhdl或verilog示例代碼是否不依賴于我錯過的微/ picoblaze處理器

發表于 07-23 13:00

一種不依賴于棋盤格等輔助標定物體實現像素級相機和激光雷達自動標定的方法

主要內容本文提出了一種不依賴于棋盤格等輔助標定物體，實現像素級相機和激光雷達自動標定的方法。方法直接從點云中提取3D邊特征，一避免遮擋問題，并且使用了精確度更高的深度連續邊。文中首先指出：以下四種

發表于 09-01 07:42

一個新的Ad hoc安全組密鑰管理方案

本文基于可驗證的門限秘密共享技術，提出一種分布式的可驗證組密鑰管理方案。該方案具有不依賴于網絡拓撲結構的變化，在惡劣的網絡攻擊環境中仍能有效的更新組通信密鑰。

發表于 05-25 13:49 ?7次下載

據調查64％的人表示：日常生活中不依賴物聯網設備

大多數人（64％）表示，他們不依賴連網設備來完成日?；顒?，這一比例是36％的人表示他們依靠設備來度過日常生活的兩倍。領先的B2B研究、評級和評論公司Clutch一項新調查發現，67％擁有連網設備的人擁有智能家用電器，如智能冰箱、

發表于 10-27 10:13 ?1856次閱讀

量子技術革GPS的命：不依賴衛星就可以進行導航

導航衛星系統（GNSS），這類系統可以發送和接收來自繞地球運行的衛星的信號。量子加速度計是一個獨立的系統，不依賴任何外部信號。這一點尤其重要，因為衛星信號可能因高層建筑物等阻礙因素而

發表于 11-19 16:22 ?417次閱讀

PHP簡單實現不依賴于Unix系統Cron的定時任務程序資料說明

本文檔的主要內容詳細介紹的是PHP簡單實現不依賴于Unix系統Cron的定時任務程序資料說明。

發表于 03-01 16:52 ?2次下載

PHP簡單實現<b class='flag-5'>不依賴</b>于Unix系統Cron的定時任務程序資料說明

INS是一種不依賴于外部信息的自主式導航系統

慣性導航系統（INS）也稱作慣性參考系統，是一種不依賴于外部信息、也不向外部輻射能量（如無線電導航那樣）的自主式導航系統。其工作環境不僅包括空中、地面，還可以在水下。慣性導航的基本工作原理是以牛頓

發表于 06-08 15:29 ?2755次閱讀

一個種不依賴昂貴檢測設備的偏置電流測試方法

本篇介紹一個種不依賴昂貴檢測設備的偏置電流測試方法，同時配合LTspice仿真增強理解。工程師可以在普通實驗室環境中，根據該方法調整放大器局部電路實現偏置電流的準確測量。如圖2.36為

發表于 09-30 16:08 ?3102次閱讀

<b class='flag-5'>一</b><b class='flag-5'>個</b>種<b class='flag-5'>不依賴</b>昂貴檢測設備的偏置電流測試方法

以色列成立新研究中心，開發不依賴GPS的導航系統

以色列開發不依賴GPS的導航技術據C4ISR網站2021年3月18日報道，以色列國防部和以色列航空工業公司（IAI）成立了一個新的研究中心，開發不依賴于易中斷的GPS的導航系統。全球

發表于 04-12 09:43 ?2065次閱讀

openharmony代碼解析開源代碼不依賴AOSP

OpenHarmony 2.0 Canary在代碼托管平臺gitee上上線開源，新增22個子系統，支持全面的OS能力和內存大于128M的帶屏設備開發等。

發表于 06-22 11:15 ?1656次閱讀

智行者發布國內首款不依賴高精地圖的高級別自動駕駛解決方案

與市場上其他高速領航系統不同，智行者的H-INP采用了“重感知輕地圖”的技術方案，成為國內首款不依賴高精地圖的高級別自動駕駛解決方案。

發表于 08-19 10:19 ?2546次閱讀

一個種不依賴昂貴檢測設備的偏置電流測試方法

本篇介紹一個種不依賴昂貴檢測設備的偏置電流測試方法，同時配合LTspice仿真增強理解。工程師可以在普通實驗室環境中，根據該方法調整放大器局部電路實現偏置電流的準確測量。

發表于 02-22 14:17 ?857次閱讀

RLHF實踐中的框架使用與一些坑 (TRL, LMFlow)

我們主要用一個具體的例子展示如何在兩個框架下做RLHF，并且記錄下訓練過程中我們踩到的主要的坑。這個例子包括完整的SFT，獎勵建模和 RLHF

發表于 06-20 14:36 ?1993次閱讀

原生鴻蒙系統正式發布，余承東宣布不依賴國外核心技術

’，標志著華為在移動操作系統領域邁出了堅實的一步。” 這款原生鴻蒙系統作為中國自主研發的移動操作系統，其最大的亮點在于不依賴于國外的編程語言和操作系統內核等核心技術，實現了真正的自主可控。這一突破對于提升我國在全球科技領域的競爭

發表于 10-23 10:08 ?416次閱讀

分享一個跨平臺通用型GUI框架

AAGUI是一個不依賴特定硬件、操作系統的跨平臺通用型GUI。

發表于 10-28 09:21 ?490次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

RLAIF：一個不依賴人工的RLHF替代方案

評論

SILABS CP2103芯片是否不依賴于我錯過的微/ picoblaze處理器？

一種不依賴于棋盤格等輔助標定物體實現像素級相機和激光雷達自動標定的方法

一個新的Ad hoc安全組密鑰管理方案

據調查64％的人表示：日常生活中不依賴物聯網設備

量子技術革GPS的命：不依賴衛星就可以進行導航

PHP簡單實現不依賴于Unix系統Cron的定時任務程序資料說明

INS是一種不依賴于外部信息的自主式導航系統

一個種不依賴昂貴檢測設備的偏置電流測試方法

以色列成立新研究中心，開發不依賴GPS的導航系統

openharmony代碼解析開源代碼不依賴AOSP

智行者發布國內首款不依賴高精地圖的高級別自動駕駛解決方案

一個種不依賴昂貴檢測設備的偏置電流測試方法

RLHF實踐中的框架使用與一些坑 (TRL, LMFlow)

原生鴻蒙系統正式發布，余承東宣布不依賴國外核心技術

分享一個跨平臺通用型GUI框架