色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

RLAIF:一個不依賴人工的RLHF替代方案

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-09-08 16:38 ? 次閱讀

LLM可以標記人類偏好數據,用于強化學習嗎?盡管之前有一些類似的研究,但從沒有人系統地對比RLHF和RLAIF的性能。今天,我們為大家帶來一項Google最新的研究,來看看LLM是否懂得人類的偏好。

基于人類反饋的強化學習(RLHF)通過收集人類反饋,以強化學習方法訓練LLM,可以更好地理解人類偏好。然而,這個方法有一個很大的問題:收集高質量的人類反饋非常困難和耗時。

那有沒有更好的方法呢?

RLAIF方法

RLAIF即Reinforcement learning from AI feedback。顧名思義,RLAIF是指使用LLM來代替人類標記偏好,基于這些標記數據訓練獎勵模型,然后進行RL微調。

下圖是一個展示了RLAIF(上)和RLHF(下)的基本流程。

a403e6ba-4e1e-11ee-a25d-92fbcf53809c.png

如圖所示,在RLAIF中,首先使用LLM來評估給定的文本和2個候選回復,然后,這些由LLM生成的偏好數據被用來訓練一個獎勵模型,這個獎勵模型用于強化學習,以便進一步優化LLM。

一個LLM用于評估回復的prompt示例如下圖,遵循以下流程:

Preamble-描述任務介紹和說明

Few-shot exemplars(可選)

Sample to annotate

結束字符串

a4566f7a-4e1e-11ee-a25d-92fbcf53809c.png

在這篇研究中,作者還探索了:

避免位置偏差: 候選回復喂給LLM的順序可能會偏向它喜歡的候選順序,尤其是在 LLM 參數較小的情況下。為了減輕位置偏差的影響,作者進行了雙重推理和平均處理。

a493106a-4e1e-11ee-a25d-92fbcf53809c.png

prompt改進: 還嘗試了使用思維鏈(CoT)推理和self-consistency等方法促進LLM的評估。

實驗結果

作者使用PaLM 2 Extra-Small(XS)在OpenAI的過濾過的TL;DR數據集上訓練了一個SFT模型作為baseline。

對于RLHF方法,獎勵模型在OpenAI的TL;DR人類偏好數據集上進行訓練。

對于RLAIF方法,使用PaLM 2 L生成AI標記的偏好

對于強化學習,使用A2C訓練策略。策略和價值模型都是從SFT模型初始化的。

實驗主要有以下發現:

在性能方面:RLAIF與RLHF有相似的表現。

在人類評估上,與SFT策略相比,RLAIF被偏好71%的時間,而RLHF則被偏好73%的時間。盡管RLHF略微優于RLAIF,但這個差異在統計上并不顯著。

a4c5778a-4e1e-11ee-a25d-92fbcf53809c.png

直接對比勝率:RLAIF與RLHF在被偏好的程度上是平等的,勝率都是50%。

與人工寫的摘要比較:RLAIF和RLHF生成的摘要分別在79%和80%的時間內被更偏好,與參考摘要的差異也不具統計意義。

影響因素:RLAIF和RLHF策略傾向于生成比SFT策略更長的摘要,這可能是質量提升的一個因素。

長度調整后表現:即使控制摘要的長度,RLAIF和RLHF都依然在同樣的幅度內優于SFT策略。

下圖是SFT,RLHF和RLAIF策略生成的示例摘要。RLHF和RLAIF 比SFT產生更高質量的摘要。

a4e1a2de-4e1e-11ee-a25d-92fbcf53809c.png

對于prompt方式,使用詳細的OpenAI preamble和CoT給出了最高的對齊性能。少樣本提示并沒有提高準確性,甚至可能使它變得更糟。

a510c532-4e1e-11ee-a25d-92fbcf53809c.png

Self-Consistency with CoT對性能的影響如下,用T=1采樣會導致與人類偏好的一致性較低。

a539a9ca-4e1e-11ee-a25d-92fbcf53809c.png

作者還對用于評估的LLM的參數大小進行了探索,發現與人類偏好的一致性隨著LLM大小的增加而增加。

a5520c36-4e1e-11ee-a25d-92fbcf53809c.png

總結

這項工作似乎暗示RLAIF是一個不依賴于人工標注的、與RLHF可行的替代方案。但是,為了更好地了解這些發現是否能推廣到其他NLP任務,還需要在更廣泛的任務范圍內進行實驗。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3298

    瀏覽量

    49075
  • 強化學習
    +關注

    關注

    4

    文章

    268

    瀏覽量

    11283
  • LLM
    LLM
    +關注

    關注

    0

    文章

    298

    瀏覽量

    366

原文標題:RLAIF:一個不依賴人工的RLHF替代方案

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    SILABS CP2103芯片是否不依賴于我錯過的微/ picoblaze處理器?

    /TechnicalDocs/CP2103.pdf幾乎沒有說明這個芯片的使用情況(除了告訴我RTS和CTS之外)活躍的低)。這個芯片的vhdl或verilog示例代碼是否不依賴于我錯過的微/ picoblaze處理器
    發表于 07-23 13:00

    不依賴于棋盤格等輔助標定物體實現像素級相機和激光雷達自動標定的方法

    主要內容本文提出了不依賴于棋盤格等輔助標定物體,實現像素級相機和激光雷達自動標定的方法。方法直接從點云中提取3D邊特征,避免遮擋問題,并且使用了精確度更高的深度連續邊。文中首先指出:以下四種
    發表于 09-01 07:42

    新的Ad hoc安全組密鑰管理方案

    本文基于可驗證的門限秘密共享技術,提出種分布式的可驗證組密鑰管理方案。該方案具有不依賴于網絡拓撲結構的變化,在惡劣的網絡攻擊環境中仍能有效的更新組通信密鑰。
    發表于 05-25 13:49 ?7次下載

    據調查64%的人表示:日常生活中不依賴物聯網設備

    大多數人(64%)表示,他們不依賴連網設備來完成日?;顒?,這比例是36%的人表示他們依靠設備來度過日常生活的兩倍。領先的B2B研究、評級和評論公司Clutch項新調查發現,67%擁有連網設備的人擁有智能家用電器,如智能冰箱、
    發表于 10-27 10:13 ?1856次閱讀

    量子技術革GPS的命:不依賴衛星就可以進行導航

    導航衛星系統(GNSS),這類系統可以發送和接收來自繞地球運行的衛星的信號。量子加速度計是獨立的系統,不依賴任何外部信號。 這點尤其重要,因為衛星信號可能因高層建筑物等阻礙因素而
    發表于 11-19 16:22 ?417次閱讀

    PHP簡單實現不依賴于Unix系統Cron的定時任務程序資料說明

    本文檔的主要內容詳細介紹的是PHP簡單實現不依賴于Unix系統Cron的定時任務程序資料說明。
    發表于 03-01 16:52 ?2次下載
    PHP簡單實現<b class='flag-5'>不依賴</b>于Unix系統Cron的定時任務程序資料說明

    INS是不依賴于外部信息的自主式導航系統

    慣性導航系統(INS)也稱作慣性參考系統,是不依賴于外部信息、也不向外部輻射能量(如無線電導航那樣)的自主式導航系統。其工作環境不僅包括空中、地面,還可以在水下。 慣性導航的基本工作原理是以牛頓
    發表于 06-08 15:29 ?2755次閱讀

    不依賴昂貴檢測設備的偏置電流測試方法

    本篇介紹不依賴昂貴檢測設備的偏置電流測試方法,同時配合LTspice仿真增強理解。工程師可以在普通實驗室環境中,根據該方法調整放大器局部電路實現偏置電流的準確測量。 如圖2.36為
    的頭像 發表于 09-30 16:08 ?3102次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>個</b>種<b class='flag-5'>不依賴</b>昂貴檢測設備的偏置電流測試方法

    以色列成立新研究中心,開發不依賴GPS的導航系統

    以色列開發不依賴GPS的導航技術 據C4ISR網站2021年3月18日報道,以色列國防部和以色列航空工業公司(IAI)成立了新的研究中心,開發不依賴于易中斷的GPS的導航系統。全球
    的頭像 發表于 04-12 09:43 ?2065次閱讀

    openharmony代碼解析 開源代碼不依賴AOSP

    OpenHarmony 2.0 Canary在代碼托管平臺gitee上上線開源,新增22子系統,支持全面的OS能力和內存大于128M的帶屏設備開發等。
    的頭像 發表于 06-22 11:15 ?1656次閱讀

    智行者發布國內首款不依賴高精地圖的高級別自動駕駛解決方案

    與市場上其他高速領航系統不同,智行者的H-INP采用了“重感知 輕地圖”的技術方案,成為國內首款不依賴高精地圖的高級別自動駕駛解決方案
    的頭像 發表于 08-19 10:19 ?2546次閱讀

    不依賴昂貴檢測設備的偏置電流測試方法

    本篇介紹不依賴昂貴檢測設備的偏置電流測試方法,同時配合LTspice仿真增強理解。工程師可以在普通實驗室環境中,根據該方法調整放大器局部電路實現偏置電流的準確測量。
    發表于 02-22 14:17 ?857次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>個</b>種<b class='flag-5'>不依賴</b>昂貴檢測設備的偏置電流測試方法

    RLHF實踐中的框架使用與些坑 (TRL, LMFlow)

    我們主要用具體的例子展示如何在兩框架下做RLHF,并且記錄下訓練過程中我們踩到的主要的坑。這個例子包括完整的SFT,獎勵建模和 RLHF
    的頭像 發表于 06-20 14:36 ?1993次閱讀
    <b class='flag-5'>RLHF</b>實踐中的框架使用與<b class='flag-5'>一</b>些坑 (TRL, LMFlow)

    原生鴻蒙系統正式發布,余承東宣布不依賴國外核心技術

    ’,標志著華為在移動操作系統領域邁出了堅實的步。” 這款原生鴻蒙系統作為中國自主研發的移動操作系統,其最大的亮點在于不依賴于國外的編程語言和操作系統內核等核心技術,實現了真正的自主可控。這突破對于提升我國在全球科技領域的競爭
    的頭像 發表于 10-23 10:08 ?416次閱讀

    分享跨平臺通用型GUI框架

    AAGUI是不依賴特定硬件、操作系統的跨平臺通用型GUI。
    的頭像 發表于 10-28 09:21 ?490次閱讀
    分享<b class='flag-5'>一</b><b class='flag-5'>個</b>跨平臺通用型GUI框架
    主站蜘蛛池模板: 亚洲A片不卡无码久久尤物 亚洲a免费 | 午夜无码片在线观看影院 | 妹妹我要操 | 91av成年影院在线播放 | 狠狠干老司机 | 久久中文字幕乱码免费 | 亚洲精品九色在线网站 | 国产精品成人免费观看 | 色窝窝亚洲AV在线观看 | 久久综合一个色综合网 | 99久久999久久久综合精品涩 | 女子叉开腿让男子桶免费软件 | hdsex老太婆70 | 欧美夜夜噜2017最新 | 国产乱码二卡3卡四卡 | 蜜桃视频一区二区 | 免费色片播放器 | 果冻传媒2021在线观看 | 冠希和阿娇13分钟在线视频 | 在线 | 果冻国产传媒61国产免费 | 成人免费视频在线看 | A级韩国乱理伦片在线观看 a级成人免费毛片完整版 | 亚洲AV永久无码精品老司机蜜桃 | 日韩高清特级特黄毛片 | 女生下面免费看 | 久久亚洲AV无码精品午色夜麻豆 | 草莓视频在线观看免费观看高清 | 野花视频在线观看免费最新动漫 | adc免费观看| 俄罗斯6一12呦女精品 | 免费看国产精品麻豆 | 久久午夜一区二区 | 最近高清日本免费 | 久久4k岛国高清一区二区 | 好大太快了快插穿子宫了 | 在线欧美精品一区二区三区 | xfplay 无码专区 亚洲 | 日韩精品欧美亚洲高清有无 | 果冻传媒2021一二三区 | 亚洲伊人久久综合影院2021 | 窝窝色资源站 |