色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

在RTX 4090被限制的時代下,讓大模型使用RLHF更高效的方法來了

深度學習自然語言處理 ? 來源:機器之心 ? 2023-10-22 10:22 ? 次閱讀

該論文介紹了一種名為 ReMax 的新算法,專為基于人類反饋的強化學習(RLHF)而設計。ReMax 在計算效率(約減少 50% 的 GPU 內存和 2 倍的訓練速度提升)和實現簡易性(6 行代碼)上超越了最常用的算法 PPO,且性能沒有損失。

90584ea0-7004-11ee-939d-92fbcf53809c.png

論文鏈接:https://arxiv.org/abs/2310.10505

作者:李子牛,許天,張雨舜,俞揚,孫若愚,羅智泉

機構:香港中文大學(深圳),深圳市大數據研究院,南京大學,南棲仙策

開源代碼:https://github.com/liziniu/ReMax

如未額外說明,所有圖片來自于論文。 背景 今年,以 ChatGPT 為首的大語言模型(Large Language Models, LLMs) 在各個方面大放光彩,由此引發了學術界和商業界對 GPU 等計算資源的需求劇增。

比如監督訓練地調優 (supervised fine-tuning, SFT) 一個 Llama2-7B 的模型,需要消耗 80GB 以上的內存。而這往往不夠,為了和人類對齊(alignment),大語言模型還要經過 RLHF (reinforcement learning from human feedback) 的訓練。RLHF 的 GPU 消耗往往是 SFT 的 2 倍以上,訓練時間更能達到 6 倍以上。 近日,美國政府宣布限制英偉達 GPU 產品 H100, H800等進入中國市場。這項條款無疑為中國發展大語言模型(LLMs) 和人工智能增添了很多阻力。減小 RLHF 的訓練成本(GPU 消耗和訓練時間)對 LLMs 的發展非常重要。 動機 RLHF 包含三個階段: 1. 監督式地調優(Supervised Fine-Tuning, SFT)。 2. 從對比數據中學習獎勵模型(reward model)。 3. 利用強化學習(RL)算法來最大化獎勵。

90691226-7004-11ee-939d-92fbcf53809c.png

圖片來源自 InstructGPT 論文 我們發現 RLHF 的主要計算開銷來源于第三階段(獎勵最大化)。這一點可以從 DeepSpeed-Chat 的報告里看到,第三階段的訓練時間是前兩個階段時間總和的 4 倍以上。而且,根據我們的經驗,第三階段的 GPU 消耗是前兩階段的 2 倍以上。

907912f2-7004-11ee-939d-92fbcf53809c.png

圖片來自 DeepSpeed-Chat 技術報告 目前 RLHF 第 3 階段的主要計算瓶頸是什么? 我們發現該階段的計算瓶頸主要來源用來目前使用的 RL 算法:PPO 算法。PPO 算法是用來解決普適 RL 問題的最流行的算法之一,有非常多成功的案例。我們在這里省略 PPO 的技術細節,著重介紹 PPO 的一個關鍵組件:價值模型 (The value model)。價值模型是一個需要被訓練的神經網絡,能夠有效地估計給定策略的預期長期回報。盡管價值模型為 PPO 帶來了良好的性能,但它在 RLHF 任務中也引入了沉重的計算開銷。例如,為了更好地與人類偏好對齊,PPO 中的價值模型通常與 LLM 大小相似,這使存儲需求翻了一番。此外,價值模型的訓練需要存儲其梯度、激活和優化器狀態,這進一步增加了近 4 倍的 GPU 存儲需求。總結來說,PPO 和它的價值模型(以及其訓練相關部分)已成為 RLHF 獎勵最大化階段的主要計算障礙。

90849a0a-7004-11ee-939d-92fbcf53809c.png

相比 PPO,ReMax 是輕量級算法 思路是否有可能找到比 PPO 更適配 RLHF 的算法? 我們得出的答案是肯定的。這是因為 PPO 和價值模型是為通用 RL 問題設計的,而不是針對像 RLHF 這樣的特定問題(RLHF 只是 RL 問題中的一個子類)。有趣的是,我們發現 RLHF 具有三個在 PPO 中未使用的重要結構: 1. 快速模擬(fast simulation): 軌跡(即 LLM 中的整個響應)可以在很短的時間內迅速執行(小于 1s),幾乎沒有時間開銷。 2. 確定性轉移(deterministic transitions):上下文確定性依賴于過去的標記和當前生成的標記。 3. 軌跡級獎勵(trajectory-level rewards):獎勵模型只在響應完成時提供一個獎賞值。 通過這三個觀察,我們不難發現 value model 在 RLHF 的問題中是 “冗余” 的。這是因為 value model 設計的初衷是為了隨機環境下的樣本效率和慢仿真環境的計算效率。然而這在 RLHF 中是不需要的。

90951f10-7004-11ee-939d-92fbcf53809c.png

ReMax 是針對 RLHF 設計的算法,PPO 則是為通用 RL 設計的算法 方法ReMax ReMax 算法基于一個古老的策略梯度算法 REINFORCE,REINFORCE 使用的策略梯度估計器如下圖所示:

90ac6a62-7004-11ee-939d-92fbcf53809c.png

REINFORCE 梯度估計器

REINFORCE可以在計算層面利用好RLHF任務的三個性質,因為REINFORCE直接利用一個響應的獎勵來進行優化,不需要像一般的RL算法一樣需要知道中間步驟的獎勵和值函數。然而,由于策略的隨機性, REINFORCE梯度估計器存在高方差問題(在Richard Sutton的RL書里有指出),這一問題會影響模型訓練的有效性,因此REINFORCE在RLHF任務中的效果較差,見下面兩張圖片。

90b561b2-7004-11ee-939d-92fbcf53809c.png

REINFORCE 的計算代價小,但性能差

90c3c388-7004-11ee-939d-92fbcf53809c.png

REINFORCE 的(隨機)梯度值遠遠大于 ReMax 為解決這一問題,ReMax 使用貪婪生成的回答(greedy response)的獎勵作為基準值(baseline value)來構建梯度估計器,具體公式如下:

90cd25cc-7004-11ee-939d-92fbcf53809c.png

ReMax 梯度估計器 注意到,貪婪回復的獎勵90dda1d6-7004-11ee-939d-92fbcf53809c.png可以看作為期望獎勵90e4a800-7004-11ee-939d-92fbcf53809c.png的好的近似。在理想情形下(90e88b96-7004-11ee-939d-92fbcf53809c.png),對于隨機變量90efbf10-7004-11ee-939d-92fbcf53809c.png

90f9a3c2-7004-11ee-939d-92fbcf53809c.png

,因此我們能夠期望估計器91006194-7004-11ee-939d-92fbcf53809c.png具有更小的方差。 ? ? 下圖展示了 ReMax 的算法流程,紅色方框中的是核心算法改變。 ?

910bc0b6-7004-11ee-939d-92fbcf53809c.png

ReMax 算法流程 理論保證 我們證明了 ReMax 使用的梯度估計器仍然是真實策略梯度的一個無偏估計器。 詳細理論介紹見論文。 算法優點

ReMax 的核心部分可以用 6 行代碼來實現。相比之下,PPO 要額外引入重要性采樣(importance sampling),廣義優勢估計(generalized advantage estimation,GAE),價值模型學習等額外模塊。

ReMax 的超參數很少。相比之下,PPO 有額外的超參數,例如重要性采樣剪切閾值(importance sampling clipping ratio)、GAE 系數、價值模型學習率,離策略訓練輪次(off-policy training epoch)等,這些超參數都需要花大量時間去調優。

ReMax 能理論上節省約 50% 內存。相比于 PPO,ReMax 成功移除了所有和價值模型相關的部件,大大減小了內存開銷。通過計算,我們發現相比于 PPO,ReMax 能節省約 50% 內存。

效果有效性

ReMax 可以像 PPO 一樣有效地最大化獎勵

91217dde-7004-11ee-939d-92fbcf53809c.png

在 OPT-1.3B 上,ReMax 可以有效地最大化獎勵

912ac9c0-7004-11ee-939d-92fbcf53809c.png

在 OPT-1.3B 上,ReMax 的訓練非常穩定

在 GPT-4 評估下(LIMA Test Questions),ReMax 得到的策略比 SFT 和 PPO 會更好

9137c8aa-7004-11ee-939d-92fbcf53809c.png

GPT4 打分顯示 ReMax 得到的模型會更好 高效性

ReMax 能節省近 50% 的 GPU 內存。ReMax 移除掉了價值模型和它的訓練部分(梯度,優化器,激活值),從而極大節省了 GPU 內存需求。考慮 Llama2-7B,PPO 無法在 8xA100-40GB 的機器上跑起來,但是 ReMax 可以。

913d2e4e-7004-11ee-939d-92fbcf53809c.png

在 Llama2-7B 上,ReMax 可以節省近 50% 的 GPU 內存

ReMax 能加快 2 倍的訓練速度。在每一輪中,ReMax 調用 2 次生成(generation),1 次反向傳播(backpropagation);而 PPO 使用 1 次生成,2 次反向傳播。對于大模型而言,生成會比反向傳播的時間小,從而 ReMax 可以實現理論上接近 2 倍的訓練加速。

91432308-7004-11ee-939d-92fbcf53809c.png

通用性 除了 RLHF 任務,作為一個 RL 算法,ReMax 對于經典的 NLP 任務也適用。本文考慮了在 GPT-2 上進行一個電影評論續寫的任務,這里獎勵模型不是從對比數據學習的。實驗觀測到,ReMax 可以實現 2.2 倍的訓練加速和 60% 的 GPU 內存節省。

915f13e2-7004-11ee-939d-92fbcf53809c.png

在經典的 NLP 任務(文本續寫)上,ReMax 相比 PPO 實現了 2.2 倍加速 總結 最后,我們從實驗中簡要總結了 ReMax 相對于 PPO 的主要優勢。

更簡單的實現: ReMax 的核心部分 6 行代碼即可實現。這與 PPO 中的眾多復雜的代碼構建塊形成鮮明對比。

更少的內存開銷:由于移除了價值模型及其全部訓練組件,相比 PPO,ReMax 節省了大約 50% 的 GPU 內存。

更少的超參數: ReMax 成功移除了所有和價值模型訓練相關的超參數,其中包括:GAE 系數、價值模型學習率、重要性采樣時期、小批量(mini-batch)大小。這些超參數往往對問題敏感且難以調整。我們相信 ReMax 對 RLHF 研究者更加友好。

更快的訓練速度:在 GPT2(137M)的實驗中,我們觀察到 ReMax 在真實運行時間方面相比于 PPO 有 2.2 倍的加速。加速來自 ReMax 每次迭代中較少的計算開銷。通過我們的計算,該加速優勢在更大的模型上也能維持(假設在足夠大的內存下 PPO 可以被成功部署)。

優異的性能:如前所示,ReMax在中等規模實驗中與PPO實現了相當的性能,并且有時甚至超越它(可能是由于 ReMax 更容易找到合適的超參數)。我們推測這種良好的性能可以拓展到更大規模的模型中。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    538

    瀏覽量

    10315
  • ChatGPT
    +關注

    關注

    29

    文章

    1566

    瀏覽量

    7953
  • 大模型
    +關注

    關注

    2

    文章

    2541

    瀏覽量

    3025

原文標題:在RTX 4090被限制的時代下,讓大模型使用RLHF更高效的方法來了

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    拆解大語言模型RLHF中的PPO算法

    由于本文以大語言模型 RLHF 的 PPO 算法為主,所以希望你閱讀前先弄明白大語言模型 RLHF 的前兩步,即 SFT Model 和
    的頭像 發表于 12-11 18:30 ?2341次閱讀
    拆解大語言<b class='flag-5'>模型</b><b class='flag-5'>RLHF</b>中的PPO算法

    NVIDIA已限制RTX 3060的挖礦性能

    RTX 3060顯卡即將上市的這段時間里,NVIDIA最終還是對礦卡狠手,前幾天通過程序限制了挖礦性能,RTX 3060挖礦性能直接減少
    的頭像 發表于 02-22 11:04 ?4775次閱讀

    淺析RTX 4090極限功耗高達616W

    RTX 40系列一改N卡以往頻率不夠高的局面,RTX 4090核心頻率就做到了2230-2520MHz,實際運行中還可以跑得更高,還有很大的超頻潛力。
    的頭像 發表于 10-26 11:27 ?1.2w次閱讀

    4090顯卡全面架 AI芯片出口管制趨嚴

    4090顯卡全面架 AI芯片出口管制趨嚴 英偉達民用消費級的高端顯卡4090各個網上店鋪都顯示無貨,有網友吐槽沒有想到就是玩個網絡游戲,這也
    的頭像 發表于 10-19 17:24 ?2279次閱讀
    <b class='flag-5'>4090</b>顯卡全面<b class='flag-5'>下</b>架 AI芯片出口管制趨嚴

    英偉達RTX 4090顯卡將被限制對華出口 11月17日起執行

    當然,rtx 4090對中國的出口限制意味著rtx 4090顯卡在中國國內的生產也將受到影響。包括華碩、techenics、msi和pny在
    的頭像 發表于 11-03 11:32 ?2255次閱讀

    英偉達RTX 4090顯卡架!中文官網已移除產品信息

    提交原稿之前,nvidia官方網站只展示了5款rtx 40系列,但英文官方網站仍保留了rtx 4090。目前,國內電子商務交易平臺上,
    的頭像 發表于 11-20 10:24 ?1019次閱讀

    英偉達RTX 4090D顯卡爆料:全新GPU芯片,符合出口管制

    11月30日,rtx 4090d顯卡由ad102-250 gpu芯片驅動,rtx 4090使用ad102-300/301。根據英偉達的慣例,同樣的顯卡可以配置不同號碼的gpu芯片,例如
    的頭像 發表于 12-01 14:19 ?2163次閱讀

    英偉達為中國游戲玩家開發專用顯卡:RTX 4090 D ,喜迎龍年?

    根據美國政府新出口管制規定, NVIDIA GeForce RTX 4090 是被禁止向中國出口的幾種高階GPU 之一(GeForce RTX 4090 的TPP 評級超過4800 分
    的頭像 發表于 12-04 16:03 ?985次閱讀
    英偉達為中國游戲玩家開發專用顯卡:<b class='flag-5'>RTX</b> <b class='flag-5'>4090</b> D ,喜迎龍年?

    英偉達為中國市場量身打造RTX 4090 D顯卡,規避美國出口限制

    而預計RTX 4090 D需達到的運算性能限制為小于4800 TPP(Texel Processing Performance),而現款RTX 40
    的頭像 發表于 12-19 14:54 ?1116次閱讀

    NVIDIA發布中國定制版RTX 4090D

    剛剛,NVIDIA官網發布了針對中國市場定制的RTX 4090D——D就是傳說中的Dragon,對應即將到來的中國龍年。
    的頭像 發表于 12-29 10:42 ?1181次閱讀
    NVIDIA發布中國定制版<b class='flag-5'>RTX</b> <b class='flag-5'>4090</b>D

    英偉達發布RTX4090D,售價12999元起

    英偉達近日發布了新款顯卡RTX 4090 D,雖然與旗艦款RTX 4090相比,RTX 4090
    的頭像 發表于 12-29 16:05 ?1414次閱讀

    英偉達RTX 4090D正式發布:整體性能或降低10%!

    限制的GeForce RTX 4090系列。據悉,字母“D”意為Dragon,代表2024年農歷龍年。該顯卡將于明年1月正式上市。
    的頭像 發表于 01-02 16:13 ?1466次閱讀
    英偉達<b class='flag-5'>RTX</b> <b class='flag-5'>4090</b>D正式發布:整體性能或降低10%!

    影馳RTX 4090D金屬大師獨立顯卡測試

    為了能在中國市場上銷售,RTX 4090被迫縮水成了RTX 4090D,CUDA核心、Tensor張量核心、RT光追核心、紋理單元從16384個、512個、128個、512個分別減少到
    的頭像 發表于 01-15 11:23 ?1334次閱讀
    影馳<b class='flag-5'>RTX</b> <b class='flag-5'>4090</b>D金屬大師獨立顯卡測試

    英偉達RTX 4090停產 市場價格急劇上漲

    官方建議零售價(MSRP)的兩倍,徹底打破了消費者對顯卡價格下降的期望。 根據線上零售商Newegg的數據,目前市場上僅有華碩的TUF Gaming系列RTX 4090仍有售,標價為2700美元,而其他型號的價格更是高達3599-3699美元。
    的頭像 發表于 12-12 10:18 ?602次閱讀

    $1999 的 RTX 5090 來了

    RTX 5090 NVIDIA GeForce RTX 5090 是有史以來最強大的 GeForce GPU,為游戲玩家和創作者帶來了改變游戲規則的功能。以前所未有的 AI 能力應對最先進的
    的頭像 發表于 01-13 10:03 ?447次閱讀
    $1999 的 <b class='flag-5'>RTX</b> 5090 <b class='flag-5'>來了</b>
    主站蜘蛛池模板: 97在线观看免费视频 | yellow在线观看免费高清的日本 | 国产自产第一区c国产 | 亚洲精品第二页 | 亚洲日韩天堂在线中文字幕 | 正在播放国产尾随丝袜美女 | 99久久国产综合精品 | 久久久久久亚洲精品影院 | 草草久久久无码国产专区全集观看 | 宝贝你骚死哥了好爽 | 黄页网址大全免费观看 | 精品久久久久中文字幕日本 | 日本黄色www| 色婷婷综合久久久中文字幕 | 午夜视频体内射.COM.COM | 色欲AV精品人妻一区二区三区 | 99热国产这里只有精品9九 | xx在线观看 | 99国内精品久久久久久久清纯 | 国产午夜三级一区二区三 | 国产亚洲精品视频亚洲香蕉视 | 老师湿乎乎两半嫩 | 伊人亚洲综合青草青草久热 | 国语大学生自产拍在线观看 | 又黄又粗又爽免费观看 | 牲高潮99爽久久久久777 | 欧美互交人妖247 | 小小水蜜桃视频高清在线观看免费 | 丝袜情趣在线资源二区 | 少妇精品无码一区二区三区 | 国产99RE在线观看69热 | 欧美午夜精品A片一区二区HD | 快播在线电影网站 | 一边啪啪的一边呻吟声口述 | 亚洲在线无码免费观看 | 成年人视频在线免费观看 | 国产三区在线成人AV | www伊人网 | 亚洲精品久久久久中文字幕二区 | 男女免费观看在线爽爽爽视频 | 国精产品一区二区三区 |