色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

華為提出Sorted LLaMA:SoFT代替SFT,訓練多合一大語言模型

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-09-26 16:26 ? 次閱讀

ChatGPT、LLaMa等大型語言模型(LLMs)在自然語言處理領域帶來的革命性進步。通過有監督微調(SFT)的訓練方式,這些模型擁有強大的上下文學習能力,在各種任務中都展現了超凡的表現。然而,它們也有一個不小的問題——龐大的存儲空間和高昂的計算資源成本。

但現在,研究人員們為我們帶來了一項新的解決方案——SortedNet。它允許我們在一個大型模型內創建多個“子模型”,每一個都有自己專門的任務責任區。這意味著我們可以根據自己的需求和可用資源來選擇適合的子模型,從而大幅度減少存儲空間和計算資源的需求。

而這一切的背后,是一項名為Sorted Fine-Tuning(SoFT)的新訓練技術。SoFT讓我們可以在一個訓練周期內產出多個子模型,無需任何額外的預訓練步驟。此外,這項技術還揭示了模型的中間層也能夠產生高質量的輸出,這一點在之前的研究中常常被忽視。

為了證明這種方法的有效性,研究人員使用了LLaMa 2 13B和Stanford Alpaca數據集進行測試和驗證。他們不僅對比了SFT和SoFT這兩種方法,還創建了多個不同層次的子模型來確定哪些層最能產出高質量的結果。測試結果令人鼓舞——使用SoFT創建的子模型不僅運行速度更快,而且能夠保持或甚至超越原始模型的性能水平。

讓我們一起深入了解一下SortedNet和SoFT技術吧!

02d06996-5c36-11ee-939d-92fbcf53809c.png

Paper:Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large Language Models for Dynamic Inference Using Sorted Fine-Tuning
Link:https://arxiv.org/abs/2309.08968

Many-in-One LLMs

在介紹這篇研究之前,先讓我們了解一下什么是Many-in-One。

深度神經網絡通常存在過多的參數,導致模型部署的成本增加。此外,在實際應用中,這些過度參數化的深度神經網絡需要為具有不同需求和計算預算的客戶提供服務。為了滿足這些多樣化的需求,可以考慮訓練不同大小的模型,但這將非常昂貴(涉及訓練和內存成本),或者另一種選擇是訓練Many-in-One網絡。

Many-in-One解決方案是在一個神經網絡模型內部包含多個子網絡,每個子網絡可以執行不同的任務或具有不同的結構。這個方法的目標是將多個任務或模型結構整合到一個統一的網絡中,從而提高模型的通用性和適應性。例如:

早期退出(Early Exit):在訓練過程中,Early Exit在除了最后的預測層之外,還在網絡的特定中間層上添加了額外的預測頭。這些預測頭在需要時提供中間預測,可以實現更快的推斷速度。

層丟棄(Drop Layer),通過在訓練期間隨機丟棄層來訓練具有任意深度的網絡。

最近,LLMs引起了廣泛的關注。為了使LLMs適應這些多樣化的需求,研究者提出了兩種適應方法:參數高效調整(PEFT)和模型壓縮。

PEFT:核心主干模型保持不變,而只更新一些適配器參數。這些適配器的作用就像是在LLMs上進行微調,使其適應不同的任務和需求。有一些PEFT的變種,比如LoRA、KRONA、Adapter、DyLoRA、Ladder Side-Tuning和Compacter等。這些方法可以讓LLMs更加靈活,但仍然無法提供動態大小的LLMs。

模型壓縮:在模型壓縮中,大型模型通過知識蒸餾、修剪和量化等壓縮方法來減小尺寸。這些方法可以生成不同尺寸的模型,但需要分別對每個壓縮模型進行訓練,而且它們也不是多合一模型。

現在,再回到Many in one LLMs的概念。這是一種非常有趣的想法,它們可以同時適應多種不同的任務和需求。但到目前為止,我們還沒有看到發布的多合一LLM模型。因此,在這項研究中,研究人員將一種SortedNet的訓練方法應用到LLaMA 13B模型上,這將成為第一個Many in one LLM。

方法

這項研究的方法涉及將大型語言模型(LLMs)轉化為多合一模型,靈感來自SortedNet方法,主要步驟如下:

形成子網絡:首先需要將LLMs劃分為多個子網絡。子網絡的深度(即前n層的子模型)用fn(x; θn)表示。在這項研究中,選擇的語言模型是LLaMA2 13B,總共包括40層。因此,定義了一系列不同層數的子網絡,如12層、16層、20層等。

計算子網絡的輸出:每個子模型的輸出將通過使用原始網絡最后一層的共享輸出預測頭來進行預測。需要注意的是,在LLaMA模型中,輸出預測頭之前存在一個RMSNorm層,該歸一化層被添加到每個子模型的共享預測頭之前。研究人員認為,這種歸一化對于Sorted LLama在所有子模型上更好地泛化至關重要。

目標函數:為了訓練這些子網絡,定義了每個子模型的損失函數Ln(x; θn)??倱p失L是所有子模型和主模型的損失之和。

訓練數據集:在這項研究中,使用了Stanford Alpaca數據集,該數據集包含了5.2萬個指令跟隨示例的演示。

評估:除了評估最后一層的嵌入質量外,還評估了從第1到第n個塊的中間輸出的嵌入質量。Panda-LM基準用于比較不同子模型的輸出。Panda-LM使用一個大型語言模型來評估來自兩個源的生成文本的質量。最終的評估結果包括勝利次數、失敗次數和驗證集中的平局次數。最終得分是通過特定的公式計算出來,表示模型在指令跟隨任務上的性能,得分范圍在-1到1之間。

Baseline:作者對LLama2 13B模型進行了微調,采用了兩種不同的設置作為基線:常規監督微調(SFT)和排序微調(SoFT)。其中,常規監督式微調是常見做法,主要關注網絡的最后一層的訓練。在這種情況下,只對網絡的最后一層進行微調。排序微調(SoFT)下,計算從第12層到第40層(最后一層)的多個輸出的損失,分為四個間隔,并同時訓練多個模型,就像在前面的部分中解釋的那樣。

實驗結果

對于生成模型的不同層排序信息的影響是什么?

研究者首先關注了在不同層次的生成模型中對信息進行排序的效果。他們進行了一系列實驗,生成了不同層次的響應,并使用PandaLM評估器進行了成對比較。結果顯示,Sorted Fine-Tuning對于將學到的知識傳遞到中間層具有顯著影響。在自動評估中,Sorted LLaMA在幾乎所有層次上都表現出色,遠遠超過了常規微調(SFT)。

02f0d654-5c36-11ee-939d-92fbcf53809c.png

需要注意的是,盡管對SoFT的性能進行了zero-shot評估,但為了更好地理解SFT層次的結果,研究者進行了額外的訓練——對每個子模型的分類層進行訓練。可以注意到,與Sorted LLaMA的第12層相比,SFT的第12層性能略好。下表是一個生成的回復例子,可以看到SFT中較早層的生成文本大多是亂碼的。當我們進入SFT中的較高層時,生成的文本變得越來越有意義,這使得與Sorted LLAMA層的比較更加合理。

03109f5c-5c36-11ee-939d-92fbcf53809c.png

這一部分的實驗結果呈現出了Sorted Fine-Tuning對于LLama2模型性能的積極影響,尤其是在中間層次的性能上,這為后續的研究提供了重要基準。

此外,結果還突顯了Sorted Fine-Tuning能夠生成性能強大且尺寸較小的子模型,這些子模型與原始模型的性能相媲美。在接下來的圖表中,研究者進行了SFT和SoFT在不同條件下的評估,結果顯示,無論是零-shot還是Early-Exit,兩種方法的結果幾乎沒有變化。這些實驗證明了Sorted Fine-Tuning的魯棒性和有效性。

0333c626-5c36-11ee-939d-92fbcf53809c.png

034e2804-5c36-11ee-939d-92fbcf53809c.png

結果分析

SoFT和SFT學習到的概率分布對比

研究者使用Kullback-Leibler(KL)散度作為度量標準來衡量兩個概率分布之間的相似性。

下圖(a)比較了Sorted LLaMA和SFT子模型在不同輸出位置上的概率分布。首先,圖(a)左展示了與SFT模型的最后一層以及從第12層到第36層的層次之間的比較??梢悦黠@看出,與生成初始標記后的最后一層相比,即使在較高的層次,如36和32,輸出分布迅速發散。需要注意的是,這種評估是在zero-shot方式下生成的,沒有調整分類器頭。

03631b06-5c36-11ee-939d-92fbcf53809c.png

下圖(b)顯示了在Sorted LLaMA中,隨著我們靠近最后一層,生成結果的可能性分布越來越接近完整尺寸子模型,至少在生成文本的初始位置上是如此。

037eb578-5c36-11ee-939d-92fbcf53809c.png

下圖(c)展示了不同SFT層次與最后一個Sorted LLaMA層次之間的比較。圖中顯示,只有SFT的完整尺寸輸出分布接近排序的完整尺寸模型,而其他層次的分布在生成文本的初始步驟中與SoFT相比迅速發散。

039d8fca-5c36-11ee-939d-92fbcf53809c.png

圖(d)比較了所有排序層次的輸出分布與最后一個SFT層次的輸出分布。與圖4c(左)相比,圖4d(左)顯示Sorted LLaMA甚至在較低層次的初始輸出標記上也能保持與SFT完整尺寸模型接近的輸出分布。

03bac7ca-5c36-11ee-939d-92fbcf53809c.png

總結

這項工作提出了Sorted LLaMA,它是一種基于Sorted Fine-Tuning而不是監督微調獲得的多合一LLaMA模型,用于動態推理。Sorted LLaMA釋放了中間層的潛在表示能力,提供了無需預訓練或與模型壓縮相關的額外開銷的動態自適應能力。它為NLP領域中生成語言模型的優化提供了有前途的途徑。

SoFT使這些模型的部署更加高效。由于所有子模型仍然是原始模型的組成部分,因此存儲要求和不同計算需求之間的過渡成本最小化,使得在推理期間管理多個模型成為現實。

這些分析結果揭示了Sorted Fine-Tuning對于生成模型的輸出分布的影響,特別是在不同的模型層次上,以及Sorted LLaMA在保持輸出分布方面的能力。這些結果有助于更深入地理解Sorted Fine-Tuning方法的效果。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 華為
    +關注

    關注

    216

    文章

    34462

    瀏覽量

    251820
  • 模型
    +關注

    關注

    1

    文章

    3248

    瀏覽量

    48859
  • 語言模型
    +關注

    關注

    0

    文章

    526

    瀏覽量

    10277
  • ChatGPT
    +關注

    關注

    29

    文章

    1562

    瀏覽量

    7699

原文標題:華為提出Sorted LLaMA:SoFT代替SFT,訓練多合一大語言模型

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    【飛騰派4G版免費試用】仙女姐姐的嵌入式實驗室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

    訓練語言模型。該模型最大的特點就是基于以較小的參數規模取得了優秀的性能,根據官網提供的信息,LLaMA
    發表于 12-22 10:18

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    模型架構奠定基礎。然后,引介些經典的預訓練模型,如BERT、GPT等。最后,解讀ChatGPT和LLaMA系列
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    訓練數據時,數量、質量和多樣性三者缺不可。 數據的多樣性對于大語言模型至關重要,這主要體現在數據的類別和來源兩個方面。豐富的數據類別能夠提供多樣的
    發表于 05-07 17:10

    Multilingual多語言訓練語言模型的套路

    Facebook在Crosslingual language model pretraining(NIPS 2019)文中提出XLM預訓練語言
    的頭像 發表于 05-05 15:23 ?2987次閱讀

    種基于亂序語言模型的預訓練模型-PERT

    由于亂序語言模型不使用[MASK]標記,減輕了預訓練任務與微調任務之間的gap,并由于預測空間大小為輸入序列長度,使得計算效率高于掩碼語言模型
    的頭像 發表于 05-10 15:01 ?1551次閱讀

    基于預訓練模型語言增強的零樣本視覺學習

    些非自然圖像中要比傳統模型表現更好 CoOp 增加些 prompt 會讓模型能力進步提升 怎么讓能力更好?可以引入其他知識,即其他的
    的頭像 發表于 06-15 16:36 ?572次閱讀
    基于預<b class='flag-5'>訓練</b><b class='flag-5'>模型</b>和<b class='flag-5'>語言</b>增強的零樣本視覺學習

    Meta發布款可以使用文本提示生成代碼的大型語言模型Code Llama

    今天,Meta發布了Code Llama,款可以使用文本提示生成代碼的大型語言模型(LLM)。
    的頭像 發表于 08-25 09:06 ?1510次閱讀
    Meta發布<b class='flag-5'>一</b>款可以使用文本提示生成代碼的大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b>Code <b class='flag-5'>Llama</b>

    語言模型(LLM)預訓練數據集調研分析

    語言模型涉及數據的通常有有多個階段(Aligning language models to follow instructions [1] ):pre-train、sft(supervised
    的頭像 發表于 09-19 10:00 ?1167次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>(LLM)預<b class='flag-5'>訓練</b>數據集調研分析

    語言模型簡介:基于大語言模型模型全家桶Amazon Bedrock

    本文基于亞馬遜云科技推出的大語言模型與生成式AI的全家桶:Bedrock對大語言模型進行介紹。大語言模型
    的頭像 發表于 12-04 15:51 ?800次閱讀

    Meta推出最強開源模型Llama 3 要挑戰GPT

    公司這次開源了Llama 3 8B與70B兩款不同規模的模型,開發者可以免費使用,而Meta公司還將陸續推出系列具備模態、多語言對話、更
    的頭像 發表于 04-19 17:00 ?843次閱讀

    語言模型的預訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型的預訓練是這技術發展的關鍵步驟,它通過在海量無標簽數據上進行訓練,使
    的頭像 發表于 07-11 10:11 ?437次閱讀

    Llama 3 語言模型應用

    在人工智能領域,語言模型的發展直是研究的熱點。隨著技術的不斷進步,我們見證了從簡單的關鍵詞匹配到復雜的上下文理解的轉變。 、Llama
    的頭像 發表于 10-27 14:15 ?287次閱讀

    Llama 3 模型訓練技巧

    Llama 3 模型,假設是指個先進的人工智能模型,可能是個虛構的或者是個特定領域的術語。
    的頭像 發表于 10-27 14:24 ?325次閱讀

    從零開始訓練個大語言模型需要投資多少錢?

    ,前言 ? 在AI領域,訓練個大型語言模型(LLM)是個耗時且復雜的過程。幾乎每個做大型
    的頭像 發表于 11-08 14:15 ?219次閱讀
    從零開始<b class='flag-5'>訓練</b><b class='flag-5'>一</b>個大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>需要投資多少錢?

    用Ollama輕松搞定Llama 3.2 Vision模型本地部署

    Ollama的安裝。 Llama3.2 Vision簡介 Llama 3.2 Vision是模態大型
    的頭像 發表于 11-23 17:22 ?1120次閱讀
    用Ollama輕松搞定<b class='flag-5'>Llama</b> 3.2 Vision<b class='flag-5'>模型</b>本地部署
    主站蜘蛛池模板: 闺蜜撬开我的腿用黄瓜折磨我| 亚洲一级特黄| 亚洲 欧美 国产 综合五月天| 99久久久久精品国产免费麻豆| 好男人社区| 亚洲 欧美 国产 综合不卡| 国产白丝精品爽爽久久蜜臀 | 秋霞网韩国理伦片免费看| 91av成年影院在线播放| 久久综合狠狠综合狠狠| 尤物久久99国产综合精品| 国内精品伊人久久久久| 亚洲国产在线精品国偷产拍| 国产亚洲美女在线视频视频| 亚洲AV久久无码精品九号 | 久久精品亚洲国产AV涩情| 狠狠狠的在啪线香蕉| 侮辱丰满美丽的人妻| 国产精品一区二区AV白丝在线| 污到湿的爽文免费阅读| 最近免费中文字幕完整版HD | 日本老妇一级特黄aa大片| 成人a毛片久久免费播放| 日本少妇无码精品12P| 国产ts在线| 亚洲国产在线午夜视频无| 精品一区二区免费视频蜜桃网| 孕妇bbwbbwbbwbbw超清| 毛片亚洲毛片亚洲毛片| caoporen超碰在线视频| 日韩亚洲欧美中文高清| 506070老熟肥妇bbwxx视频| 美女内射少妇三区五区| my pico未删减在线观看| 色尼玛亚洲| 狠狠狠的在啪线香蕉| 最新男同鸭子ktv| 全彩acg无翼乌火影忍者| 国产精品JK白丝AV网站| 伊人亚洲综合网色| 日本人HD18HD18|