色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

類GPT模型訓練提速26.5%,清華朱軍等人用INT4算法加速神經網絡訓練

智能感知與物聯網技術研究所 ? 來源:未知 ? 2023-07-02 20:35 ? 次閱讀

我們知道,將激活、權重和梯度量化為 4-bit 對于加速神經網絡訓練非常有價值。但現有的 4-bit 訓練方法需要自定義數字格式,而當代硬件不支持這些格式。在本文中,清華朱軍等人提出了一種使用 INT4 算法實現所有矩陣乘法的 Transformer 訓練方法。

模型訓練得快不快,這與激活值、權重、梯度等因素的要求緊密相關。

神經網絡訓練需要一定計算量,使用低精度算法(全量化訓練或 FQT 訓練)有望提升計算和內存的效率。FQT 在原始的全精度計算圖中增加了量化器和去量化器,并將昂貴的浮點運算替換為廉價的低精度浮點運算。

對 FQT 的研究旨在降低訓練數值精度,同時降低收斂速度和精度的犧牲。所需數值精度從 FP16 降到 FP8、INT32+INT8 和 INT8+INT5。FP8 訓練通過有 Transformer 引擎的 Nvidia H100 GPU 完成,這使大規模 Transformer 訓練實現了驚人的加速。

最近訓練數值精度已被壓低到 4 位( 4 bits)。Sun 等人成功訓練了幾個具有 INT4 激活 / 權重和 FP4 梯度的當代網絡;Chmiel 等人提出自定義的 4 位對數數字格式,進一步提高了精度。然而,這些 4 位訓練方法不能直接用于加速,因為它們需要自定義數字格式,這在當代硬件上是不支持的。

在 4 位這樣極低的水平上訓練存在著巨大的優化挑戰,首先前向傳播的不可微分量化器會使損失函數圖不平整,其中基于梯度的優化器很容易卡在局部最優。其次梯度在低精度下只能近似計算,這種不精確的梯度會減慢訓練過程,甚至導致訓練不穩定或發散的情況出現。

本文為流行的神經網絡 Transformer 提出了新的 INT4 訓練算法。訓練 Transformer 所用的成本巨大的線性運算都可以寫成矩陣乘法(MM)的形式。MM 形式使研究人員能夠設計更加靈活的量化器。這種量化器通過 Transformer 中的特定的激活、權重和梯度結構,更好地近似了 FP32 矩陣乘法。本文中的量化器還利用了隨機數值線性代數領域的新進展。

b3ad716e-18d4-11ee-962d-dac502259ad0.png

論文地址:https://arxiv.org/pdf/2306.11987.pdf

研究表明,對前向傳播而言,精度下降的主要原因是激活中的異常值。為了抑制該異常值,研究提出了 Hadamard 量化器,用它對變換后的激活矩陣進行量化。該變換是一個分塊對角的 Hadamard 矩陣,它將異常值所攜帶的信息擴散到異常值附近的矩陣項上,從而縮小了異常值的數值范圍。

對反向傳播而言,研究利用了激活梯度的結構稀疏性。研究表明,一些 token 的梯度非常大,但同時,其余大多數的 token 梯度又非常小,甚至比較大梯度的量化殘差更小。因此,與其計算這些小梯度,不如將計算資源用于計算較大梯度的殘差。

結合前向和反向傳播的量化技術,本文提出一種算法,即對 Transformer 中的所有線性運算使用 INT4 MMs。研究評估了在各種任務上訓練 Transformer 的算法,包括自然語言理解、問答、機器翻譯和圖像分類。與現有的 4 位訓練工作相比,研究所提出的算法實現了相媲美或更高的精度。此外,該算法與當代硬件 (如 GPU) 是兼容的,因為它不需要自定義數字格式 (如 FP4 或對數格式)。并且研究提出的原型量化 + INT4 MM 算子比 FP16 MM 基線快了 2.2 倍,將訓練速度提高了 35.1%。

前向傳播

在訓練過程中,研究者利用 INT4 算法加速所有的線性算子,并將所有計算強度較低的非線性算子設置為 FP16 格式。Transformer 中的所有線性算子都可以寫成矩陣乘法形式。為了便于演示,他們考慮了如下簡單的矩陣乘法加速。

b3c68ec4-18d4-11ee-962d-dac502259ad0.png

這種矩陣乘法的最主要用例是全連接層。

學得的步長量化

加速訓練必須使用整數運算來計算前向傳播。因此,研究者利用了學得的步長量化器(LSQ)。作為一種靜態量化方法,LSQ 的量化規模不依賴于輸入,因此比動態量化方法成本更低。相較之下,動態量化方法需要在每次迭代時動態地計算量化規模。

給定一個 FP 矩陣 X,LSQ 通過如下公式 (2) 將 X 量化為整數。

b3d5f51c-18d4-11ee-962d-dac502259ad0.png

激活異常值

簡單地將 LSQ 應用到具有 4-bit 激活 / 權重的 FQT(fully quantized training,全量化訓練)中,會由于激活異常值而導致準確度下降。如下圖 1 (a) 所示,激活的有一些異常值項,其數量級比其他項大得多。

在這種情況下,步長 s_X 在量化粒度和可表示數值范圍之間進行權衡。如果 s_X 很大,則可以很好地表示異常值,同時代價是以粗略的方式表示其他大多數項。如果 s_X 很小,則必須截斷 [?Q_Ns_X, Q_Ps_X] 范圍之外的項。

b3e22b16-18d4-11ee-962d-dac502259ad0.png

Hadamard 量化

研究者提出使用 Hadamard 量化器(HQ)來解決異常值問題,它的主要思路是在另一個異常值較少的線性空間中量化矩陣。

激活矩陣中的異常值可以形成特征級結構。這些異常值通常集中在幾個維度上,也就是 X 中只有幾列顯著大于其他列。作為一種線性變換,Hadamard 變換可以將異常值分攤到其他項中。具體地,Hadamard 變換 H_k 是一個 2^k × 2^k 矩陣。

b3f8bb7e-18d4-11ee-962d-dac502259ad0.png

為了抑制異常值,研究者對 X 和 W 的變換版本進行量化。

b40f47ae-18d4-11ee-962d-dac502259ad0.png

通過結合量化后的矩陣,研究者得到如下。

b41fa518-18d4-11ee-962d-dac502259ad0.png

其中逆變換彼此之間相互抵消,并且 MM 可以實現如下。

b434a36e-18d4-11ee-962d-dac502259ad0.png

反向傳播

研究者使用 INT4 運算來加速線性層的反向傳播。公式 (3) 中定義的線性算子 HQ-MM 具有四個輸入,分別是激活 X、權重 W 以及步長 s_X 和 s_W。給定關于損失函數 L 的輸出梯度?_YL,他們需要計算這四個輸入的梯度。

梯度的結構稀疏性

研究者注意到,訓練過程中梯度矩陣?_Y 往往非常稀疏。稀疏性結構是這樣的:?_Y 的少數行(即 tokens)具有較大的項,而大多數其他行接近全零向量。他們在下圖 2 中繪制了所有行的 per-row 范數∥(?_Y)_i:∥的直方圖。

b4448982-18d4-11ee-962d-dac502259ad0.png

Bit 拆分和平均分數采樣

研究者討論了如何設計梯度量化器,從而利用結構稀疏性在反向傳播期間準確計算 MM。高級的思路是,很多行的梯度非常的小,因而對參數梯度的影響也很小,但卻浪費了大量計算。此外,大行無法用 INT4 準確地表示。

為利用這種稀疏性,研究者提出 bit 拆分,將每個 token 的梯度拆分為更高的 4bits 和更低的 4bits。然后再通過平均分數采樣選擇信息量最大的梯度,這是 RandNLA 的一種重要性采樣技術。

實驗結果

研究在各種任務中評估了 INT4 訓練算法,包括語言模型微調、機器翻譯和圖像分類。研究使用了 CUDA 和 cutlass2 實現了所提出的 HQ-MM 和 LSS-MM 算法。除了簡單地使用 LSQ 作為嵌入層外,研究用 INT4 替換了所有浮點線性運算符,并保持最后一層分類器的全精度。并且,在此過程中,研究人員對所有評估模型采用默認架構、優化器、調度器和超參數。

收斂模型精度。下表 1 展示了收斂模型在各任務上的精度。

b474f978-18d4-11ee-962d-dac502259ad0.png

語言模型微調。與 LSQ+LUQ 相比,研究提出的算法在 bert-base 模型上提升了 5.5% 的平均精度、,在 bert-large 模型上提升了 25% 的平均精度。

研究團隊還展示了算法在 SQUAD、SQUAD 2.0、Adversarial QA、CoNLL-2003 和 SWAG 數據集上進一步展示了結果。在所有任務上,與 LSQ+LUQ 相比,該方法取得了更好的性能。與 LSQ+LUQ 相比,該方法在 SQUAD 和 SQUAD 2.0 上分別提高了 1.8% 和 3.6%。在更困難的對抗性 QA 中,該方法的 F1 分數提高了 6.8%。在 SWAG 和 CoNLL-2003 上,該方法分別提高了 6.7%、4.2% 的精度。

機器翻譯。研究還將所提出的方法用于預訓練。該方法在 WMT 14 En-De 數據集上訓練了一個基于 Transformer 的 [51] 模型用于機器翻譯。

HQ+LSS 的 BLEU 降解率約為 1.0%,小于 Ultra-low 的 2.1%,高于 LUQ 論文中報道的 0.3%。盡管如此,HQ+LSS 在這項預訓練任務上的表現仍然與現有方法相當,并且它支持當代硬件。

圖像分類。研究在 ImageNet21k 上加載預訓練的 ViT 檢查點,并在 CIFAR-10、CIFAR-100 和 ImageNet1k 上對其進行微調。

與 LSQ+LUQ 相比,研究方法將 ViT-B/32 和 ViT-L/32 的準確率分別提高了 1.1% 和 0.2%。在 ImageNet1k 上,該方法與 LSQ+LUQ 相比,ViT-B/32 的精度提高了 2%,ViT-L/32 的精度提高了 2.6%,ViT-L/32 的精度提高了 0.2%。

研究團隊進一步測試了算法在 ImageNet1K 上預訓練 DeiT-Small 模型的有效性,其中 HQ+LSS 與 LSQ+LUQ 相比仍然可以收斂到相似的精度水平,同時對硬件更加友好。

消融研究

研究者進行消融研究,以獨立地在挑戰性 CoLA 數據集上展示前向和反向方法的有效性。為了研究不同量化器對前向傳播的有效性,他們將反向傳播設置為 FP16。結果如下圖 3 (a) 所示。

對于反向傳播,研究者比較了簡單的極小極大量化器、LUQ 和他們自己的 LSS,并將前向傳播設置為 FP16。結果如下圖 3 (b) 所示,雖然位寬高于 2,但 LSS 取得的結果與 LUQ 相當,甚至略高于后者。

b498e70c-18d4-11ee-962d-dac502259ad0.png

計算和內存效率

研究者比較自己提出的 HQ-MM (HQ)、計算權重梯度的 LSS(LSSWeight)、計算激活梯度的 LSS(LSSAct)的吞吐量、它們的平均吞吐量(INT4)及下圖 4 中英偉達 RTX 3090 GPU 上 cutlass 提供的基線張量核心 FP16 GEMM 實現(FP16),它的峰值吞吐量為 142 FP16 TFLOPs 和 568 INT4 TFLOPs。

b4b29274-18d4-11ee-962d-dac502259ad0.png

研究者還比較 FP16 PyTorch AMP 以及自己 INT4 訓練算法在 8 個英偉達 A100 GPU 上訓練類 BERT 和類 GPT 語言模型的訓練吞吐量。他們改變了隱藏層大小、中間全連接層大小和批大小,并在下圖 5 中繪制了 INT4 訓練的加速比。

結果顯示,INT4 訓練算法對于類 BERT 模型實現了最高 35.1% 的加速,對于類 GPT 模型實現了最高 26.5% 的加速。

b4de6ba6-18d4-11ee-962d-dac502259ad0.png

更多技術和實驗細節請參閱原論文。

THE END


原文標題:類GPT模型訓練提速26.5%,清華朱軍等人用INT4算法加速神經網絡訓練

文章出處:【微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 物聯網
    +關注

    關注

    2909

    文章

    44578

    瀏覽量

    372857

原文標題:類GPT模型訓練提速26.5%,清華朱軍等人用INT4算法加速神經網絡訓練

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Python自動訓練人工神經網絡

    人工神經網絡(ANN)是機器學習中一種重要的模型,它模仿了人腦神經元的工作方式,通過多層節點(神經元)之間的連接和權重調整來學習和解決問題。Python由于其強大的庫支持(如Tenso
    的頭像 發表于 07-19 11:54 ?347次閱讀

    如何使用經過訓練神經網絡模型

    使用經過訓練神經網絡模型是一個涉及多個步驟的過程,包括數據準備、模型加載、預測執行以及后續優化等。
    的頭像 發表于 07-12 11:43 ?965次閱讀

    脈沖神經網絡怎么訓練

    脈沖神經網絡(SNN, Spiking Neural Network)的訓練是一個復雜但充滿挑戰的過程,它模擬了生物神經元通過脈沖(或稱為尖峰)進行信息傳遞的方式。以下是對脈沖神經網絡
    的頭像 發表于 07-12 10:13 ?581次閱讀

    20個數據可以訓練神經網絡

    當然可以,20個數據點對于訓練一個神經網絡來說可能非常有限,但這并不意味著它們不能用于訓練。實際上,神經網絡可以訓練在非常小的數據集上,但需
    的頭像 發表于 07-11 10:29 ?853次閱讀

    怎么對神經網絡重新訓練

    重新訓練神經網絡是一個復雜的過程,涉及到多個步驟和考慮因素。 引言 神經網絡是一種強大的機器學習模型,廣泛應用于圖像識別、自然語言處理、語音識別等領域。然而,隨著時間的推移,數據分布可
    的頭像 發表于 07-11 10:25 ?452次閱讀

    BP神經網絡的基本結構和訓練過程

    網絡結構,通過誤差反向傳播算法(Error Backpropagation Algorithm)來訓練網絡,實現對復雜問題的學習和解決。以下將詳細闡述BP
    的頭像 發表于 07-10 15:07 ?4255次閱讀
    BP<b class='flag-5'>神經網絡</b>的基本結構和<b class='flag-5'>訓練</b>過程

    神經網絡如何用無監督算法訓練

    標記數據的處理尤為有效,能夠充分利用互聯網上的海量數據資源。以下將詳細探討神經網絡如何用無監督算法進行訓練,包括常見的無監督學習算法、訓練
    的頭像 發表于 07-09 18:06 ?784次閱讀

    如何利用Matlab進行神經網絡訓練

    Matlab作為一款強大的數學計算軟件,廣泛應用于科學計算、數據分析、算法開發等領域。其中,Matlab的神經網絡工具箱(Neural Network Toolbox)為用戶提供了豐富的函數和工具
    的頭像 發表于 07-08 18:26 ?1846次閱讀

    人工神經網絡模型訓練的基本原理

    圖像識別、語音識別、自然語言處理等。本文將介紹人工神經網絡模型訓練的基本原理。 1. 神經網絡的基本概念 1.1 神經
    的頭像 發表于 07-05 09:16 ?652次閱讀

    BP神經網絡算法的基本流程包括

    BP神經網絡算法,即反向傳播(Backpropagation)神經網絡算法,是一種多層前饋神經網絡,通過反向傳播誤差來
    的頭像 發表于 07-03 09:52 ?489次閱讀

    卷積神經網絡訓練的是什么

    、訓練過程以及應用場景。 1. 卷積神經網絡的基本概念 1.1 卷積神經網絡的定義 卷積神經網絡是一種前饋深度學習模型,其核心思想是利用卷積
    的頭像 發表于 07-03 09:15 ?403次閱讀

    基于神經網絡算法模型構建方法

    神經網絡是一種強大的機器學習算法,廣泛應用于各種領域,如圖像識別、自然語言處理、語音識別等。本文詳細介紹了基于神經網絡算法模型構建方法,包
    的頭像 發表于 07-02 11:21 ?515次閱讀

    如何訓練和優化神經網絡

    神經網絡是人工智能領域的重要分支,廣泛應用于圖像識別、自然語言處理、語音識別等多個領域。然而,要使神經網絡在實際應用中取得良好效果,必須進行有效的訓練和優化。本文將從神經網絡
    的頭像 發表于 07-01 14:14 ?455次閱讀

    助聽器降噪神經網絡模型

    抑制任務是語音增強領域的一個重要學科, 隨著深度神經網絡的興起,提出了幾種基于深度模型的音頻處理新方法[1,2,3,4]。然而,這些通常是為離線處理而開發的,不需要考慮實時性。當使用神經網絡
    發表于 05-11 17:15

    Kaggle知識點:訓練神經網絡的7個技巧

    科學神經網絡模型使用隨機梯度下降進行訓練,模型權重使用反向傳播算法進行更新。通過訓練
    的頭像 發表于 12-30 08:27 ?653次閱讀
    Kaggle知識點:<b class='flag-5'>訓練</b><b class='flag-5'>神經網絡</b>的7個技巧
    主站蜘蛛池模板: 先锋影音av资源站av| 亚洲一二三产品区别在哪里| 无码人妻视频又大又粗欧美| 香蕉久久一区二区三区啪啪| free乌克兰性xxxxhd| 国产精品三级在线观看| 人妻体体内射精一区二区| 99久久国产露脸精品麻豆 | 欧美 亚洲综合在线一区| 天天靠天天擦天天摸| 啊好大好厉害好爽真骚| 欧美精品华人在线| 99精品视频一区在线视频免费观看| 老师湿乎乎两半嫩| 92午夜免费福利757| 麻豆蜜桃国语精品无码视频 | 扒开女生尿口| 日韩 无码 手机 在线| 拔萝卜电视剧高清免费| 日韩欧美视频一区二区在线观看| 超碰在线视频| 视频网站入口在线看| 国产精品嫩草影院在线观看免费| 乌克兰14一18处交见血| 国产小视频免费看| 求个av网站| 范冰冰hdxxxx| 天天啪免费视频在线看| 国产自拍视频在线一区| 亚洲色大成网站www久久九九| 久久精品视在线观看85| 最近中文字幕在线中文高清版| 后入式啪gif动态图| 影音先锋av天堂| 伦理电影2499伦理片| 爱暖暖1000部免费| 婷婷综合亚洲爱久久| 精品国产乱码久久久人妻| 最近中文字幕免费高清MV视频6 | 老司机福利视频一区在线播放| 99久久精品国产一区二区三区|