色欲麻将,综合图片亚洲,颜面facesitting口舌

現(xiàn)在的模型動輒數(shù)百、數(shù)千億參數(shù)，普通人訓不動怎么辦？

前不久，谷歌發(fā)布了參數(shù)量為 1.6 萬億的語言模型Swith Transformer，將 GPT-3 創(chuàng)下的參數(shù)量記錄（1750 億）推至新高。這些大模型的出現(xiàn)讓普通研究者越發(fā)絕望：沒有「鈔能力」、沒有一大堆 GPU 就做不了 AI 研究了嗎？

在此背景下，部分研究者開始思考：如何讓這些大模型的訓練變得更加接地氣？也就是說，怎么用更少的卡訓練更大的模型？

為了解決這個問題，來自微軟、加州大學默塞德分校的研究者提出了一種名為「 ZeRO-Offload 」的異構(gòu)深度學習訓練技術(shù)，可以在單個 GPU 上訓練擁有 130 億參數(shù)的深度學習模型，讓普通研究者也能著手大模型的訓練。與 Pytorch 等流行框架相比，ZeRO-Offload 將可訓練的模型規(guī)模提升了 10 倍，而且不需要數(shù)據(jù)科學家對模型做出任何改變，也不會犧牲計算效率。

論文鏈接：https://arxiv.org/pdf/2101.06840.pdf

ZeRO-Offload 通過將數(shù)據(jù)和計算卸載（offload）至 CPU 來實現(xiàn)大規(guī)模模型訓練。為了不降低計算效率，它被設(shè)計為最小化與 GPU 之間的數(shù)據(jù)往來，并在盡可能節(jié)省 GPU 內(nèi)存的同時降低 CPU 的計算時間。因此，對于一個參數(shù)量為 100 億的模型，ZeRO-Offload 可以在單個 NVIDIA V100 GPU 上實現(xiàn) 40 TFlops/GPU。相比之下，使用 PyTorch 訓練一個參數(shù)量為 14 億的模型僅能達到 30TFlops，這是在不耗盡內(nèi)存的情況下所能訓練的最大模型。ZeRO-Offload 還可以擴展至多 GPU 設(shè)置并實現(xiàn)線性加速，最多可在 128 個 GPU 上實現(xiàn)近似線性加速。

此外，ZeRO-Offload 還可以和模型并行一起使用，在一個 DGX-2 box AI 服務(wù)器上訓練參數(shù)量超 700 億的模型。與單獨使用模型并行相比，這一參數(shù)量實現(xiàn)了 4.5 倍的規(guī)模提升。

在下文中，我們將結(jié)合 Medium 博主 LORENZ KUHN 的一篇博客來詳細了解這篇論文。

ZeRO-Offload 是什么？

ZeRO-Offload 是一種通過將數(shù)據(jù)和計算從 GPU 卸載到 CPU，以此減少神經(jīng)網(wǎng)絡(luò)訓練期間 GPU 內(nèi)存占用的方法，該方法提供了更高的訓練吞吐量，并避免了移動數(shù)據(jù)和在 CPU 上執(zhí)行計算導致的減速問題。

借助 ZeRO-offload，使用相同的硬件能訓練以往 10 倍大的模型，即使在單個 GPU 上也是如此。比如在一個 32GB RAM 的 V100 GPU 上訓練百億參數(shù)的 GPT-2。

此外，ZeRO-offload 還能實現(xiàn)在多 GPU 設(shè)置中的近似線性擴展。

對于研究者來說，ZeRO-offload 適用的情況包括：

想訓練更大的模型，或者想更快地訓練現(xiàn)在的模型，因為 ZeRO-offload 允許訓練更大的 batch size；

你正在使用 PyTorch，并且愿意 / 能夠使用微軟的 DeepSpeed 庫（ZeRO-offload 的其他實現(xiàn)形式暫未推出），你也可以嘗試根據(jù)官方實現(xiàn)自行調(diào)整；

愿意接受一些建模時的限制，比如當前版本的 ZeRO-Offload 需要搭配使用 Adam 的混合精度訓練。

如何使用？

ZeRO-Offload 在微軟的 DeepSpeed 庫中實現(xiàn)，官方實現(xiàn)地址：https://github.com/microsoft/DeepSpeed/blob/6e65c2cc084ecfc393c67a2f64639e8d08d325f6/deepspeed/runtime/zero/stage2.py。

在 DeepSpeed 中設(shè)置完畢后，使用 ZeRO-Offload 就不需要太多額外的工作了，只需要修改一些標志和配置文件。

目前，Hugging Face 的 transformers 庫與 DeepSpeed 進行了實驗性集成，使用方法和基準測試結(jié)果參見：https://huggingface.co/blog/zero-deepspeed-fairscale。

Facebook 研究院的 fairscale 有 ZeRO 的部分實現(xiàn)，ZeRO-Offload 正是基于 ZeRO 這一多 GPU 內(nèi)存優(yōu)化方法構(gòu)建的。目前還不支持 CPU 卸載。

ZeRO-Offload 的工作原理

ZeRO-Offload 是基于 Zero Redundancy Optimizer （ZeRO）構(gòu)建的。ZeRO 是微軟在 2020 年 2 月提出的一種萬億級模型參數(shù)訓練方法，用于數(shù)據(jù)并行和模型并行訓練中的內(nèi)存優(yōu)化，其中梯度、參數(shù)和優(yōu)化器狀態(tài)分布在多 GPU 內(nèi)存中，沒有任何冗余。這使得 GPU 之間的通信開銷保持在比較低的狀態(tài)。

與標準數(shù)據(jù)并行基準相比，ZeRO 在三個階段中節(jié)省的內(nèi)存和通信用量。

讓我們來回顧一下 ZeRO：

為了解決數(shù)據(jù)并行和模型并行存在的問題，ZeRO 提供了三階段的優(yōu)化方法，分別為優(yōu)化器狀態(tài)分割、梯度分割、參數(shù)分割，三個階段按順序?qū)嵤?/p>

在優(yōu)化器分割狀態(tài)：ZeRO 降低了 3/4 的內(nèi)存，通信量和數(shù)據(jù)并行相同；

加入梯度分割：降低了 7/8 的內(nèi)存，通信量和數(shù)據(jù)并行相同；

加入?yún)?shù)分割：內(nèi)存減少與數(shù)據(jù)并行度呈線性關(guān)系。例如，在 64 個 GPU 上進行分割的時候，可以將內(nèi)存降至 1/64。在通信量上有 50% 的提升。

在去年 9 月份的博客中，微軟這么介紹 ZeRO-Offload：

ZeRO-Offload 繼承了 ZeRO-2 的優(yōu)化器狀態(tài)和梯度分割。但與 ZeRO-2 不同的是，ZeRO-Offload 不在每塊 GPU 上保持優(yōu)化器狀態(tài)和梯度的分割，而是將二者卸載至主機 CPU 內(nèi)存。在整個訓練階段，優(yōu)化器狀態(tài)都保存在 CPU 內(nèi)存中；而梯度則在反向傳播過程中在 GPU 上利用 reduce-scatter 進行計算和求均值，然后每個數(shù)據(jù)并行線程將屬于其分割的梯度平均值卸載到 CPU 內(nèi)存中（參見下圖 g offload），將其余的拋棄。一旦梯度到達 CPU，則每個數(shù)據(jù)并行線程直接在 CPU 上并行更新優(yōu)化器狀態(tài)分割（參見下圖 p update）。

之后，將參數(shù)分割移回 GPU，再在 GPU 上執(zhí)行 all-gather 操作，收集所有更新后的參數(shù)（參見下圖 g swap）。ZeRO-Offload 還利用單獨的 CUDA 流來窮盡通信與計算中的重疊，從而最大化訓練效率。

ZeRO-Offload 概覽。

值得注意的是，ZeRO-Offload 專為使用 Adam 的混合精度訓練而設(shè)計。也就是說，當前版本的 ZeRO-Offload 使用 Adam 的優(yōu)化版本 DeepCPUAdam。其主要原因是避免 CPU 計算成為整個過程中的瓶頸。DeepCPUAdam 的速度是 Adam PyTorch 實現(xiàn)的 6 倍。

實驗結(jié)果

最后來看一下 ZeRO-Offload 論文中提供的一些實驗結(jié)果。

下圖 7 展示了利用 ZeRO-Offload 技術(shù)在 1 個、4 個或 16 個 GPU（一個 DGX-2）上可以訓練的最大模型情況。

下圖 11 展示了每個 GPU 的吞吐量隨 GPU 數(shù)量增加而呈現(xiàn)的變化情況。可以看出，在 GPU 數(shù)量逐漸增加至 128 個的過程中，ZeRO-Offload 幾乎可以實現(xiàn)吞吐量的線性加速。

下圖 8 展示了使用 PyTorch、L2L 和 ZeRO-Offload 實現(xiàn)的每個 GPU 吞吐量差異。從中可以看出，利用 ZeRO-Offload 實現(xiàn)的每個 GPU 吞吐量比 L2L 平均高出 14%（最多高出 22%）。

責任編輯：PSY

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

gpu

gpu

+關(guān)注

關(guān)注
28

文章
4832

瀏覽量
129797
模型

模型

+關(guān)注

關(guān)注
1

文章
3418

瀏覽量
49482
模擬訓練系統(tǒng)

模擬訓練系統(tǒng)

+關(guān)注

關(guān)注
0

文章
6

瀏覽量
10105

AI模型是如何訓練的？訓練一個模型花費多大？

電子發(fā)燒友網(wǎng)報道（文/李彎彎）在深度學習中，經(jīng)常聽到一個詞“模型訓練”，但是模型是什么？又是怎么訓練的？在人工智能中，面對大量的數(shù)據(jù)，要在雜

發(fā)表于 10-23 00:19 ?2.7w次閱讀

大模型訓練為什么不能用4090顯卡，GPU訓練性能和成本對比

為什么？一般有 tensor parallelism、pipeline parallelism、data parallelism 幾種并行方式，分別在模型的層內(nèi)、模型的層間、訓練數(shù)據(jù)三

發(fā)表于 09-15 11:16 ?2.9w次閱讀

大<b class='flag-5'>模型</b><b class='flag-5'>訓練</b>為什么不能用4090顯卡，<b class='flag-5'>GPU</b><b class='flag-5'>訓練</b>性能和成本對比

在Ubuntu上使用Nvidia GPU訓練模型

問題最近在Ubuntu上使用Nvidia GPU訓練模型的時候，沒有問題，過一會再訓練出現(xiàn)非常卡頓，使用nvidia-smi查看發(fā)現(xiàn)，顯示

發(fā)表于 01-03 08:24

探索一種降低ViT模型訓練成本的方法

（1 GPU）和時間（24小時）資源下從頭開始訓練ViT模型。首先，提出了一種向ViT架構(gòu)添加局部性的有效方法。其次，開發(fā)了一種新的圖像大小

發(fā)表于 11-24 14:56

GPU如何訓練大批量模型？方法在這里

內(nèi)存時，在單個或多個 GPU 服務(wù)器上訓練模型。分布式計算 2018 年的大部分時間我都在試圖訓練神經(jīng)網(wǎng)絡(luò)時克服 GPU 極限。無論是在

發(fā)表于 12-03 17:24 ?913次閱讀

OpenAI發(fā)布了一個“逆天”的AI模型——GPT2整個模型包含15億個參數(shù)

能有這樣出色的表現(xiàn)，不是沒有原因的，GPT-2各種特定領(lǐng)域的語言建模任務(wù)中都取得了很好的分數(shù)。作為一個沒有經(jīng)過任何領(lǐng)域數(shù)據(jù)專門訓練的模型，它的表現(xiàn)，比那些專為特定領(lǐng)域數(shù)據(jù)集（例如維基百

發(fā)表于 03-07 14:45 ?8563次閱讀

谷歌訓練開發(fā)一個萬億參數(shù)的AI語言模型

參數(shù)是機器學習算法的關(guān)鍵。它們是從歷史訓練數(shù)據(jù)中學到的模型的一部分。一般來說，在語言領(lǐng)域，參數(shù)的

發(fā)表于 01-18 16:19 ?1900次閱讀

NVIDIA GPU助力提升模型訓練和推理性價比

，其中的模型數(shù)量達數(shù)千個，日均調(diào)用服務(wù)達到千億級別。無量推薦系統(tǒng)，在模型訓練和推理都能夠進行海量Embedding和DNN模型的

發(fā)表于 08-23 17:09 ?4920次閱讀

AI模型是如何訓練的？訓練一個模型花費多大？

發(fā)表于 10-23 00:20 ?9421次閱讀

推特并入X公司馬斯克還買了10000個GPU要訓練大模型

。另外，還有一個特別有意思的是，馬斯克才呼吁暫停?ChatGPT 的訓練，馬上就轉(zhuǎn)身就下場買了10000個GPU要

發(fā)表于 04-12 14:19 ?973次閱讀

基于一個完整的 LLM 訓練流程

? ? 在這篇文章中，我們將盡可能詳細地梳理一個完整的 LLM 訓練流程。包括模型預(yù)訓練（Pretrain）、Tokenizer

發(fā)表于 06-29 10:08 ?2247次閱讀

基于<b class='flag-5'>一</b><b class='flag-5'>個</b>完整的 LLM <b class='flag-5'>訓練</b>流程

為什么ai模型訓練要用gpu

GPU憑借其強大的并行處理能力和高效的內(nèi)存系統(tǒng)，已成為AI模型訓練不可或缺的重要工具。

發(fā)表于 10-24 09:39 ?579次閱讀

PyTorch GPU 加速訓練模型方法

在深度學習領(lǐng)域，GPU加速訓練模型已經(jīng)成為提高訓練效率和縮短訓練時間的重要手段。PyTorch作為一

發(fā)表于 11-05 17:43 ?793次閱讀

從零開始訓練一個大語言模型需要投資多少錢？

一，前言 ? 在AI領(lǐng)域，訓練一個大型語言模型（LLM）是一

發(fā)表于 11-08 14:15 ?482次閱讀

GPU是如何訓練AI大模型的

在AI模型的訓練過程中，大量的計算工作集中在矩陣乘法、向量加法和激活函數(shù)等運算上。這些運算正是GPU所擅長的。接下來，AI部落小編帶您了解GPU是如何

發(fā)表于 12-19 17:54 ?386次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

一個GPU訓練一個130億參數(shù)的模型

評論

AI模型是如何訓練的？訓練一個模型花費多大？

大模型訓練為什么不能用4090顯卡，GPU訓練性能和成本對比

在Ubuntu上使用Nvidia GPU訓練模型

探索一種降低ViT模型訓練成本的方法

GPU如何訓練大批量模型？方法在這里

OpenAI發(fā)布了一個“逆天”的AI模型——GPT2整個模型包含15億個參數(shù)

谷歌訓練開發(fā)一個萬億參數(shù)的AI語言模型

NVIDIA GPU助力提升模型訓練和推理性價比

AI模型是如何訓練的？訓練一個模型花費多大？

推特并入X公司馬斯克還買了10000個GPU要訓練大模型

基于一個完整的 LLM 訓練流程

為什么ai模型訓練要用gpu

PyTorch GPU 加速訓練模型方法

從零開始訓練一個大語言模型需要投資多少錢？

GPU是如何訓練AI大模型的