色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何在英特爾? 平臺上實現高效的大語言模型訓練后量化

英特爾中國 ? 來源:未知 ? 2023-07-14 20:10 ? 次閱讀

本文介紹了可提升大語言模型的訓練后量化表現的增強型 SmoothQuant 技術,說明了這項技術的用法,并證明了其在準確率方面的優勢。此方法已整合至英特爾Neural Compressor1中。英特爾 Neural Compressor 是一個包含量化、剪枝(稀疏性)、蒸餾(知識提煉)和神經架構搜索等多種常用模型壓縮技術的開源 Python 庫。目前,諸如 TensorFlow英特爾Extension for TensorFlow2、PyTorch、英特爾Extension for PyTorch3、ONNX Runtime 和 MXNet等主流框架,都能與之兼容。

英特爾 Neural Compressor已經支持多款英特爾架構的硬件,比如英特爾至強可擴展處理器4英特爾至強CPU Max 系列5英特爾數據中心GPU Flex 系列6英特爾數據中心 GPU Max 系列7。本文涉及的實驗基于第四代英特至強可擴展處理器8進行。

ccecbb12-223e-11ee-962d-dac502259ad0.gif ?大語言模型

大語言模型 (Large Language Model, LLM) 需基于海量數據集進行訓練,可能擁有數十億權重參數。其先進的網絡結構和龐大的參數量,使它們能夠很好地應對自然語言本身的復雜性。完成訓練后的大語言模型,可針對各種下游的自然語言處理 (NLP) 和自然語言生成 (NLG) 任務進行調優,讓其更適合對話式聊天機器人(如 ChatGPT)、機器翻譯、文本分類、欺詐檢測和情感分析等任務場景。

ccecbb12-223e-11ee-962d-dac502259ad0.gif ?大語言模型部署面臨的挑戰

大語言模型在執行自然語言處理和自然語言生成任務方面表現出色,但其訓練和部署頗為復雜,主要面臨以下挑戰:

AI 與內存墻9瓶頸問題:算力每兩年提高 3.1 倍,內存帶寬卻只提高 1.4 倍;

網絡帶寬挑戰:訓練大語言模型需要采用分布式系統,這對網絡帶寬提出了較高要求;

系統資源有限:訓練后的模型往往會部署在算力和內存資源均有限的系統上。

因此,采用訓練后量化的方法來為大語言模型瘦身,對于實現低時延推理至關重要。 ccecbb12-223e-11ee-962d-dac502259ad0.gif ?大語言模型的量化

量化是一種常見的壓縮操作,可以減少模型占用的內存空間,提高推理性能。采用量化方法可以降低大語言模型部署的難度。具體來說,量化是將浮點矩陣轉換為整數矩陣:

cd413ca0-223e-11ee-962d-dac502259ad0.png

其中 X_fp32、S 和 Z 分別為輸入矩陣、比例因子和整數零點。有關每通道 (per-channel) 量化策略雖然可能會減少量化損失,但不能用于激活值量化的原因,請參看 SmoothQuant 相關文檔10。不過,激活值量化誤差損失卻是導致模型量化準確率下降的重要因素。為此,人們提出了很多方法來降低激活值量化損失,例如:SPIQ11OutlierSuppression12SmoothQuant13。這三種方法思路相似,即把激活值量化的難度轉移到權重量化上,只是三者在轉移難度的多少上有所不同。ccecbb12-223e-11ee-962d-dac502259ad0.gif ?增強型 SmoothQuant SmoothQuant 引入了一個超參數 α 作為平滑因子來計算每個通道的量化比例因子,并平衡激活值和權重的量化難度。

cd6edc14-223e-11ee-962d-dac502259ad0.png

其中 j 是輸入通道索引

cd856470-223e-11ee-962d-dac502259ad0.png

對于OPT 和 BLOOM 等大多數模型來說,α=0.5 是一個能夠較好實現權重和激活值量化難度分割的平衡值。模型的激活異常值越大,就越需要使用更大的 α 值來將更多的量化難度轉移到權重上。原始的 SmoothQuant 旨在通過針對整個模型使用一個固定值 α 來分割權重和激活值的量化難度。然而,由于激活異常值的分布不僅在不同模型之間存在差異,而且在同一模型的不同層之間也不盡相同,因此,本文推薦使用英特爾 Neural Compressor 的自動調優能力,逐層獲取最佳 α 值。

相關方法包括以下五個主要步驟(偽代碼如下所示):

  1. 通過特殊的回調函數 register_forward_hook 捕獲 (hook) 模型各層的輸入和輸出值。

  2. 根據用戶定義的 α 范圍和步長生成一個 α 值列表。

  3. 根據給定的 α 值重新計算平滑因子并調整參數(權重值和激活值)。

  4. 對權重執行每通道量化與反量化 (quantization_dequantization),對輸入值執行每張量 (per-tensor) 量化與反量化,以預測與給定 α 值對應的每層輸出值。

  5. 計算相對實際輸出值的均方損失,將調整后的參數恢復回來,并保存每層的最佳 α 值。

cdad2884-223e-11ee-962d-dac502259ad0.png

本文提出的方法支持用多個標準(如最小值、最大值和平均值)來確定 Transformer 塊的輸入層歸一化 (LayerNorm) 操作的 α 值。實驗發現,將 α 范圍設為 [0.3, 0.7],步長設為 0.05,對大多數模型來說都能達到很好的平衡。 這一方法有兩個顯著特點:一是全自動化,二是比原始方法支持的融合模式多。 下圖提供了在 BLOOM-1b7 模型上執行 SmoothQuant α 值自動調優的樣例代碼: cdd25b40-223e-11ee-962d-dac502259ad0.png

啟用增強型 SmoothQuant 的樣例代碼

用戶只需傳遞一個模型名稱 (model_name) 和一個數據加載器。值得注意的是,模型分析主要依靠的是 Torch JIT。用戶可以在加載Hugging Face 模型14時將 torchscript 設置為 True,或將 return_dict 設置為 False。更多信息請參閱英特爾Neural Compressor 文檔10ccecbb12-223e-11ee-962d-dac502259ad0.gif ?

結果

本文提出的增強型 SmoothQuant 的主要優勢在于提高了準確率。 經過對多種主流大語言模型的評估,具備自動調優能力的 INT8 SmoothQuant 最后一個詞元 (last-token) 的預測準確率要高于原始 INT8 SmoothQuant 和 FP32 基線方法。詳見下圖: ce15bc50-223e-11ee-962d-dac502259ad0.png

FP32 基線方法、INT8(啟用和不啟用 SmoothQuant)以及 INT8(啟用本文提出的增強型 SmoothQuant)的準確率對比

從上圖可以看出,在 OPT-1.3b 和 BLOOM-1b7 模型上,本文提出的增強型 SmoothQuant 的準確率比默認的 SmoothQuant 分別高 5.4% 和 1.6%。量化后的模型也縮小到 FP32 模型的四分之一,大大減少了內存占用空間,從而有效地提升大模型在英特爾平臺上的推理性能。 更全面的結果請見 GitHub 存儲庫10。同時,也歡迎您創建拉取請求或就 GitHub 問題15發表評論。期待聽到您的反饋意見和建議。 作者

他們都在從事模型量化
及壓縮的研究與優化工作

沈海豪英特爾公司人工智能資深架構師 程文華英特爾公司人工智能資深軟件工程師 陸崟彤、何欣、郭恒、王暢、王夢妮英特爾公司人工智能軟件工程師

注釋:

本文主要介紹在英特爾平臺上提升大語言模型的訓練后量化表現的增強型SmoothQuant技術,說明了這項技術的用法,并證明了其在準確率方面的優勢。本文中列出的鏈接和資源。需要說明的是,將SmoothQuant適配到英特爾平臺并實現它在英特爾平臺上的增強,是英特爾的原創

1.英特爾Neural Compressor

https://www.intel.cn/content/www/cn/zh/developer/tools/oneapi/neural-compressor.html2.英特爾Extension for TensorFlowhttps://www.intel.cn/content/www/cn/zh/developer/tools/oneapi/optimization-for-tensorflow.html3.英特爾Extension for PyTorchhttps://www.intel.cn/content/www/cn/zh/developer/tools/oneapi/optimization-for-pytorch.html4.英特爾至強可擴展處理器https://www.intel.cn/content/www/cn/zh/products/details/processors/xeon/scalable.html5.英特爾至強CPU Max 系列https://www.intel.cn/content/www/cn/zh/products/details/processors/xeon/max-series.html6.英特爾數據中心 GPU Flex 系列https://www.intel.cn/content/www/cn/zh/products/details/discrete-gpus/data-center-gpu/flex-series.html7.英特爾數據中心 GPU Max 系列https://www.intel.com/content/www/us/en/products/details/discrete-gpus/data-center-gpu/max-series.html8. 第四代英特爾至強可擴展處理器https://www.intel.cn/content/www/cn/zh/events/accelerate-with-xeon.html9. AI 與內存墻https://medium.com/riselab/ai-and-memory-wall-2cb4265cb0b810. SmoothQuant 相關文檔 /英特爾Neural Compressor 文檔 / GitHub 存儲庫https://github.com/intel/neural-compressor/blob/master/docs/source/smooth_quant.md11. SPIQhttps://arxiv.org/abs/2203.1464212. Outlier Suppressionhttps://arxiv.org/abs/2209.1332513. SmoothQuanthttps://arxiv.org/abs/2211.1043814. Hugging Face 模型https://huggingface.co/models15. GitHub 問題https://github.com/intel/neural-compressor/issues

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 英特爾
    +關注

    關注

    61

    文章

    10007

    瀏覽量

    172152
  • cpu
    cpu
    +關注

    關注

    68

    文章

    10901

    瀏覽量

    212682

原文標題:如何在英特爾? 平臺上實現高效的大語言模型訓練后量化

文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    使用英特爾AI PC為YOLO模型訓練加速

    之后,情況有了新的變化,PyTorch2.5正式開始支持英特爾顯卡,也就是說,此后我們能夠借助英特爾 銳炫 顯卡來進行模型訓練了。
    的頭像 發表于 12-09 16:14 ?452次閱讀
    使用<b class='flag-5'>英特爾</b>AI PC為YOLO<b class='flag-5'>模型</b><b class='flag-5'>訓練</b>加速

    英特爾助力百度智能云千帆大模型平臺加速LLM推理

    “大模型在各行業的廣泛應用驅動了新一輪產業革命,也凸顯了在AI算力方面的瓶頸。通過攜手英特爾釋放英特爾 至強 可擴展處理器的算力潛力,我們為用戶提供了高性能、靈活、經濟的算力基礎設施方案,結合千帆
    的頭像 發表于 11-25 16:59 ?467次閱讀
    <b class='flag-5'>英特爾</b>助力百度智能云千帆大<b class='flag-5'>模型</b><b class='flag-5'>平臺</b>加速LLM推理

    使用PyTorch在英特爾獨立顯卡上訓練模型

    《PyTorch 2.5重磅更新:性能優化+新特性》中的一個新特性就是:正式支持在英特爾獨立顯卡上訓練模型
    的頭像 發表于 11-01 14:21 ?689次閱讀
    使用PyTorch在<b class='flag-5'>英特爾</b>獨立顯卡上<b class='flag-5'>訓練</b><b class='flag-5'>模型</b>

    英特爾IT的發展現狀和創新動向

    AI大模型的爆發,客觀上給IT的發展帶來了巨大的機會。作為把IT發展上升為戰略高度的英特爾,自然在推動IT發展中注入了強勁動力。英特爾IT不僅專注于創新、AI和優化,以及英特爾員工、最
    的頭像 發表于 08-16 15:22 ?625次閱讀

    英特爾是如何實現玻璃基板的?

    在今年9月,英特爾宣布率先推出用于下一代先進封裝的玻璃基板,并計劃在未來幾年內向市場提供完整的解決方案,從而使單個封裝內的晶體管數量不斷增加,繼續推動摩爾定律,滿足以數據為中心的應用的算力需求
    的頭像 發表于 07-22 16:37 ?388次閱讀

    語言模型的預訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型的預訓練是這一技術發展的關鍵步驟,它通過在海量無標簽數據上進行訓練,使模型學習到
    的頭像 發表于 07-11 10:11 ?511次閱讀

    已有超過500款AI模型英特爾酷睿Ultra處理器上得以優化運行

    近日,英特爾宣布在全新英特爾 酷睿 Ultra處理器上,有超過500款AI模型得以優化運行。
    的頭像 發表于 05-11 09:31 ?763次閱讀

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    語言模型的核心特點在于其龐大的參數量,這賦予了模型強大的學習容量,使其無需依賴微調即可適應各種下游任務,而更傾向于培養通用的處理能力。然而,隨著學習容量的增加,對預訓練數據的需求也相
    發表于 05-07 17:10

    英特爾AI產品助力其運行Meta新一代大語言模型Meta Llama 3

    英特爾豐富的AI產品——面向數據中心的至強處理器,邊緣處理器及AI PC等產品為開發者提供最新的優化,助力其運行Meta新一代大語言模型Meta Llama 3
    的頭像 發表于 04-28 11:16 ?678次閱讀

    高通支持Meta Llama 3大語言模型在驍龍旗艦平臺上實現終端側執行

    高通和Meta合作優化Meta Llama 3大語言模型,支持在未來的驍龍旗艦平臺上實現終端側執行。
    的頭像 發表于 04-20 09:13 ?553次閱讀

    浪潮信息&quot;源2.0&quot;大模型YuanChat支持英特爾最新商用AI PC

    北京2024年3月27日 /美通社/ -- 3月26日, 浪潮信息與英特爾正式宣布,浪潮信息"源2.0系列基礎大模型"已和最新的英特爾? 酷睿? Ultra處理器平臺完成適配,本地推理
    的頭像 發表于 03-27 22:52 ?547次閱讀
    浪潮信息&quot;源2.0&quot;大<b class='flag-5'>模型</b>YuanChat支持<b class='flag-5'>英特爾</b>最新商用AI PC

    浪潮信息與英特爾合作推出一種大模型效率工具“YuanChat”

    3月26日,浪潮信息與英特爾正式宣布,浪潮信息“源2.0系列基礎大模型”已和最新的英特爾? 酷睿? Ultra處理器平臺完成適配,本地推理速度提升100%。
    的頭像 發表于 03-27 13:50 ?682次閱讀
    浪潮信息與<b class='flag-5'>英特爾</b>合作推出一種大<b class='flag-5'>模型</b>效率工具“YuanChat”

    基于英特爾哪吒開發者套件平臺來快速部署OpenVINO Java實戰

    OpenVINO 工具套件基于OneAPI開發,可以加快高性能計算機視覺和深度學習應用開發速度的工具套件,適用于從邊緣到云的各種英特爾計算平臺上
    的頭像 發表于 03-21 18:24 ?1578次閱讀
    基于<b class='flag-5'>英特爾</b>哪吒開發者套件<b class='flag-5'>平臺</b>來快速部署OpenVINO Java實戰

    英特爾酷睿Ultra通過全新英特爾vPro平臺將AI PC惠及企業

    近日,英特爾在2024年世界移動通信大會(MWC 2024)上宣布,全新英特爾?vPro?平臺將AI PC的優勢惠及商用客戶。
    的頭像 發表于 03-18 15:07 ?569次閱讀

    英特爾推出全新vPro平臺,將AI PC的優勢延伸至商用領域

    在2024年世界移動通信大會(MWC 2024)上,英特爾宣布了其全新英特爾?vPro?平臺的發布,旨在將AI PC的先進功能帶給商用客戶。這一平臺結合了內置
    的頭像 發表于 03-03 15:47 ?1224次閱讀
    主站蜘蛛池模板: 色婷婷激婷婷深爱五月小蛇 | 国产成人精选免费视频 | 91嫩草私人成人亚洲影院 | 免费黄色网址在线观看 | 777米奇影院第七色色 | 奇米精品一区二区三区在线观看 | 大陆女人内谢69XXXORG | 成人国产一区 | 欧美乱子YELLOWVIDEO | 久久精品视在线观看2 | 两个人看的www免费高清直播 | 大地影院在线播放 | 被cao的奶水直喷高H | 乡村教师电影版 | 午夜影视免费 | 国产精品亚洲精品爽爽 | 99久久精品国产国产毛片 | 日韩AV成人无码久久精品老人 | 久久99视频免费 | 国产精品久久久久久久久齐齐 | 国产精品xxxav免费视频 | 亚洲精品视频在线免费 | 捏揉舔水插按摩师 | 久艾草在线精品视频在线观看 | 亚洲精品国产一区二区贰佰信息网 | 久久免费精彩视频 | 国产成人片视频一区二区青青 | 国产精品美女久久久久AV超清 | 越南女 黑人 痛苦 大叫 | 国产一区二区不卡老阿姨 | wwwxx日本| 久久丫线这里只精品 | 草莓国产视频免费观看 | 精品一品国产午夜福利视频 | 韩国伦理电影在线神马网 | 在线观看国产精美视频 | 国产精品系列在线一区 | 先锋影音av最新资源网 | 国产中文在线观看 | 日韩欧美中文字幕在线 | 色小姐电影qvod播放 |