尤物视频一区二区,四虎天堂,五月最新女厕所高跟嘘嘘

北京2024年8月23日/美通社/ -- 近日，浪潮信息發布源2.0-M32大模型4bit和8bit量化版，性能比肩700億參數的LLaMA3開源大模型。4bit量化版推理運行顯存僅需23.27GB，處理每token所需算力約為1.9 GFLOPs，算力消耗僅為同等當量大模型LLaMA3-70B的1/80。而LLaMA3-70B運行顯存為160GB，所需算力為140GFLOPs。

源2.0-M32量化版是"源"大模型團隊為進一步提高模算效率，降低大模型部署運行的計算資源要求而推出的版本，通過采用領先的量化技術，將原模型精度量化至int4和int8級別，并保持模型性能基本不變。源2.0-M32量化版提高了模型部署加載速度和多線程推理效率，在不同硬件和軟件環境中均能高效運行，降低了模型移植和部署門檻，讓用戶使用更少的計算資源，就能獲取源2.0-M32大模型的強大能力。

源2.0-M32大模型是浪潮信息"源2.0"系列大模型的最新版本，其創新性地提出和采用了"基于注意力機制的門控網絡"技術，構建包含32個專家（Expert）的混合專家模型（MoE），模型運行時激活參數為37億，在業界主流基準評測中性能全面對標700億參數的LLaMA3開源大模型，大幅提升了模型算力效率。

模型量化（Model Quantization）是優化大模型推理的一種主流技術，它顯著減少了模型的內存占用和計算資源消耗，從而加速推理過程。然而，模型量化可能會影響模型的性能。如何在壓縮模型的同時維持其精度，是量化技術面臨的核心挑戰。

源2.0-M32大模型研發團隊深入分析當前主流的量化方案，綜合評估模型壓縮效果和精度損失表現，最終采用了GPTQ量化方法，并采用AutoGPTQ作為量化框架。為了確保模型精度最大化，一方面定制化適配了適合源2.0-M32結構的算子，提高了模型的部署加載速度和多線程推理效率，實現高并發推理；另一方面對需要量化的中間層（inter_layers）進行了嚴格評估和篩選，確定了最佳的量化層。從而成功將模型精度量化至int4和int8級別，在模型精度幾乎無損的前提下，提升模型壓縮效果、增加推理吞吐量和降低計算成本，使其更易于部署到移動設備和邊緣設備上。

評測結果顯示，源2.0-M32量化版在多個業界主流的評測任務中性能表現突出，特別是在MATH（數學競賽）、ARC-C（科學推理）任務中，比肩擁有700億參數的LLaMA3大模型。

總之，源2.0-M32大模型量化版在保持推理性能的前提下，顯著降低了計算資源消耗和內存占用，其采用的GPTQ量化方法通過精細調整，成功將模型適配至int4和int8精度級別。通過定制化算子優化，源2.0-M32量化版實現了模型結構的深度適配和性能的顯著提升，確保在不同硬件和軟件環境中均能高效運行。未來，隨著量化技術的進一步優化和應用場景的拓展，源2.0-M32量化版有望在移動設備和邊緣計算等領域發揮更廣泛的作用，為用戶提供更高效的智能服務。

源2.0-M32量化版已開源，下載鏈接如下：

Hugging Face平臺下載鏈接：

https://huggingface.co/IEITYuan/Yuan2-M32-gguf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int8

modelscope平臺下載鏈接：

https://modelscope.cn/models/IEITYuan/Yuan2-M32-gguf-int4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-HF-INT4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-hf-int8

審核編輯黃宇

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

開源

開源

+關注

關注
3

文章
3370

瀏覽量
42573
算力

算力

+關注

關注
1

文章
994

瀏覽量
14863
大模型

大模型

+關注

關注
2

文章
2489

瀏覽量
2857

Meta發布Llama 3.2量化版模型

近日，Meta在開源Llama 3.2的1B與3B模型后，再次為人工智能領域帶來了新進展。10月24日，Meta正式推出了這兩個模型的量化版

發表于 10-29 11:05 ?419次閱讀

Llama 3 模型與其他AI工具對比

Llama 3模型與其他AI工具的對比可以從多個維度進行，包括但不限于技術架構、性能表現、應用場景、定制化能力、開源與成本等方面。以下是對Llama

發表于 10-27 14:37 ?431次閱讀

Llama 3 語言模型應用

在人工智能領域，語言模型的發展一直是研究的熱點。隨著技術的不斷進步，我們見證了從簡單的關鍵詞匹配到復雜的上下文理解的轉變。一、Llama 3 語言模型的核心功能上下文理解：

發表于 10-27 14:15 ?297次閱讀

使用OpenVINO 2024.4在算力魔方上部署Llama-3.2-1B-Instruct模型

前面我們分享了《三步完成Llama3在算力魔方的本地量化和部署》。2024年9月25日，Meta又發布了Llama3.2：一個多語言大型語言模型

發表于 10-12 09:39 ?637次閱讀

Meta即將發布超強開源AI模型Llama 3-405B

在人工智能領域的激烈競爭中，Meta公司再次擲出重磅炸彈，宣布將于7月23日正式發布其最新力作——Llama 3-405B，一個擁有驚人4050億參數的開源大

發表于 07-18 09:58 ?1011次閱讀

【AIBOX上手指南】快速部署Llama3

Firefly開源團隊推出了Llama3部署包，提供簡易且完善的部署教程，過程無需聯網，簡單快捷完成本地化部署。點擊觀看Llama3快速部署教程：Step.1準備部署包進入Firefly下載中心

發表于 06-06 08:02 ?705次閱讀

浪潮信息重磅發布“源2.0-M32”開源大模型

浪潮信息近日發布了一款全新的開源大模型——“源2.0-M32”。這款大模型在“源

發表于 06-05 14:50 ?796次閱讀

浪潮信息發布源2.0-M32開源大模型，模算效率大幅提升

5月28日，浪潮信息發布“源2.0-M32”開源大模型?！?b class='flag-5'>源2.0-M32”在基于”

發表于 05-29 09:34 ?445次閱讀

浪潮信息發布“源2.0-M32”開源大模型

浪潮信息近日推出了革命性的“源2.0-M32”開源大模型。該模型在源2.0系列基礎上，引入了“基

發表于 05-29 09:08 ?662次閱讀

Optimum Intel三步完成Llama3在算力魔方的本地量化和部署

Llama3 是Meta最新發布的開源大語言模型(LLM), 當前已開源8B和70B參數量的預訓練模型權重，并支持指令微調。

發表于 05-10 10:34 ?1081次閱讀

Meta Llama 3基礎模型現已在亞馬遜云科技正式可用

亞馬遜云科技近日宣布，Meta公司最新發布的兩款Llama 3基礎模型——Llama 3 8B和

發表于 05-09 10:39 ?417次閱讀

高通支持Meta Llama 3在驍龍終端上運行

高通與Meta攜手合作，共同推動Meta的Llama 3大語言模型（LLM）在驍龍驅動的各類終端設備上實現高效運行。此次合作致力于優化Llama

發表于 05-09 10:37 ?448次閱讀

使用OpenVINO?在你的本地設備上離線運行Llama3之快手指南

在人工智能領域，大型語言模型（LLMs）的發展速度令人震驚。2024年4月18日，Meta正式開源了LLama系列的新一代大模型Llama3，在這一領域中樹立了新的里程碑。

發表于 04-26 09:42 ?865次閱讀

Llama 3 王者歸來，Airbox 率先支持部署

前天，智算領域迎來一則令人振奮的消息：Meta正式發布了備受期待的開源大模型——Llama3。Llama3的卓越性能Meta表示，

發表于 04-22 08:33 ?664次閱讀

百度智能云國內首家支持Llama3全系列訓練推理！

4月18日，Meta 正式發布 Llama 3，包括8B 和 70B 參數的大模型，官方號稱有史以來最強大的開源大模型。

發表于 04-20 09:20 ?409次閱讀