色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

源2.0-M32大模型發布量化版 運行顯存僅需23GB 性能可媲美LLaMA3

全球TMT ? 來源:全球TMT ? 作者:全球TMT ? 2024-08-25 22:06 ? 次閱讀

北京2024年8月23日/美通社/ -- 近日,浪潮信息發布源2.0-M32大模型4bit和8bit量化版,性能比肩700億參數的LLaMA3開源大模型。4bit量化版推理運行顯存僅需23.27GB,處理每token所需算力約為1.9 GFLOPs,算力消耗僅為同等當量大模型LLaMA3-70B的1/80。而LLaMA3-70B運行顯存為160GB,所需算力為140GFLOPs。

源2.0-M32量化版是"源"大模型團隊為進一步提高模算效率,降低大模型部署運行的計算資源要求而推出的版本,通過采用領先的量化技術,將原模型精度量化至int4和int8級別,并保持模型性能基本不變。源2.0-M32量化版提高了模型部署加載速度和多線程推理效率,在不同硬件和軟件環境中均能高效運行,降低了模型移植和部署門檻,讓用戶使用更少的計算資源,就能獲取源2.0-M32大模型的強大能力。

源2.0-M32大模型是浪潮信息"源2.0"系列大模型的最新版本,其創新性地提出和采用了"基于注意力機制的門控網絡"技術,構建包含32個專家(Expert)的混合專家模型(MoE),模型運行時激活參數為37億,在業界主流基準評測中性能全面對標700億參數的LLaMA3開源大模型,大幅提升了模型算力效率。

模型量化(Model Quantization)是優化大模型推理的一種主流技術,它顯著減少了模型的內存占用和計算資源消耗,從而加速推理過程。然而,模型量化可能會影響模型的性能。如何在壓縮模型的同時維持其精度,是量化技術面臨的核心挑戰。

源2.0-M32大模型研發團隊深入分析當前主流的量化方案,綜合評估模型壓縮效果和精度損失表現,最終采用了GPTQ量化方法,并采用AutoGPTQ作為量化框架。為了確保模型精度最大化,一方面定制化適配了適合源2.0-M32結構的算子,提高了模型的部署加載速度和多線程推理效率,實現高并發推理;另一方面對需要量化的中間層(inter_layers)進行了嚴格評估和篩選,確定了最佳的量化層。從而成功將模型精度量化至int4和int8級別,在模型精度幾乎無損的前提下,提升模型壓縮效果、增加推理吞吐量和降低計算成本,使其更易于部署到移動設備和邊緣設備上。

評測結果顯示,源2.0-M32量化版在多個業界主流的評測任務中性能表現突出,特別是在MATH(數學競賽)、ARC-C(科學推理)任務中,比肩擁有700億參數的LLaMA3大模型。

wKgaombLOmGAMfOeAACBJMP6AFU808.jpg


總之,源2.0-M32大模型量化版在保持推理性能的前提下,顯著降低了計算資源消耗和內存占用,其采用的GPTQ量化方法通過精細調整,成功將模型適配至int4和int8精度級別。通過定制化算子優化,源2.0-M32量化版實現了模型結構的深度適配和性能的顯著提升,確保在不同硬件和軟件環境中均能高效運行。未來,隨著量化技術的進一步優化和應用場景的拓展,源2.0-M32量化版有望在移動設備和邊緣計算等領域發揮更廣泛的作用,為用戶提供更高效的智能服務。

源2.0-M32量化版已開源,下載鏈接如下:

Hugging Face平臺下載鏈接:

https://huggingface.co/IEITYuan/Yuan2-M32-gguf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int8

modelscope平臺下載鏈接:

https://modelscope.cn/models/IEITYuan/Yuan2-M32-gguf-int4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-HF-INT4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-hf-int8


審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 開源
    +關注

    關注

    3

    文章

    3370

    瀏覽量

    42573
  • 算力
    +關注

    關注

    1

    文章

    994

    瀏覽量

    14863
  • 大模型
    +關注

    關注

    2

    文章

    2489

    瀏覽量

    2857
收藏 人收藏

    評論

    相關推薦

    Meta發布Llama 3.2量化模型

    近日,Meta在開源Llama 3.2的1B與3B模型后,再次為人工智能領域帶來了新進展。10月24日,Meta正式推出了這兩個模型量化
    的頭像 發表于 10-29 11:05 ?419次閱讀

    Llama 3 模型與其他AI工具對比

    Llama 3模型與其他AI工具的對比可以從多個維度進行,包括但不限于技術架構、性能表現、應用場景、定制化能力、開源與成本等方面。以下是對Llama
    的頭像 發表于 10-27 14:37 ?431次閱讀

    Llama 3 語言模型應用

    在人工智能領域,語言模型的發展一直是研究的熱點。隨著技術的不斷進步,我們見證了從簡單的關鍵詞匹配到復雜的上下文理解的轉變。 一、Llama 3 語言模型的核心功能 上下文理解 :
    的頭像 發表于 10-27 14:15 ?297次閱讀

    使用OpenVINO 2024.4在算力魔方上部署Llama-3.2-1B-Instruct模型

    前面我們分享了《三步完成Llama3在算力魔方的本地量化和部署》。2024年9月25日,Meta又發布Llama3.2:一個多語言大型語言模型
    的頭像 發表于 10-12 09:39 ?637次閱讀
    使用OpenVINO 2024.4在算力魔方上部署<b class='flag-5'>Llama</b>-3.2-1B-Instruct<b class='flag-5'>模型</b>

    Meta即將發布超強開源AI模型Llama 3-405B

    在人工智能領域的激烈競爭中,Meta公司再次擲出重磅炸彈,宣布將于7月23日正式發布其最新力作——Llama 3-405B,一個擁有驚人4050億參數的開源大
    的頭像 發表于 07-18 09:58 ?1011次閱讀

    【AIBOX上手指南】快速部署Llama3

    Firefly開源團隊推出了Llama3部署包,提供簡易且完善的部署教程,過程無需聯網,簡單快捷完成本地化部署。點擊觀看Llama3快速部署教程:Step.1準備部署包進入Firefly下載中心
    的頭像 發表于 06-06 08:02 ?705次閱讀
    【AIBOX上手指南】快速部署<b class='flag-5'>Llama3</b>

    浪潮信息重磅發布2.0-M32”開源大模型

    浪潮信息近日發布了一款全新的開源大模型——“2.0-M32”。這款大模型在“
    的頭像 發表于 06-05 14:50 ?796次閱讀

    浪潮信息發布2.0-M32開源大模型,模算效率大幅提升

    5月28日,浪潮信息發布2.0-M32”開源大模型?!?b class='flag-5'>源2.0-M32”在基于”
    的頭像 發表于 05-29 09:34 ?445次閱讀
    浪潮信息<b class='flag-5'>發布</b><b class='flag-5'>源</b><b class='flag-5'>2.0-M32</b>開源大<b class='flag-5'>模型</b>,模算效率大幅提升

    浪潮信息發布2.0-M32”開源大模型

    浪潮信息近日推出了革命性的“2.0-M32”開源大模型。該模型2.0系列基礎上,引入了“基
    的頭像 發表于 05-29 09:08 ?662次閱讀

    Optimum Intel三步完成Llama3在算力魔方的本地量化和部署

    Llama3 是Meta最新發布的開源大語言模型(LLM), 當前已開源8B和70B參數量的預訓練模型權重,并支持指令微調。
    的頭像 發表于 05-10 10:34 ?1081次閱讀
    Optimum Intel三步完成<b class='flag-5'>Llama3</b>在算力魔方的本地<b class='flag-5'>量化</b>和部署

    Meta Llama 3基礎模型現已在亞馬遜云科技正式可用

    亞馬遜云科技近日宣布,Meta公司最新發布的兩款Llama 3基礎模型——Llama 3 8B和
    的頭像 發表于 05-09 10:39 ?417次閱讀

    高通支持Meta Llama 3在驍龍終端上運行

    高通與Meta攜手合作,共同推動Meta的Llama 3大語言模型(LLM)在驍龍驅動的各類終端設備上實現高效運行。此次合作致力于優化Llama
    的頭像 發表于 05-09 10:37 ?448次閱讀

    使用OpenVINO?在你的本地設備上離線運行Llama3之快手指南

    在人工智能領域,大型語言模型(LLMs)的發展速度令人震驚。2024年4月18日,Meta正式開源了LLama系列的新一代大模型Llama3,在這一領域中樹立了新的里程碑。
    的頭像 發表于 04-26 09:42 ?865次閱讀
    使用OpenVINO?在你的本地設備上離線<b class='flag-5'>運行</b><b class='flag-5'>Llama3</b>之快手指南

    Llama 3 王者歸來,Airbox 率先支持部署

    前天,智算領域迎來一則令人振奮的消息:Meta正式發布了備受期待的開源大模型——Llama3Llama3的卓越性能Meta表示,
    的頭像 發表于 04-22 08:33 ?664次閱讀
    <b class='flag-5'>Llama</b> <b class='flag-5'>3</b> 王者歸來,Airbox 率先支持部署

    百度智能云國內首家支持Llama3全系列訓練推理!

    4月18日,Meta 正式發布 Llama 3,包括8B 和 70B 參數的大模型,官方號稱有史以來最強大的開源大模型。
    的頭像 發表于 04-20 09:20 ?409次閱讀
    百度智能云國內首家支持<b class='flag-5'>Llama3</b>全系列訓練推理!
    主站蜘蛛池模板: 欧美国产影院| 亚洲欧美日韩另类精品一区二区三区| 伊人精品久久久大香线蕉99| 国自精品三七区| 中文视频在线观看| 欧美多毛的大隂道| 成年妇女免费播放| 我的好妈妈BD免费观看| 国精产品一区二区三区| 365电影成人亚洲网在线观看| 欧洲馒头大肥p| 国产永久免费视频| 99久久国产综合精品| 忘忧草直播| 蕾丝边娱乐网| 国产成人高清亚洲一区app| 一边摸一边桶一边脱免费| 年轻的母亲4线在线观看完整| 国产精品国产三级国产an | 大胸美女脱内衣黄网站| 午夜影院c绿象| 玛雅成人网| 国产精品久久一区二区三区蜜桃| 一个人的免费高清影院| 色 花 堂 永久 网站| 久久久精品国产免费A片胖妇女| 成人人猿泰山| 中文字幕一区二区视频| 摥管专用动态图399期| 老司机亚洲精品影院在线观看| 贵妇局长的蕾丝乳罩| 在线视频 日韩视频二区 | 亚洲精品九色在线网站| 欧美人与动牲交ZOOZ特| 狠狠色狠狠色88综合日日91| 澳大利亚剧满足在线观看| 影音先锋 av天堂| 西施打开双腿下面好紧| 青青热久精品国产亚洲AV无码| 久久re视频这里精品免费1| 冈本视频黄页正版|