色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Arm KleidiAI助力提升PyTorch上LLM推理性能

Arm社區 ? 來源:Arm社區 ? 2024-12-03 17:05 ? 次閱讀

作者:Arm 基礎設施事業部軟件工程師 Nobel Chowdary Mandepudi

生成式人工智能 (AI) 正在科技領域發揮關鍵作用,許多企業已經開始將大語言模型 (LLM) 集成到云端和邊緣側的應用中。生成式 AI 的引入也使得許多框架和庫得以發展。其中,PyTorch 作為熱門的深度學習框架尤為突出,許多企業均會選擇其作為開發 AI 應用的庫。通過部署 Arm Kleidi 技術,Arm 正在努力優化 PyTorch,以加速在基于 Arm 架構的處理器上運行 LLM 的性能。Arm 通過將 Kleidi 技術直接集成到 PyTorch 中,簡化了開發者訪問該技術的方式。

在本文中,我們將通過一個演示應用來展示 Arm KleidiAI 在 PyTorch 上運行 LLM 實現的性能提升。該演示應用在基于 Arm Neoverse V2 的亞馬遜云科技 (AWS) Graviton4 R8g.4xlarge EC2 實例上運行 Llama 3.1。如果你感興趣,可以使用以下 Learning Path,自行重現這個演示。

演示應用

我們的演示應用是一個基于 LLM 的聊天機器人,可以回答用戶提出的各種問題。該演示使用 Arm 平臺上的 PyTorch 框架運行 Meta Llama 3.1 模型,并被設計成一個使用 Streamlit 前端的瀏覽器應用。Streamlit 將信息提供給 Torchat 框架,后者運行 PyTorch 并作為 LLM 后端。Torchat 輸出的信息進入注意力層并生成詞元 (token)。這些詞元使用 OpenAI 框架流式傳輸功能發送到前端,并在瀏覽器應用上顯示給用戶。該演示的架構下圖所示。

ddfecd2a-b151-11ef-93f3-92fbcf53809c.png

圖:演示架構

演示應用在 LLM 推理結束后測定并顯示以下性能指標:

生成首個詞元的用時(秒):對于 LLM 推理,需要快速生成首個詞元,以盡量減少延遲并向用戶提供即時輸出。

解碼速度/文本生成(詞元/秒):每秒詞元數是指生成式 AI 模型生成詞元的速率。生成下一個詞元的時間最長不超過 100 毫秒,這是交互式聊天機器人的行業標準。這意味著解碼速度至少為 10 個詞元/秒。這對于提升實時應用的用戶體驗至關重要。

生成百萬詞元的成本(美元):根據 AWS 云端 EC2 實例的解碼速度和每小時成本,我們可以計算出生成 100 萬個詞元的成本,這也是一個常用的比較指標。由于每小時成本是固定的,解碼速度越快,生成百萬詞元的成本就越低。

生成提示詞的總用時(秒):這是使用所有詞元生成提示詞所花費的總時間。

生成提示詞的總成本(美元):這是根據使用所有詞元生成完整提示詞的總時間、解碼速度和云端機器成本計算得出的。

下圖顯示了示例響應,可作為使用所示指標驗證聊天機器人的示例。生成首個詞元的時間短于 1 秒,解碼速率為 33 個詞元/秒,這兩項數據都非常令人滿意,并且滿足交互式聊天機器人的行業標準。

de70d0e6-b151-11ef-93f3-92fbcf53809c.png

圖:包含示例響應和指標的演示

針對 PyTorch 的 KleidiAI 優化

KleidiAI 庫為 Arm 平臺提供了多項優化。Kleidi 在 Torch ATen 層中提供了一個新算子以加載模型。該層將模型權重以特定格式打包在內存中,使得 KleidiAI GEMM 內核可用來提高性能。同樣地,針對模型執行的優化使用了 ATen 層中的另一個算子。該算子對先前打包的模型權重進行 matmul 運算的量化。

在我們的演示中,該模型是從 Meta Hugging Face 庫下載的。該模型使用 INT4 內核布局打包在內存中,然后使用針對 PyTorch 優化的 INT4 KleidiAI 內核進行量化。該演示的架構如下圖所示。

de9e9436-b151-11ef-93f3-92fbcf53809c.png

圖:針對 PyTorch 實現的 KleidiAI 優化

使用我們 Learning Path 中包含的補丁[注],可將這些 KleidiAI 優化應用到 PyTorch、Torchchat 和 Torchao 中。你可以使用這些補丁來查看 Arm 平臺上的 PyTorch 為工作負載帶來的 LLM 推理性能提升。

注:Arm KleidiAI 的 PyTorch 補丁正在與上游 PyTorch 合并,并將在未來的 PyTorch 官方版本中提供。

性能

為了印證 KleidiAI 的性能優勢,我們使用 PyTorch 運行相同的聊天機器人應用,并測定了 KleidiAI 優化前后的每秒生成詞元數和生成首個詞元的用時,結果如下圖所示。

dea73276-b151-11ef-93f3-92fbcf53809c.png

圖:性能比較

可以看到,將 KleidiAI 庫應用到現有的生成式 AI 技術棧中可以大大提高詞元生成速率,并縮短為不同生成式 AI 模型生成首個詞元的時間。

結論

對于聊天機器人等實時工作負載來說,在 CPU 上運行 LLM 推理可行且有效。我們在之前《在基于 Arm Neoverse 的 AWS Graviton3 CPU 上實現出色性能》文章中使用 Llama.cpp 演示了這一點。在本文中,我們展示了如何使用 KleidiAI 庫為 Arm 平臺上的 PyTorch 實現良好的 LLM 推理性能。通過使用搭載 Neoverse V2 核心且基于 AWS Graviton4 的 R8g 實例進行演示,印證了 KleidiAI 為在 Arm 平臺上使用 PyTorch 運行 LLM 推理實現了顯著的性能提升。開發者現在可以利用 Arm 針對 PyTorch 的 KleidiAI 優化來運行新的或現有的 AI 應用。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    19259

    瀏覽量

    229651
  • ARM
    ARM
    +關注

    關注

    134

    文章

    9084

    瀏覽量

    367381
  • 聊天機器人
    +關注

    關注

    0

    文章

    339

    瀏覽量

    12304
  • pytorch
    +關注

    關注

    2

    文章

    807

    瀏覽量

    13198
  • LLM
    LLM
    +關注

    關注

    0

    文章

    286

    瀏覽量

    327

原文標題:Arm KleidiAI 助力提升 PyTorch 上 LLM 推理性能

文章出處:【微信號:Arm社區,微信公眾號:Arm社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    英特爾FPGA 助力Microsoft Azure機器學習提供AI推理性能

    Machine Learning SDK 相集成以供預覽??蛻艨梢允褂?Azure 大規模部署的英特爾? FPGA(現場可編程邏輯門陣列)技術,為其模型提供行業領先的人工智能 (AI) 推理性能。
    的頭像 發表于 05-16 17:25 ?6370次閱讀

    NVIDIA擴大AI推理性能領先優勢,首次在Arm服務器取得佳績

    最新MLPerf基準測試表明,NVIDIA已將其在AI推理性能和能效方面的高標準擴展到Arm以及x86計算機。
    發表于 09-23 14:18 ?2620次閱讀
    NVIDIA擴大AI<b class='flag-5'>推理性能</b>領先優勢,首次在<b class='flag-5'>Arm</b>服務器<b class='flag-5'>上</b>取得佳績

    NVIDIA打破AI推理性能記錄

     NVIDIA憑借A100進一步擴大了在MLPerf基準測試中的領先優勢,實現了比CPU快237倍的AI推理性能助力企業將AI研究轉化為生產力。
    發表于 10-22 14:07 ?807次閱讀

    充分利用Arm NN進行GPU推理

    的是要知道它提供的選項來提高推理性能。作為開發人員,您會尋找可以壓縮的每一毫秒,尤其是在需要實現實時推理時。讓我們看一下Arm NN中可用的優化選項之一,并通過一些實際示例評估它可能產生
    發表于 04-11 17:33

    Arm Neoverse V1的AWS Graviton3在深度學習推理工作負載方面的作用

    實現的 BERT-Large 實時推理性能。越高越好。結論我們的 MLPerf BERT-large 和 Resnet50-v1.5 基準分析表明,Amazon EC2 c7g實例(使用 Arm
    發表于 08-31 15:03

    求助,為什么將不同的權重應用于模型會影響推理性能

    生成兩個 IR文件(相同的 .xml 文件,但不同的 .bin 文件) 具有不同重量的類似模型,以不同的 fps (27fps 和 6fps) 運行 更多樣化的權重是否會影響 Myriad X 推理性能?
    發表于 08-15 07:00

    如何提高YOLOv4模型的推理性能

    使用 PyTorch 對具有非方形圖像的 YOLOv4 模型進行了訓練。 將 權重轉換為 ONNX 文件,然后轉換為中間表示 (IR)。 無法確定如何獲得更好的推理性能
    發表于 08-15 06:58

    英特爾FPGA為人工智能(AI)提供推理性能

    Azure Machine Learning SDK 相集成以供預覽??蛻艨梢允褂?Azure 大規模部署的英特爾 FPGA(現場可編程邏輯門陣列)技術,為其模型提供行業領先的人工智能 (AI) 推理性能。 “作為一家整體技術提供商,我們通過與 Microsoft 密切合作為人工智能提供支持。
    發表于 05-20 00:10 ?3055次閱讀

    Nvidia 通過開源庫提升 LLM 推理性能

    加利福尼亞州圣克拉拉——Nvidia通過一個名為TensorRT LLM的新開源軟件庫,將其H100、A100和L4 GPU的大型語言模型(LLM)推理性能提高了一倍。 正如對相同硬件一輪又一輪改進
    的頭像 發表于 10-23 16:10 ?642次閱讀

    用上這個工具包,大模型推理性能加速達40倍

    作者: 英特爾公司 沈海豪、羅嶼、孟恒宇、董波、林俊 編者按: 只需不到9行代碼, 就能在CPU實現出色的LLM推理性能。 英特爾 ?Extension for Transformer 創新
    的頭像 發表于 12-01 20:40 ?1147次閱讀
    用上這個工具包,大模型<b class='flag-5'>推理性能</b>加速達40倍

    自然語言處理應用LLM推理優化綜述

    當前,業界在將傳統優化技術引入 LLM 推理的同時,同時也在探索從大模型自回歸解碼特點出發,通過調整推理過程和引入新的模型結構來進一步提升推理性能
    發表于 04-10 11:48 ?581次閱讀
    自然語言處理應用<b class='flag-5'>LLM</b><b class='flag-5'>推理</b>優化綜述

    魔搭社區借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區是中國最具影響力的模型開源社區,致力給開發者提供模型即服務的體驗。魔搭社區利用NVIDIA TensorRT-LLM,大大提高了大語言模型的推理性能,方便了模型應用部署,提高了大模型產業應用效率,更大規模地釋放大模型的應用價值?!?/div>
    的頭像 發表于 08-23 15:48 ?432次閱讀

    開箱即用,AISBench測試展示英特爾至強處理器的卓越推理性能

    近期,第五代英特爾?至強?可擴展處理器通過了中國電子技術標準化研究院組織的人工智能服務器系統性能測試(AISBench)。英特爾成為首批通過AISBench大語言模型(LLM推理性能測試的企業
    的頭像 發表于 09-06 15:33 ?315次閱讀
    開箱即用,AISBench測試展示英特爾至強處理器的卓越<b class='flag-5'>推理性能</b>

    Arm成功將Arm KleidiAI軟件庫集成到騰訊自研的Angel 機器學習框架

    KleidiAI 技術融入騰訊混元自研的 Angel 機器學習框架。這一合作旨在提高移動端人工智能 (AI) 服務的推理性能和效率,為用戶提供卓越
    的頭像 發表于 11-24 15:33 ?661次閱讀

    解鎖NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技術 (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,確保您的 NVIDIA GPU 能發揮出卓越的推理性能。
    的頭像 發表于 12-17 17:47 ?116次閱讀
    主站蜘蛛池模板: 小处雏一区二区三区| 囚禁固定在调教椅上扩张H| 美女胸禁止18以下看| 亚洲AV色香蕉一区二区9255| vivoe另类| 暖暖 视频 免费 高清 在线观看| 一品探花论坛| 久久草福利自拍视频在线观看| 亚洲国产欧美在线看片| 国产精品观看视频免费完整版| 人性本色联盟| 白丝女仆被强扒内裤| 日本漫画母亲口工子全彩| 插骚妇好爽好骚| 日韩亚洲人成在线| 俄罗斯粗大猛烈18P| 水蜜桃亚洲一二三四在线| 国产激情视频在线| 亚洲AV无码国产精品午夜久久 | 色欲档案之麻雀台上淫| 纯肉腐文高H总受男男| 特黄特黄aaaa级毛片免费看| 国产精品国产三级国产专区53| 双性精跪趴灌满h室友4p| 国产精品人成在线播放新网站| 午夜天堂AV久久久噜噜噜| 狠狠干2022| 5g天天奭视频| 日本老妇一级特黄aa大片| 国产成人精品免费视频大全可播放的| 翁公吮她的花蒂和奶水| 好紧的小嫩嫩17p| 最近中文字幕2019免费版日本| 欧美激情社区| 国产高清免费视频免费观看| 亚洲国产精品高清在线| 久久影院毛片一区二区| 办公室激情在线观看| 小柔的性放荡羞辱日记| 久久久久久久99精品免费观看| 97精品一区二区视频在线观看|