色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

在推理引擎中去除TOPS的頂部

星星科技指導員 ? 來源:嵌入式計算設計 ? 作者:Geoff Tate ? 2022-12-01 15:53 ? 次閱讀

隨著 AI 的爆炸式增長,人們開始高度關注能夠提供 AI 所需性能的新型專用推理引擎。因此,在過去的六個月里,我們看到了一系列神經推理硬件的發布,所有這些都有望提供比市場上任何其他產品更好的加速。然而,挑戰在于沒有人真正知道如何從另一個衡量一個。這是一項新技術,像任何新技術一樣,我們需要指標,我們需要真正重要的指標。

一切都與吞吐量有關

當推理引擎的性能出現時,供應商會拋出基準測試,引用TOPS(Tera-Operations/second)性能和TOPS/Watt等內容。研究這些數字的系統/芯片設計人員很快意識到這些數字通常毫無意義。真正重要的是推理引擎可以為模型、圖像大小、批量大小和過程以及 PVT(過程/電壓/溫度)條件提供多少吞吐量。這是衡量其性能的第一標準,但令人驚訝的是,很少有供應商提供它。

TOPS最大的問題是,當一家公司說他們的發動機做X TOPS時,他們通常會引用這個而不說明條件是什么。在不知道這些信息的情況下,他們錯誤地認為X TOPS意味著它可以執行X萬億次操作。實際上,報價 130 TOPS 的公司可能只能提供 27 TOPS 的可用吞吐量。

另一個正在使用但不太常見的基準測試是ResNet-50。這個基準的問題在于,大多數引用它的公司都沒有給出批量大小。當他們不提供這一點時,芯片設計人員可以假設這將是一個大批量大小,以最大限度地提高他們的硬件利用率百分比。這使得 ResNet-50 作為基準測試不是很有幫助。相比之下,例如,YOLOv3 需要 100 倍以上的操作來處理 200 萬像素的圖像。硬件利用率在“現實世界”模型上將面臨更大的挑戰。

如何正確測量神經推理引擎

在評估神經推理引擎時,有幾個關鍵事項需要考慮。以下是最重要的考慮因素以及它們真正重要的原因。

定義什么是操作:一些供應商將乘法(通常為 INT 8 乘以 INT 8)計為一個運算,將累加(加法,通常為 INT 32)計為一個運算。因此,單個乘法累加等于 2 個運算。但是,一些供應商在其TOPS規范中包含其他類型的操作,因此必須在開始時進行澄清。

詢問操作條件是什么:如果供應商在沒有提供條件的情況下給出 TOPS,他們通常使用室溫、標稱電壓和典型工藝。通常他們會提到他們指的是哪個工藝節點,但不同供應商的運行速度不同,大多數工藝都提供 2、3 或更高的標稱電壓。由于性能是頻率的函數,而頻率是電壓的函數,因此芯片設計人員在0.9V下可以獲得比0.6V時兩倍以上的性能。頻率因條件/假設而異。有關此方面的更多信息,請參閱本應用筆記。

查看批量大小:即使供應商提供了最壞情況的TOPS,芯片設計人員也需要弄清楚所有這些操作是否真的有助于計算他們的神經網絡模型。實際上,實際利用率可能非常低,因為沒有推理引擎始終對所有 MAC 具有 100% 的利用率。這就是為什么批量大小很重要的原因。批處理是為給定層加載權重并同時處理多個數據集。這樣做的原因是提高吞吐量,但放棄的是更長的延遲。ResNet-50 有超過 2000 萬個權重;YOLOv3 有超過 6000 萬個權重;并且必須獲取每個權重并將其加載到每個圖像的MAC結構中。有太多的權重,無法將它們全部駐留在 MAC 結構中。

查找您的 MAC 利用率:并非所有神經網絡的行為都相同。您需要以所需的批大小找出要部署的神經網絡模型的神經推理引擎的實際 MAC 利用率。

深入了解 TOPS

如果你是一個正在研究神經推理引擎的設計師,希望這篇文章能闡明要尋找什么。請記住,吞吐量才是最重要的。重要的是不要陷入無意義的基準測試,如TOPS和ResNet-50,除非你知道要問的事情。首先提出以下問題:在批量大小= A和XYZ PVT條件下,特定模型(例如YOLOv3)可以處理多少圖像/秒。一旦你開始指定條件和假設,你就會開始了解任何神經推理在現實世界中的表現。歸根結底,這才是最重要的。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    455

    文章

    50732

    瀏覽量

    423251
  • 神經網絡
    +關注

    關注

    42

    文章

    4771

    瀏覽量

    100720
  • AI
    AI
    +關注

    關注

    87

    文章

    30763

    瀏覽量

    268907
收藏 人收藏

    評論

    相關推薦

    vLLM項目加入PyTorch生態系統,引領LLM推理新紀元

    。 vLLM項目概述 vLLM的成就與實際應用 支持流行模型 安裝與使用vLLM 總結 一,vLLM項目概述 vLLM是一個為大型語言模型(LLMs)設計的高吞吐量、內存高效的推理和服務引擎。該項目最初基于創新的PagedAttention算法構建,如今已經發展成為一個全
    的頭像 發表于 12-18 17:06 ?78次閱讀
    vLLM項目加入PyTorch生態系統,引領LLM<b class='flag-5'>推理</b>新紀元

    高效大模型的推理綜述

    大模型由于其各種任務中的出色表現而引起了廣泛的關注。然而,大模型推理的大量計算和內存需求對其資源受限場景的部署提出了挑戰。業內一直努力開發旨在提高大模型
    的頭像 發表于 11-15 11:45 ?348次閱讀
    高效大模型的<b class='flag-5'>推理</b>綜述

    AI推理CPU當道,Arm驅動高效引擎

    AI的訓練和推理共同鑄就了其無與倫比的處理能力。AI訓練方面,GPU因其出色的并行計算能力贏得了業界的青睞,成為了當前AI大模型最熱門的芯片;而在 AI 推理方面,具備卓越通用性和靈活性的CPU
    的頭像 發表于 11-13 14:34 ?2398次閱讀
    AI<b class='flag-5'>推理</b>CPU當道,Arm驅動高效<b class='flag-5'>引擎</b>

    FPGA和ASIC大模型推理加速中的應用

    隨著現在AI的快速發展,使用FPGA和ASIC進行推理加速的研究也越來越多,從目前的市場來說,有些公司已經有了專門做推理的ASIC,像Groq的LPU,專門針對大語言模型的推理做了優化,因此相比GPU這種通過計算平臺,功耗更低、
    的頭像 發表于 10-29 14:12 ?393次閱讀
    FPGA和ASIC<b class='flag-5'>在</b>大模型<b class='flag-5'>推理</b>加速中的應用

    李開復:中國擅長打造經濟實惠的AI推理引擎

    10月22日上午,零一萬物公司的創始人兼首席執行官李開復與外媒的交流中透露,其公司旗下的Yi-Lightning(閃電模型)推理成本上已實現了顯著優勢,比OpenAI的GPT-4o模型低了31倍。他強調,中國擅長打造經濟實惠
    的頭像 發表于 10-22 16:54 ?354次閱讀

    澎峰科技高性能大模型推理引擎PerfXLM解析

    模型的高性能推理框架,并受到廣泛關注。歷經數月的迭代開發后,澎峰科技重磅發布升級版本,推出全新的高性能大模型推理引擎:PerfXLM。
    的頭像 發表于 09-29 10:14 ?463次閱讀
    澎峰科技高性能大模型<b class='flag-5'>推理</b><b class='flag-5'>引擎</b>PerfXLM解析

    超緊湊模塊提供高達 39 TOPS AI 算力

    的 XDNA? NPU 和強大的 Radeon RDNA 3? 圖形處理器,可為AI推理提供高達39 TOPS的驚人算力。 ? ?? 這使得全新conga-TCR8 Type 6模塊大批量、
    發表于 09-25 13:46 ?1307次閱讀
     超緊湊模塊提供高達 39 <b class='flag-5'>TOPS</b> AI 算力

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型處理復雜任務時的效率和響應速度。以下是對LLM大模型推理加速關鍵技術的詳細探討,內容將涵蓋模型壓縮、解碼方法優化、底層優化、分布式并行
    的頭像 發表于 07-24 11:38 ?867次閱讀

    深度學習編譯器和推理引擎的區別

    深度學習編譯器和推理引擎人工智能領域中都扮演著至關重要的角色,但它們各自的功能、應用場景以及優化目標等方面存在顯著的差異。以下是對兩者區別的詳細探討。
    的頭像 發表于 07-17 18:12 ?1244次閱讀

    基于瑞薩RZ/V2H AI微處理器的解決方案:高性能視覺AI系統

    RZ/V2H嵌入式AI微處理器,采用瑞薩最新的DRP-AI3技術,可提供高達8TOPS(Dense模型)/80TOPS(sparse模型)的AI推理能力,以及10 TOPS/W的高能效
    發表于 07-02 18:36 ?502次閱讀
    基于瑞薩RZ/V2H AI微處理器的解決方案:高性能視覺AI系統

    NPU和AI TOPS是什么?它們有哪些性能?

    可運行AI模型的性能、準確性和效率。如今,TOPS(每秒萬億次運算)是衡量處理器AI性能的主要方式之一。TOPS是基于處理器所需的架構和頻率,衡量處理器潛在AI推理峰值性能的方法,比如神經網絡處理器(NPU)。下面我們將深入探討
    的頭像 發表于 06-13 10:33 ?814次閱讀

    如何基于OrangePi?AIpro開發AI推理應用

    香橙派AIpro開發板采用昇騰AI技術路線,接口豐富且具有強大的可擴展性,提供8/20TOPS澎湃算力,可廣泛使用于AI邊緣計算、深度視覺學習及視頻流AI分析、視頻圖像分析、自然語言處理等AI領域
    的頭像 發表于 06-04 14:23 ?525次閱讀
    如何基于OrangePi?AIpro開發AI<b class='flag-5'>推理</b>應用

    輸出電壓波形頂部失真的原因

    放大電路工作過程中,輸出電壓波形可能會出現失真,其中頂部失真是一種常見的現象。
    的頭像 發表于 04-16 15:30 ?6502次閱讀

    深度探討VLMs距離視覺演繹推理還有多遠?

    通用大型語言模型(LLM)推理基準:研究者們介紹了多種基于文本的推理任務和基準,用于評估LLMs不同領域(如常識、數學推理、常識推理、事實
    發表于 03-19 14:32 ?355次閱讀
    深度探討VLMs距離視覺演繹<b class='flag-5'>推理</b>還有多遠?

    3PCS01G輸入電流波形頂部和底部有畸變的情況,請問COMP腳如何做優化?

    3PCS01G 現在輸入電流波形頂部和底部有畸變的情況,請問COMP腳如何做優化。
    發表于 01-24 08:02
    主站蜘蛛池模板: 99re1久久热在线播放| 午理论理影片被窝| 欧美成人免费观看久久| 99久久国产综合精品国| 欧美成ee人免费视频| 丰满的美女射精动态图| 一品道门免费视频韩国| 泡妞高手在都市免费观看| 草莓在线观看| 亚洲大片免费| 日韩精品特黄毛片免费看 | 东北成人社区| 四虎永久在线精品免费A| 久久亚洲精品成人| 国精产品一区一区三区M| 厕所RXXX| 边做边爱免费视频| a视频免费在线| AV国产乱码一区二区三视频| 在线欧美精品一区二区三区| 亚洲精品人成电影网| 玩弄放荡人妻一区二区三区| 色愁愁久久久| 我半夜摸妺妺的奶C了她软件| 日本熟妇乱人伦A片精品软件| 欧美亚洲国产手机在线有码| 久久精品一区二区免费看| 国语大学生自产拍在线观看| 国产精品亚洲专一区二区三区| 俄罗斯mm| 国产精品亚洲精品日韩电影| 久久www免费人成高清| 怡春院院日本一区二区久久| 嗯啊快拔出来我是你老师视频| 4480YY旧里番在线播放| 暖暖视频免费观看社区| 大地影院在线播放| 忘忧草下载| 久久精品亚洲精品国产欧美| 99精品国产AV一区二区麻豆| 日本大片免a费观看视频|