色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

在推斷更大的網絡時如何解決計算復雜性增加的問題

冬至子 ? 來源:OpenFPGA ? 作者:碎碎思 ? 2023-05-23 17:21 ? 次閱讀

低計算成本技術

首先,我們將討論如何降低計算成本本身。

量化

量化是權重或激活(每層的輸入和輸出)中比特的減少,通常在 fp32 中構建。眾所周知,深度學習在推理過程中能夠以比訓練過程更低的位精度進行處理,盡管這取決于模型,但即使是 8 位定點數和位數更少的定點數也具有實用的精度。FPGA 與 1 位左右的低精度網絡特別兼容,因為可以使用 LUT 將卷積運算替換為查找表。

修剪

修剪是在卷積層等使用的權重矩陣中,稀疏化(移至 0)足夠接近 0 的值的過程。足夠接近 0 的系數對卷積運算的最終結果影響很小,因此將其設置為 0 不會顯著影響推理結果。在實踐中,我們會設置剪枝的閾值等參數,給出測試模式,檢查允許的誤差范圍。

修剪主要應用于兩個粒度。

  • 1、粗粒:每通道
  • 2、細粒度:單位因子

1 的粗粒度修剪只是簡單地刪除了通道,因此可以在不特別注意計算硬件的情況下提高速度。另一方面,2的細粒度修剪只會增加矩陣內部0元素的數量,同時保持矩陣的大小不變。

在這里我們將限制在這個級別,但是還有其他方法可以減少計算量,例如拓撲調整可以減少模型本身的計算量。

FPGA 上優化的 DNN 框架

GPU 上做深度學習時,無論前端選擇哪種框架,后端幾乎都是跑NVIDIA 優化過的cuDNN 庫。cuDNN 庫經過優化,幾乎可以榨干 GPU 的峰值性能。出于這個原因,在不實現卷積等功能的情況下在后端使用這些庫是很常見的。

FPGA 也是如此,例如 Xilinx 提供了一個名為Vitis-AI的推理框架,而英特爾 FPGA 提供了OpenVINO 工具包。在本節中,根據DPU Vitis-AI 中用于邊緣設備

DPU

DPU是Deep Learning Processing Unit的縮寫,顧名思義就是深度學習的處理器。與我們目前創建的架構不同,其中電路來處理每一層,DPU 實現了一個巨大的算術單元塊,并通過在算術單元塊上連續執行每一層的處理來執行推理過程。

DPU的硬件架構如下圖所示。如圖所示,DPU 具有類似于普通處理器的架構,例如指令調度器。

image.png

DPU只支持8bit的量化網絡,其量化工具在Vitis-AI(原DNNDK)中提供。

下面我們挑選 DPU 架構中的一些有趣的點簡單說一下。

數據并行度提取

在上一篇文章中,我們提取了像素之間和輸出通道之間的 2 軸數據并行性以進行加速。DPU 還提取輸入通道之間的數據并行性。

DPU 有幾種配置,可以根據要實現的芯片大小進行更改,如下表所示。

image.png

性能最高的B4096架構共有2048個算子,像素并行度8,輸入通道方向16個,輸出通道方向16個。雖然有 2048 個運算單元,但總共是 4096 次運算/時鐘,因為每個運算單元同時執行乘法和加法。

上次創建的架構中,運算次數最多的卷積層只有4*8=32個運算單元,兩個卷積層加起來就有32+16=48個單元,性能簡直快了近40倍,區別蠻大的。

用于 DSPDDR(雙倍數據速率)

在 DPU 中,通過僅以雙倍工作頻率運行 DSP 來提高性能,如下圖所示。每個周期可能的操作數翻了一番,從而使 DSP 的使用量減半。

image.png

DPU方面主要針對Zynq Ultrascale+,工作頻率為300~400 MHz。

所以DSP運行在600-800 MHz范圍內,速度非常快。

特別是,這種時鐘分頻的優化在像這次這樣用 HLS 開發時很難重現,需要在 RTL 中進行調整。

另外,在像 DPU 這樣的架構中,每個周期持續向計算單元提供數據是一個問題,但我的印象是這也得到了很好的優化。這是作者的經驗,但是在對1K圖像進行3×3卷積時,運算單元能夠在90%以上的周期內運行(當通道數是并行數的倍數時)。

由于很難創建優化到這種程度的HLS,因此在 FPGA 上實際執行深度學習時,在某些框架上執行推理會更有效。但是,我認為有些模式在現有框架上無法很好地處理,例如使用更優化的架構來切換每一層的量化位數。在這種情況下,可能需要構建自己的硬件來處理數據。

總結

感謝您閱讀到這里。

在本系列教程中,我們專注于在 FPGA 上實際編寫代碼和執行處理。說到FPGA開發,大家可能會有這樣的印象,寫RTL很難,還得懂硬件。然而,就像我一開始創建的推理電路一樣,如果我不關心性能,我可以將高級綜合應用于普通的 C 代碼并且它可以工作。此外,在隨后的加速中,我們主要通過簡單地添加 #pragma. 就能實現 400 倍的顯著速度提升。我認為在創建DPU等優化庫時仍然需要用RTL編寫,但如果目的是在短時間內創建適度優化的庫(像這次的HLS)如果使用它,則可以輕松開發一些應用。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    19395

    瀏覽量

    230696
  • FPGA
    +關注

    關注

    1630

    文章

    21785

    瀏覽量

    605040
  • DPU
    DPU
    +關注

    關注

    0

    文章

    366

    瀏覽量

    24226
  • LUT
    LUT
    +關注

    關注

    0

    文章

    49

    瀏覽量

    12545
收藏 人收藏

    評論

    相關推薦

    何解決汽車制造商多樣價值和復雜性成本的矛盾?

    何解決多樣價值和復雜性成本之間的矛盾,已成為當今汽車制造商面臨的最大挑戰之一。電氣設計領域對此感受最深,因為“電氣系統”幾乎受所有設計決策和客戶選擇的影響。
    發表于 07-18 10:33 ?1481次閱讀
    如<b class='flag-5'>何解</b>決汽車制造商多樣<b class='flag-5'>性</b>價值和<b class='flag-5'>復雜性</b>成本的矛盾?

    掌握5G測試的復雜性:越來越受到關注

    隨著蜂窩技術的發展,以大約10年的間隔,從3G到4G再到10G相隔10年,無線網絡的性能提升了10倍。這伴隨著測試復雜性更大增加。但是,隨著我們進入2019年,最好暫停并反思該行業通過3G,4G
    發表于 03-09 11:51

    抑制嵌入式系統設計的復雜性解析

    抑制嵌入式系統設計的復雜性
    發表于 12-30 07:20

    嵌入式調試的復雜性分析

    高手談嵌入式調試的復雜性
    發表于 02-19 07:14

    如何用可重構射頻前端簡化LTE設計復雜性

    如何用可重構射頻前端簡化LTE設計復雜性
    發表于 05-24 07:10

    免疫系統的主組織相容復雜性及其應用

    模擬免疫系統的主組織相容復雜性的基礎上,結合模糊邏輯與擴展陰性選擇算法提出了一個基于免疫系統主組織相容復雜性的模糊邏輯綜合決策算法,并用該算法構建了一個實際
    發表于 05-28 11:01 ?8次下載

    基于構件回歸測試的復雜性度量框架

    的軟件修改需求,維護者可以實施不同的修改手段.不同的修改手段會導致不同的回歸測試復雜性,這種復雜性是軟件維護成本和有效的重要因素.目前的研究沒有強調構件軟件的回歸測試復雜性問題.基于
    發表于 01-19 16:41 ?0次下載

    比爾蓋茨與喬布斯的共同特質:整合復雜性

    整合復雜性是指:發展和保持對立的特征、價值觀和思想,然后將它們整合成更大的特征、價值觀和思想的能力
    的頭像 發表于 07-06 14:26 ?3979次閱讀

    導致計算機程序的復雜性和多樣的算法

    在過去,很多巧妙的計算機算法設計,改變了我們的計算技術。通過操作標準計算機中提供的中間運算符,可以產生很多的高效函數。這些函數導致了計算機程序的復雜
    的頭像 發表于 01-22 08:40 ?3572次閱讀

    大數據分析學習的挑戰:復雜性、不確定性及涌現

    來源:ST社區 科多分享的大數據分析學習與研究的新挑戰:對于習慣結構化數據研究的統計學來說,大數據分析顯然是一種嶄新的挑戰。 挑戰來自何方?來自于大數據的復雜性、不確定性和涌現三個方面,其中復雜性
    的頭像 發表于 11-17 10:19 ?2924次閱讀

    組合最優化計算機算法和復雜性的PDF電子書免費下載

    本書討論組合最優化的計算機算法及其復雜性,是計算機和學的基礎理論之一。
    發表于 01-04 08:00 ?19次下載

    模型復雜性日益增加,AI優化的硬件隨之出現

    人工智能(AI)模型的規模和復雜度以每年大約 10 倍的速度不斷增加,AI 解決方案提供商面臨著巨大的壓力,他們必須縮短產品上市時間,提高性能,快速適應不斷變化的形勢。模型復雜性日益增加
    的頭像 發表于 06-16 17:00 ?2389次閱讀

    駕馭軟件定義車輛的復雜性

    。 第一步是了解與大多數其他行業相比,汽車行業具有增加軟件復雜性的功能。 “軟件定義”的定義意味著大部分汽車功能現在由運行在所需處理器、內存和傳感器上的軟件應用程序實現。此外,大多數功能是由人機界面軟件中實現的好
    的頭像 發表于 07-14 17:42 ?980次閱讀
    駕馭軟件定義車輛的<b class='flag-5'>復雜性</b>

    了解 AV 復雜性

    何影響 AV 問題? 部署 AV 用例將如何演變? 為了回答這些問題,我們在三個圖表中總結了一個演示文稿,旨在為新手和專家提供一些視角。 AV復雜性問題 自動駕駛汽車的基本問題是為 SAE 4 級功能開發安全、可靠的自動駕駛汽車所涉及的巨大復雜性
    的頭像 發表于 07-15 15:56 ?1443次閱讀
    了解 AV <b class='flag-5'>復雜性</b>

    黑盒化技術簡化FPV計算復雜性

    當一個模塊被黑盒化時,它的輸出被視為FPV設計的輸入,即它們可以取任何隨機值。部分模塊的黑盒化對FPV的性能有著非常巨大的影響,所以FPV證明的開始應該盡量地考慮任何黑盒化的可能。
    的頭像 發表于 09-13 10:55 ?1159次閱讀
    主站蜘蛛池模板: 亚洲一区免费香蕉在线| 久久视热频国产这里只有精品23| 日本无码免费久久久精品| 东京热百度影音| 亚洲国产成人精品无码区APP| 久久国产精品无码视欧美| 91久久99久91天天拍拍| 妺妺窝人体色777777野大粗| 成人女人A级毛片免费软件| 亚洲国产成人在线| 暖暖 视频 在线 观看 高清 | 97色香蕉在线| 日本理论片午午伦夜理片2021 | 青青草伊人久久| 黑人特黄AA完整性大片| bt成人社区| 亚洲无线观看国产| 人妻夜夜爽99麻豆AV| 户外露出野战hd| yellow在线中文| 在线观看中文字幕码2021不用下载| 强行撕开衣服捏胸黄文| 精品国产品国语在线不卡| 成年人视频在线免费观看| 一色狗影院| 色综合久久网女同蕾丝边| 久久天堂网| 国产一区免费在线观看| www.伊人网| 13一18TV处流血TV| 亚洲精品无码一区二区三区四虎 | 欧美亚洲日韩国产在线在线| 国产呦精品一区二区三区下载 | xx在线观看| 伊人热人久久中文字幕| 歪歪漫画羞羞漫画国产| 欧美gay老头互吃| 久久精品亚洲AV中文2区金莲 | 久久青草免费线观最新| 国产精品亚洲污污网站入口| 99久久麻豆AV色婷婷综合|