色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

淺談DNN中應用FPGA的作用分析

YCqV_FPGA_EETre ? 來源:未知 ? 2019-11-28 17:19 ? 次閱讀

引言

深度神經網絡(deep neural network)是機器學習發展20年來取得的最大突破,比如在語音識別方面,相比于傳統方法,其將錯誤率降低了30%;而在2011年的圖片識別競賽上,將錯誤率從26%降低到3.5%,這些使得處于發展低谷的人工智能突然熱門起來,從學術界擴展到工業界,甚至在google的alpha go擊敗了頂級圍棋大師李世石后,人工智能成為全民討論的熱門,所有的程序員都夢想轉行機器學習。

DNN中應用最廣泛的是CNN和RNN,CNN是一種卷積網絡,在圖片識別分類中用的較多,RNN可以處理時間序列的信息,比如視頻識別和語音識別。這些DNN結構通常很深,計算量也很大。比如VGG16用來處理1000種圖片類別,有550MB的權重數據,完成一個分類就需要31Gop(operations)。為了降低計算量和訪問內存時間,有兩種方法:量化和降低權重。量化是減小權重或者激活數據的精度,比如從32bit浮點量化到8bit甚至1bit,就減小了數據量。降低權重包括剪枝和結構簡化,這兩種方法可以去除多余的權重參數

DNN包括訓練和推理兩個階段,訓練是一個學習過程,通過不斷的對權重進行迭代更新而使得網絡獲得智能。而推理階段是給出一定輸入后,網絡會根據之前學習到的知識,輸出準確結果。為了使得結果具有更高準確率,訓練是進行浮點運算,同時涉及到大量的微分運算,所以訓練通常由GPU完成。但是訓練是一次性的,當訓練完成,網絡就可以直接用于推斷而不需要再進行訓練。FPGA就是用于推理過程,相比于CPU,具有更加靈活可編程的特點。可以針對DNN的特性增加運算并行度,調整內存訪問,比CPU獲得更高的實現效果。本章對自己基于FPGA進行DNN設計的經驗做一個總結,包括對網絡模型的一些體會,以及FPGA設計架構的一些思路,拋磚引玉,期待更多熱愛AI加速的同學們加入討論。

1、DNN模型

不論是CNN還是RNN,一個共同特點是整個網絡是由幾個相同的單元聯結形成的。CNN中基本的單元是神經元,一個神經元包含一個權重和激活函數,其中權重是對輸入信息進行卷積(圖1.1),幾乎大部分運算量都集中在卷積運算中。激活函數是對卷積后的結果進行非線性運算,激活函數有很多,像Relu,sigmoid等。基本的CNN網絡結構如圖1.2,網絡每層都由多個神經元構成,每個神經元的輸入來自上一層的輸出,本層輸出作為下一層的輸入。每層的輸入通道是上一層神經元的個數,輸出通道是這一層神經元個數。每個神經元對應不同輸入通道的數據都有不同的權重數據(即kernel),這些權重和對應輸入通道的圖像完成卷積之后再求和,最后通過非線性激活函數給出輸出通道的值。我們用偽代碼來表示一層網絡的運算過程:

其中內四層循環是圖像和權重的卷積運算,FPGA就是利用這6層循環進行加速。從這偽代碼中可以看出每個乘法都是相互獨立的,不會依賴于其他運算,而加法包含兩種,一種是在卷積運算中,另外一種是每個輸入通道卷積后的數據要求和。

For(int o=0;o
其中內四層循環是圖像和權重的卷積運算,FPGA就是利用這6層循環進行加速。從這偽代碼中可以看出每個乘法都是相互獨立的,不會依賴于其他運算,而加法包含兩種,一種是在卷積運算中,另外一種是每個輸入通道卷積后的數據要求和。


圖1.1 圖像卷積


圖1.2 CNN網絡結構 另外一種比較常用的網絡是RNN,這是一種循環神經網絡,具有記憶功能,可以處理時序信息。這里重點介紹一下LSTM網絡,LSTM也是一種RNN。但是其增加了多個門控:記憶門,輸入門,輸出門等。這些門解決了梯度消失和發散的問題,能夠處理更長時序的信息。所以在語音識別和視頻識別方面有重要應用。LSTM原理的介紹可以參見《LSTM原理》。FPGA更多的關心其中有哪些運算,LSTM中主要包含矩陣乘法,向量求和,激活操作,向量點乘等。矩陣乘法消耗最多的運算資源,如何優化這種運算是FPGA實現加速的關鍵。 對于矩陣乘法,根據其乘法順序有一下幾種方式。 1) 小矩陣x小矩陣 A每次獲得nxm塊數據,和B的mxv塊數據相乘,然后A移動nxm塊,B向下移動mxv塊,再次相乘并且和之前結果累加,當A移動到右端,B同時移動到底端,完成C中nxv矩陣塊。A中數據復用率在V次。

圖1.3 小矩陣x小矩陣

2) 列向量x行向量

A每次獲得nx1列向量,B獲得1xn行向量,二者進行叉乘,得到nxn個矩陣數據,然后A向右移動,同時B向下移動,二者叉乘結果和上一次進行累加,最后當A移動到右端,B到底端,得到了一個nxn大小的C矩陣塊。A中數據復用率在n次。


圖1.4列向量x行向量 對比這兩種計算方式,第一種A數據復用率取決于B矩陣列大小。A可以看做權重,B看做輸入的圖像或者聲音信息,如果輸入信息“寬度不夠”,那么權重利用率低,就會造成運算比搬運數據慢,造成帶寬瓶頸。第二種方式A僅僅需要n個數,就能參與n*n次乘法,利用率較高。這能夠很大緩解帶寬瓶頸。但是如果B的寬度較小或者B為向量,那么就會造成算力較低,搬運進n個數只能計算n次乘法。如何選擇需要根據實際情況來決定。

2、量化和減少權重

雖然浮點數能夠表示更高的數據精度和更大的數據寬度,但是浮點數據占用的存儲資源和運算資源都較大,造成推理時間較長。隨著網絡的復雜和加深,對推理延時的要求越來越高,因此通過必要手段來壓縮網絡模型,降低推理延時顯得非常重要。壓縮網絡模型主要有兩種方式:量化和減少權重。

1)定點化。
通過仿射變換將浮點數等效的映射到定點數空間,比如對于一個分布范圍在(Xmin, Xmax)的權重數據,需要映射到(0,N-1)區間,其中N是定點可以表示的數據范圍。浮點數就可以通過一個尺度和偏移量來表示為: 其中Z為0點偏移量,也是定點數據,S為尺度大小,用浮點數表示。在計算卷積的時候,就可以將尺度因子提取出來進行后處理,而乘法和加法運算使用定點完成。比如對于一個卷積運算可以表示為: 2) 二值化

二值化就是將參數量化到兩個值{-1, 1},和一個尺度參數。二值化網絡大大降低了運算和參數存儲,但是也對網絡精度有很大削弱,所以應用范圍很窄,比如用在MNIST和CIFAR-10這樣比較小的數據集中。對于定點乘法一般都是用DSP實現,所以算力大小受到了FPGA中DSP數量的限制。而二值化網絡的乘法運算可以通過簡單的邏輯來實現,不在受限于DSP資源,可以大大提高算力。將浮點轉化為二值有兩種方式,一種是設定閾值,超過閾值設為1,小于設為-1。即:

其中概率為: 隨機rounding不會導致參數分布發生偏移。 1)? log量化 在一個2為底的對數表達中,參數被量化為一個2的冪次數據和尺度數。對數表達可以通過少量的bit位數涵蓋寬闊的數據范圍。比如3bit數據,最大為8,用2的冪次表達可以涵蓋從0到255個數據范圍。使用了log表達的乘法就可以用移位操作來實現了,這大大節省了DSP的使用。 量化的方式主要分為兩種:一種是訓練后量化,一種是在訓練過程中量化。訓練后量化省去了重新量化,但是可能對精度造成較大損失。訓練過程量化,是在進行前向網絡計算的時候,使用量化參數,而在反向傳播過程中存儲了浮點參數,更新浮點參數。過程如下: 減少權重的方法也有很多,比如剪枝和結構化參數。剪枝是去除不重要的神經元連接,大大減少了權重數據,而結構化參數是通過設定閾值,讓某一塊的參數集體為0,這樣降低了參數存儲和計算量。這兩種方法的詳細介紹請見公眾號之前的文章《剪枝》。

3、FPGA中并行方法

CNN中可以進行并行化運算的結構有:輸入通道,輸出通道,圖像卷積。這其中輸出通道之間是沒有依賴關系的,而輸入通道的結果是需要求和的。圖像卷積每行輸出像素之間沒有依賴關系,但是每個結果像素是對應原來圖像多個像素的。即一個卷積核涵蓋大小的像素和對應卷積核相乘后累加。 神經網絡中輸入輸出通道數量通常都較大,從輸入輸出通道上并行是一個很好的加速方法。比如我們選擇4個輸入通道和4個輸出通道,如圖3.1所示。


圖3.1 輸入輸出通道并行化 這樣就可以同時并行4x4個卷積運算,對于一個網絡層為16(輸入通道)x16(輸出通道)的卷積運算,應用上述結構,就可以這樣拆分來運算(圖3.2):每次都完成4x4通道運算,因為有16個輸入通道,進行4次這樣的運算,就可以輸出4個輸出通道數據。以同樣方法進行4次就實現了16x16網絡層的卷積運算。 因為輸入通道之間需要求和運算,所以使用了加法樹。隨著輸入通道變大,加法樹級數會變深。假設使用2輸入加法模塊,那么上述4通道結構的加法樹級數就是2。在進行FPGA設計的時候這是一個需要考慮的問題,輸入通道越多,加法樹的fan-in越大,那么在高速時鐘情況下,不同路徑時間的延時就會影響時序性能了。如果輸出通道變大,那么feature map數據的扇出就會變大,因為同一個feature map是被所有輸出通道共享的。


圖3.2 通過4次4x4運算,然后求和完成4輸出通道數據 輸入輸出通道的并行數收到了網絡層大小以及fan-in和fan-out的限制,不可能太大。所以要增加并行度還需要繼續探索圖像卷積。首先我們想到卷積不是多個像素和卷積核進行乘法嘛,那么我們也將這些乘法并行起來就可以啦。但是這樣存在一個問題就是:卷積核大小是不固定的,比如3x3卷積核中9個乘法被同時執行,那么等到了1x1卷積核,就會只有1個乘法器被使用,降低了乘法器利用率。因此這樣并行不靈活。并行運算最好找到不存在依賴關系的運算。每行像素的輸出是并行的,沒有依賴關系的。那么就可以同時進行多行的卷積運算,而一個卷積核內的乘法和加法就可以用一個乘法器和累加器來做,這樣就能適應不同卷積核大小的運算。多行并行運算如圖3.3。

圖3.3 3行卷積并行運算

采用以上輸入輸出通道的架構,缺點就是fan-out和fan-in較大,加法樹級數較大。有沒有什么方法可以降低fan-in和fan-out呢?如果將輸入通道的求和也使用累加來實現,那就變成只有一個PE完成卷積運算以及不同通道的求和。但是一個PE卻降低了并行度,那么可以想到增加串行的PE數量來增加輸入并行度,即演變為一列PE來實現輸入通道求和。由于PE排序上的空間限制,導致后邊一個PE的計算相比于前一個PE要有1個周期延時,如果將數據從從PE間的移動打一拍,那正好可以在第二個PE計算出來的同時完成和前一個PE的求和,這就是脈動的關鍵所在。更具體的脈動陣列講解請看公眾號之前文章《脈動陣列》。

圖3.4 加法樹轉化為脈動結構

4、存儲結構

即使經過了量化和剪枝等處理,網絡的參數也非常大(如表4.1),這在有限的FPGA資源下是無法全部存儲于片上的。因此需要一個片外存儲器(DDR)來存儲權重和信息數據,在需要數據的時候從片外搬上片上來進行計算,并將結果存儲到片外存儲器

表4.1 幾種網絡壓縮前和壓縮后大小對比


表4.2 幾種Xilinx器件存儲資源


這時候影響網絡推理延時的因素就不僅僅包含算力的大小了,還需要考慮片上存儲大小,ddr帶寬,權重和信息數據復用率的影響。帶寬和算力對推理延時的綜合作用可以通過roofline圖來表示。所謂“Roof-line”,指的就是由計算平臺的算力和帶寬上限這兩個參數所決定的“屋頂”形態。Roofline的縱坐標表示算力,屋頂代表了FPGA所能達到的最大算力,橫坐標表示每byte數據可以參與多少次運算,表示了權重和信息數據的復用率。由roofline劃分出兩個瓶頸區域,一個是算力瓶頸,一個是帶寬瓶頸。當權重和數據復用率較高,即I大于FPGA所能達到的最大算力對應的復用率的時候,FPGA算力就是瓶頸,但是這種情況是好事情,因為FPGA的運算資源達到了100%的利用。如果數據復用率較低的時候,那么帶寬就成為瓶頸,因為在當前帶寬下,載入到片上的數據無法支持最大算力,這時候FPGA運算資源利用率沒有被全部利用,存在等待數據情形。


圖4.1 roofline圖 在一個CNN中,網絡越往后圖像大小越小,輸入輸出通道數量變大,這導致的結果就是權重參數的復用率變低,這個時候FPGA計算資源利用率就會降低。這個時候帶寬大小以及片上存儲就成為瓶頸。考慮片上存儲后,通過一個簡單模型來分析FPGA計算資源利用率。容易知道數據量和復用率同總計算量的關系: 其中D為數據量,I為數據復用率。那么FPGA運算資源自用率就可以表示為:

5、指令

指令實際上是一些控制FPGA流程的信息,比如載入多少數據,進行哪些運算(conv,pool等)。這些控制信息會根據不同的網絡結構編輯好,存儲成二進制文件放到ddr中。通過FPGA讀入來控制操作。這些指令大體上包括以下幾種:

1)load weights/image:從ddr中加載權重或者image數據到片上來。這其中會包含ddr首地址,需要讀入的數據長度等信息。

2)conv:這個主要進行卷積運算,包括卷積核大小,圖像大小,輸入輸出通道等信息。

3)activate:激活函數的控制,控制是否進行激活操作。

4)save image:將運算完的結果存儲到ddr中,包括ddr地址,長度等信息。

總結

FPGA的靈活可配置結構非常適合不斷變化的網絡結構,同時其并行化和pipeline優勢可以用于神經網絡的加速。在進行FPGA設計的時候,需要考慮到并行化方式,存儲結構,如何平衡帶寬和算力之間的關系。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • FPGA
    +關注

    關注

    1630

    文章

    21786

    瀏覽量

    605071
  • 神經網絡
    +關注

    關注

    42

    文章

    4778

    瀏覽量

    101023
  • 機器學習
    +關注

    關注

    66

    文章

    8437

    瀏覽量

    132893
  • dnn
    dnn
    +關注

    關注

    0

    文章

    60

    瀏覽量

    9073

原文標題:在DNN中FPGA做了什么?

文章出處:【微信號:FPGA-EETrend,微信公眾號:FPGA開發圈】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    淺談通信電源廣泛使用以及功能分析

    生活很多地方都可以了解到關于通信電源的使用,這也是簡單的可以了解到關于通信電源的使用是多么的廣泛以及普遍的。淺談通信電源廣泛使用以及功能分析、說到分析更多人選擇了解通信電源以及電力U
    發表于 11-21 18:32

    FPGA 超越 GPU,問鼎下一代深度學習主引擎

    并行度和定制類型數據的大量引入,FPGADNN研究中表現非常出色,可用于需要分析大量數據的AI、大數據或機器學習等研究領域。來自社交媒體和互聯網的圖像、視頻和語音數字數據的持續指數增長推動了
    發表于 04-27 14:10

    【我是電子發燒友】如何加速DNN運算?

    深度神經網絡(DNN)目前是許多現代AI應用的基礎。自從DNN在語音識別和圖像識別任務展現出突破性的成果,使用DNN的應用數量呈爆炸式增加。這些
    發表于 06-14 21:01

    神經網絡DNN知識點總結

    DNN:關于神經網絡DNN的知識點總結(持續更新)
    發表于 12-26 10:41

    淺談FPGA在安全產品中有哪些應用?

    淺談FPGA在安全產品中有哪些應用?
    發表于 05-08 06:36

    FPGA在無線應用作用

    FPGA在無線應用作用
    發表于 05-25 06:22

    淺談電子三防漆對PCB板的作用有哪些?

    淺談電子三防漆對PCB板的作用有哪些?
    發表于 04-14 14:36

    信息計算與時頻分析淺談

    信息計算與時頻分析淺談:信息計算的基本思想與方法數據表示與信號的時頻特征,Fourier分析與小波信號時頻表示在圖像處理與模式識別的應用信息是蘊含在消息
    發表于 08-26 08:57 ?0次下載

    FPGA設計工具淺談

    FPGA設計工具淺談 作為一個負責FPGA企業市場營銷團隊工作的人,我不得不說,由于在工藝技術方面的顯著成就以及硅芯片設計領
    發表于 10-10 07:46 ?478次閱讀

    什么是DNN_如何使用硬件加速DNN運算

    深度神經網絡(DNN)目前是許多現代AI應用的基礎。自從DNN在語音識別和圖像識別任務展現出突破性的成果,使用DNN的應用數量呈爆炸式增加。這些D
    的頭像 發表于 07-08 06:45 ?2.2w次閱讀
    什么是<b class='flag-5'>DNN</b>_如何使用硬件加速<b class='flag-5'>DNN</b>運算

    UIUC推出最新DNN/FPGA協同方案 助力物聯網終端設備AI應用

    UIUC、IBM 和 Inspirit IoT, Inc(英睿物聯網)的研究人員提出 DNNFPGA 加速器的協同設計方案(DNN/FPGA co-design),通過首創的「A
    發表于 06-10 14:39 ?1254次閱讀
    UIUC推出最新<b class='flag-5'>DNN</b>/<b class='flag-5'>FPGA</b>協同方案 助力物聯網終端設備AI應用

    FPGA設計時序分析的基本概念

    時序分析FPGA設計永恒的話題,也是FPGA開發人員設計進階的必由之路。慢慢來,先介紹時序分析
    的頭像 發表于 03-18 11:07 ?2755次閱讀

    FPGA在新興DNN推理領域的應用

    電子發燒友網站提供《FPGA在新興DNN推理領域的應用.pdf》資料免費下載
    發表于 09-15 10:52 ?0次下載
    <b class='flag-5'>FPGA</b>在新興<b class='flag-5'>DNN</b>推理領域的應用

    新興DNN推理領域的FPGA

    電子發燒友網站提供《新興DNN推理領域的FPGA.pdf》資料免費下載
    發表于 09-15 10:09 ?0次下載
    新興<b class='flag-5'>DNN</b>推理領域的<b class='flag-5'>FPGA</b>

    基于FPGA進行DNN設計的經驗總結

    DNN應用最廣泛的是CNN和RNN,CNN是一種卷積網絡,在圖片識別分類中用的較多,RNN可以處理時間序列的信息,比如視頻識別和語音識別。
    發表于 04-07 10:23 ?609次閱讀
    基于<b class='flag-5'>FPGA</b>進行<b class='flag-5'>DNN</b>設計的經驗總結
    主站蜘蛛池模板: 一个人的视频全免费在线观看www| 日韩精品熟女一区二区三区中文| 97在线观看成人免费视频| 爽爽窝窝午夜精品一区二区| 啦啦啦 中文 日本 韩国 免费| 国产69精品久久久熟女 | 俄罗斯女人Z0Z0极品| 中文字幕在线观看网址| 性色无码AV久久蜜臀| 女人高潮被爽到呻吟在线观看| 国精产品一区一区三区有| 福利啪啪吧| chinese野外男女free| 一天不停的插BB十几次| 亚洲 天堂 国产在线播放| 日本一卡精品视频免费| 美女的避毛| 久久毛片基地| 精品国产福利一区二区在线| 国产精品久久一区二区三区蜜桃| qovd伦理| avtt天堂网2014| 1区2区3区4区产品不卡码网站| 亚洲幼女网| 亚洲狠狠网站色噜噜| 西西人体大胆牲交PP6777| 少妇大荫蒂毛多毛大| 欧洲内射VIDEOXXX3D| 男生脱美女内裤内衣动态图| 久久亚洲AV成人无码国产漫画| 极品内射少妇精品无码视频| 国产全肉乱妇杂乱视频| 国产看黄网站又黄又爽又色| 国产国拍精品AV在线观看| 俄罗斯美女z0z0z0在线| 超碰高清熟女一区二区| younv 学生国产在线视频| A片毛片免费视频在线看| 99九九99九九九视频精品| 67194成在线观看免费| 69国产精品人妻无码免费|