曰批免费视频播放在线看片,一二三四最新视频在线观看,一区二三区国产

商湯科技算法平臺團隊和北京大學高能效實驗室聯合提出一種基于 FPGA 的快速 Winograd 算法，可以大幅降低算法復雜度，改善 FPGA 上的 CNN 性能。早在2016年，論文中的實驗使用了當時最優的多種 CNN 架構，已經實現了 FPGA 加速之下的最優性能和能耗。

摘要

近年來，卷積神經網絡（CNN）越來越廣泛地應用于計算機視覺任務。FPGA 因其高性能、低能耗和可重配置性成為 CNN 的有效硬件加速器而備受關注。但是，之前基于傳統卷積算法的 FPGA 解決方案通常受限于 FPGA 的計算能力（如 DSP 的數量）。本論文展示了快速的 Winograd 算法，該算法可以大幅降低算法復雜度，改善 FPGA 上的 CNN 性能。我們首先提出了一種新型架構在 FPGA 上實現 Winograd 算法。我們的設計利用行緩沖結構（line buffer structure）來高效重用不同 tile 的特征圖數據。我們還高效架構 Winograd PE 引擎，通過并行化啟動多個 PE。同時存在復雜的設計空間有待探索。我們提出一種分析模型，用于預測資源使用情況、推斷性能。我們使用該模型指導快速的設計空間探索。實驗使用了當前最優的 CNN，結果表明其實現了在 FPGA 上的最優性能和能耗。我們在 Xilinx ZCU102 平臺上達到了卷積層平均處理速度 1006.4 GOP/s，整體 AlexNet 處理速度 854.6 GOP/s，卷積層平均處理速度 3044.7 GOP/s，整體 VGG16 的處理速度 2940.7 GOP/s。

引言

深度卷積神經網絡（CNN）在多個計算機視覺任務上取得了優秀的性能，包括圖像分類、目標檢測和語義分割 [1, 2]。CNN 的高準確率是以極大的計算復雜度為代價的，因為它需要對特征圖中的所有區域進行綜合評估 [3, 4]。為了解決如此巨大的計算壓力，研究者使用 GPU、FPGA 和 ASIC 等硬件加速器來加速 CNN [5–17]。其中，FPGA 因其高性能、低能耗和可重配置性成為有效解決方案。更重要的是，使用 C 或 C++的高級綜合（High Level Synthesis，HLS）大幅降低了 FPGA 的編程障礙，并提高了生產效率 [18–20]。

CNN 通常包含多個層，每一層的輸出特征圖是下一層的輸入特征圖。之前的研究發現當前最優 CNN 的計算主要由卷積層主導 [6, 7]。使用傳統的卷積算法，則輸出特征圖中的每個元素要經多步乘積累加運算進行單獨計算。盡管之前使用傳統卷積算法的 FPGA 解決方案取得初步成功 [5–9, 11]，但是如果算法更加高效，該解決方案的效率可能會更高。本文展示了使用 Winograd 算法的卷積算法 [21] 如何大幅降低算法復雜度，改善 FPGA 上的 CNN 性能。使用 Winograd 算法，利用元素之間的結構相似性生成輸出特征圖中的一列元素。這減少了乘法運算的數量，從而降低算法復雜度。研究證明快速的 Winograd 算法適合為具備小型濾波器的 CNN 推導高效算法 [16]。

更重要的是，CNN 的當前趨勢是帶有小型濾波器的深度拓撲。例如，Alexnet 的所有卷積層（除了第一層）都使用 3 × 3 和 5 × 5 濾波器 [3]；VGG16 僅使用 3 × 3 濾波器 [22]。這為使用 Winograd 算法高效實現 CNN 創造了機會。但是，盡管在 FPGA 上使用 Winograd 算法很有吸引力，但仍然存在一些問題。首先，設計不僅要最小化內存帶寬要求，而且要匹配計算引擎與內存吞吐量。其次，在 FPGA 上映射 Winograd 算法時存在很大的設計空間。很難推斷哪些設計會改善性能，抑或損害性能。

本文設計了一種行緩沖結構為 Winograd 算法緩存特征圖。這允許不同的 tile 在卷積運算進行時重用數據。Winograd 算法的計算涉及通用矩陣乘法（GEMM）和元素級乘法（EWMM）的混合矩陣變換。然后，我們設計了一種高效的 Winograd PE，并通過并行化啟動多個 PE。最后，我們開發分析模型用于評估資源使用情況，并預測性能。我們使用這些模型探索設計空間，確定最優的設計參數。

本文的貢獻如下：

提出一種架構，可在 FPGA 上使用 Winograd 算法高效實現 CNN。該架構把行緩沖結構、通用和元素級矩陣乘法用于 Winograd PE 和 PE 并行化。

開發出分析性的資源和性能模型，并使用該模型探索設計空間，確定最優參數。

使用當前最優的 CNN（如 AlexNet 和 VGG16）對該技術進行嚴格驗證。

商湯聯合提出基于FPGA的Winograd算法：改善FPGA上的CNN性能降低算法復雜度

圖 1：傳統卷積算法和 Winograd 卷積算法的對比。我們假設 Winograd 算法的步幅 S 為 1。

架構設計

圖 2：架構圖示

圖 2 表示在 FPGA 上基于 Winograd 算法的卷積層架構。研究者在相鄰 tile 的特征圖中確定數據重用機會。最后，自然而然地實現了行緩沖。輸入特征圖 (M) 有多個通道，如圖 1 所示。行緩沖的每一行都存儲所有通道中同樣的一行。Winograd PE 從行緩沖中獲取數據。具體來說，給出一個 n×n 輸入 tile，Winograd PE 將生成一個 m × m 輸出 tile。研究者通過并行化多個通道的處理來啟動 PE 陣列。最后，使用雙緩沖（double buffer）重疊數據遷移和計算。所有輸入數據（如輸入特征圖、濾波器）最初都存儲在外部存儲器中。輸入和輸出特征圖通過 FIFO 被遷移至 FPGA。但是，濾波器的大小隨著網絡深度增加而顯著擴大。將所有濾波器加載到片上存儲器（on-chip memory）中是不切實際的。在本論文的設計中，研究者將輸入和輸出通道分成多組。每個組僅包含一部分濾波器。研究者在需要時按組加載濾波器。為方便陳述，下文中假設只有一組。

圖 3：Winograd PE 設計圖示

自動工具流程

研究者設計了一個自動工具流程將 CNN 自動映射至 FPGA，如圖 5 所示。該流程包括設計空間探索引擎（DSEE）。研究者使用 Caffe prototxt 來描述 CNN 的結構 [24]。FPGA 配置參數包括內存帶寬、DSP 數量、邏輯單元和片上內存容量。DSEE 的輸出是最優解 {n, Tm, Tn}。在步驟 2 中，基于最優解，研究者開發了代碼生成引擎（CGE），可自動生成 Winograd 卷積函數。該函數描述整個加速器結構，包括行緩沖、緩沖管理和 Winograd PE。生成的實現是 HLS 兼容的 C 代碼。編譯指令如內存分區因素、循環展開因素 Tn Tm 以及 FIFO 接口被插入函數中。步驟 3 中，研究者使用 Xilinx HLS 工具將代碼合成為寄存器傳輸級別。最后，研究者使用 Xilinx SDSoC（軟件定義片上系統）工具鏈來生成比特流。

圖 4：自動工具流程

實驗評估

表 1：設計參數

表 2：Alexnet 的性能對比

表 3：VGG 的性能對比

表 4：GPU 平臺對比

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

FPGA

FPGA

+關注

關注
1638

文章
21877

瀏覽量
610627
算法

算法

+關注

關注
23

文章
4666

瀏覽量
94162
cnn

cnn

+關注

關注
3

文章
353

瀏覽量
22544
商湯科技

商湯科技

+關注

關注
8

文章
535

瀏覽量
36487

原文標題：商湯聯合提出基于FPGA的快速Winograd算法：實現FPGA之上最優的CNN表現與能耗

文章出處：【微信號：SenseTime2017，微信公眾號：商湯科技SenseTime】歡迎添加關注！文章轉載請注明出處。

基于紋理復雜度的快速幀內預測算法

為降低幀內預測的運算復雜度,根據不同的模式在宏塊中出現概率的大小不同,在幀內4×4的亮度預測模式中,選取出現概率最大的5種預測模式,作為優先選擇的預測模式。基于像素塊的紋理特性,選擇不具有

發表于 05-06 09:01

如何降低LMS算法的計算復雜度，加快程序在DSP上運行的速度，實現DSP?

基于線性預測的FIR自適應語音濾波器的系統結構由那幾部分組成？如何降低LMS算法的計算復雜度，加快程序在DSP上運行的速度，實現DSP?

發表于 04-12 06:27

求一種基于802.16d的低復雜度的幀同步和定時同步聯合算法

本文參考IEEE 802．16d物理層幀結構，提出了一種低復雜度的幀同步和定時同步聯合算法，該算法可在FPGA

發表于 05-06 06:23

各種排序算法的時間空間復雜度、穩定性

各種排序算法的時間空間復雜度、穩定性一、排序算法分類：二、排序算法比較：注：1、歸并排序可以通過手搖算法將空間

發表于 12-21 07:48

LDPC碼低復雜度譯碼算法研究

在描述置信傳播(BP)譯碼算法基礎上，研究和分析了兩種降低復雜度的譯碼算法。Min．Sum 算法

發表于 03-31 15:22 ?7次下載

圖像復雜度對信息隱藏性能影響分析

算法進行實驗，研究圖像的復雜度差異對信息隱藏性能的影響。實驗結果表明了所提復雜度評價方法的有效性以及復雜度分類的合理性，依據圖像

發表于 11-14 09:57 ?5次下載

降低FBMC-OQAM峰均值比的低復雜度PTS算法

部分傳輸序列（ PTS）方法的基礎上根據系統特性進行改進，得到迭代PTS（IPTS）算法，較傳統PTS算法計算復雜度有明顯降低；其次，將IP

發表于 11-28 17:21 ?0次下載

基于移動音頻帶寬擴展算法計算復雜度優化

移動通信設備由于計算資源有限，對計算復雜度較為敏感。我國自主研發提出的移動音頻編解碼算法標準AVS PlO中的帶寬擴展算法有利于提高移動音頻編解碼質量，但其計算

發表于 12-25 11:32 ?1次下載

基于I幀復雜度的初始量化參數（QP）選擇算法

針對不同的視頻內容造成編碼前幾幀質量低下的問題，提出一種基于I幀復雜度的初始量化參數（ QP）選擇算法。在編碼前利用解碼碼流中得到的I幀宏塊模式信息，運用宏塊中的3種不同幀內預測模式判斷I幀的

發表于 02-07 14:06 ?0次下載

虛擬MIMO中低復雜度功率分配算法

一種基于線性注水原理的低復雜度功率分配算法。該算法通過快速排除信道條件較差的協作用戶，并利用各協作用戶功率值之間的線性遞推關系式，將最優功率分配算法中的迭代運算轉化為線性運算，在實現功

發表于 03-09 15:22 ?1次下載

如何求遞歸算法的時間復雜度

相信很多同學對遞歸算法的時間復雜度都很模糊，那么這篇Carl來給大家通透的講一講。

發表于 07-13 11:33 ?1744次閱讀

算法之空間復雜度

算法之空間復雜度：衡量一個算法運行需要開辟的額外空間

發表于 08-31 10:29 ?1744次閱讀

常見機器學習算法的計算復雜度

時間復雜度不是測量一個算法或一段代碼在某個機器或者條件下運行所花費的時間。時間復雜度一般指時間復雜性，時間復雜度是一個函數，它定性描述該

發表于 10-02 12:45 ?880次閱讀

算法時空復雜度分析實用指南（上）

本文會篇幅較長，會涵蓋如下幾點： 1、Big O 表示法的幾個基本特點。 2、非遞歸算法中的時間復雜度分析。 3、數據結構 API 的效率衡量方法（攤還分析）。 4、遞歸算法的時間/空間

發表于 04-19 10:34 ?966次閱讀

算法時空復雜度分析實用指南（下）

Big O 表示法的幾個基本特點。 2、非遞歸算法中的時間復雜度分析。 3、數據結構 API 的效率衡量方法（攤還分析）。 4、遞歸算法的時間/空間復雜度的分析方法，

發表于 04-19 10:35 ?835次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

商湯聯合提出基于FPGA的Winograd算法：改善FPGA上的CNN性能降低算法復雜度

評論

基于紋理復雜度的快速幀內預測算法

如何降低LMS算法的計算復雜度，加快程序在DSP上運行的速度，實現DSP?

求一種基于802.16d的低復雜度的幀同步和定時同步聯合算法

各種排序算法的時間空間復雜度、穩定性

LDPC碼低復雜度譯碼算法研究

圖像復雜度對信息隱藏性能影響分析

降低FBMC-OQAM峰均值比的低復雜度PTS算法

基于移動音頻帶寬擴展算法計算復雜度優化

基于I幀復雜度的初始量化參數（QP）選擇算法

虛擬MIMO中低復雜度功率分配算法

如何求遞歸算法的時間復雜度

算法之空間復雜度

常見機器學習算法的計算復雜度

算法時空復雜度分析實用指南（上）

算法時空復雜度分析實用指南（下）

電子發燒友

搜索歷史

商湯聯合提出基于FPGA的Winograd算法：改善FPGA上的CNN性能 降低算法復雜度

評論

電子發燒友

商湯聯合提出基于FPGA的Winograd算法：改善FPGA上的CNN性能降低算法復雜度