賽靈思 INT8 優化為使用深度學習推斷和傳統計算機視覺功能的嵌入式視覺應用提供最優異的性能和能效最出色的計算方法。與其他 FPGA DSP 架構相比,賽靈思的集成 DSP 架構在 INT8 深度學習運算上能實現 1.75 倍的解決方案級性能。
本白皮書探討將 INT8 運算用于實現在賽靈思 DSP48E2 片上、使用深度學習推斷和計算機視覺功能的嵌入式視覺應用,以及這種方案與其他 FPGA 的對比。與占用相同資源數量的其他 FPGA 相比,賽靈思的 DSP 架構對 INT8 乘法累加(MACC) 運算能實現 1.75 倍的峰值解決方案級性能。由于嵌入式視覺應用可以在不犧牲準確性的情況下使用較低位精度,因此需要高效的 INT8 實現方案。
賽靈思的 DSP 架構和庫針對 INT8 運算進行了精心優化。本白皮書介紹如何使用賽靈思 16nm 和 20nm All Programmable 器件中的 DSP48E2 Slice,在共享相同內核權重的同時處理兩個并行的 INT8 MACC 運算。本白皮書還闡述了要運用賽靈思這一獨特技術,為何輸入的最小位寬為 24 位。此外本白皮書還詳細介紹了如何以 SIMD 模式使用 DSP48E2 Slice,供基本算術運算使用。另外還提供在深度學習領域或其他計算機視覺處理任務領域如何將這些功能用于嵌入式視覺的實例。
全書目錄
用于深度學習和計算機視覺的 INT8
賽靈思 DSP Slice 片上的 INT8 運算
可擴展的 INT8 優化
DSP48E2 SIMD 模式
映射 INT8 優化到深度學習應用
創建 INT8 鏈接 MACC 的其他方法
映射 INT8 優化到計算機視覺功能
使用可擴展 INT8 優化的定制 2D 卷積
使用 SIMD 運算的中值濾波器
競爭分析
在競爭分析中使用英特爾的 Arria 10 器件與賽靈思的 Zynq UltraScale+ MPSoC 對比。在進行嵌入式視覺應用計算效率比較時,選擇的器件有可比的 DSP 密度和器件功耗:
? Arria 10 SoC :SX220、SX270 和 SX480
? Zynq UltraScale+ MPSoC :ZU3、ZU7 和 ZU9 器件
重點比較能用于包括深度學習和計算機視覺在內的眾多應用的通用 MACC 性能。
-
嵌入式視覺
+關注
關注
8文章
117瀏覽量
59151 -
算術運算
+關注
關注
0文章
6瀏覽量
5703
發布評論請先 登錄
相關推薦
評論