介紹
使用 AMD-Xilinx FPGA設計一個全連接DNN核心現在比較容易(Vitis AI),但是利用這個核心在 DNN 計算中使用它是另一回事。本項目主要是設計AI加速器,利用Xilinx的CDMA加載權重,輸入到PL區的Block Ram。
原理框圖
首先,我們創建了整個系統的示意圖。有兩個 Block RAW 分別用于存儲輸入特征和權重數據。每個Block RAM 都連接到一個 CDMA ,允許 DRAM 訪問 Bram。每個 Block RAM 還連接到由 8 個 FCN 內核和 FSM 組成的主加速器,控制內核的操作。
完整的激活順序如下:
在 DDR 內存中存儲特征和權重。
使用CDMA 將這些數據分別發送到block ram1 和block ram2。
向 FC core 發送 activate 信號,進行 FCN 計算。
將結果存儲在 blcok ram 中。
重復此過程,直到完成第一層前向傳播。
重復整個過程,將輸入鏈接到存儲在Block RAM 中的結果。
碼分多址
為了直接訪問內存,我們使用了 cdma??梢栽赬Iinx 網站上參考 xilinx turoial(https://www.xilinx.com/support/university/vivado/vivado-workshops/Vivado-adv-embedded-design-zynq.html)。
二、添加cdma和bram模塊。Vivado 通過 Run Connection Automation 將 cdma 和 bram 連接到處理器。那么設計應該類似于下圖。
加速器IP
加速器 IP 由 4 個源文件組成。
加速器:連接 AXI4-lite 模塊和 bram_to_fc 模塊。
AXI4-lite :它執行 AXI4-lite 接口將結果值從 PL 傳輸到 PS。并將 fsm 信號傳輸到 bram_to_fc 模塊。
bram_to_fc :它從 bram0、bram1 接收特征圖和權重,并將它們發送到 sumproduct_core。
sumproduct_core :它使用 8 位輸入執行 sumproduct 計算。并返回 32 位輸出。
創建 AXI4 外設來制作 AXI4-lite 模板。接口類型是lite版,制作 10 個寄存器。然后修改模板來制作 AXI4-lite 模塊。
添加以上 4 個 Verilog 文件來生成加速器 IP。
Vivado Block設計
然后我們使用 VIVADO block digram 工具構建整個設計。我們使用具有 64 位數據寬度的雙端口 bram 來最大化系統的效率。
在地址編輯器中,將 axi_bram_ctrl 范圍從 8k 更改為 64k。
測試
在 FPGA 板卡上測試了我們的加速器,將硬件導出到 VITIS,為了測試我們的加速器性能,我們比較了軟件和硬件之間的相同任務運行時間。
HW運行時間:數據發送時間+HW計算時間+數據接收時間
SW runtime : SW計算時間
1. 使用 CDMA 將特征圖和權重從 DDR3 傳輸到 BRAM。
//transferfeauturemapfromDDR3toBram0 XAxiCdma_IntrEnable(&xcdma,XAXICDMA_XR_IRQ_ALL_MASK); Status=XAxiCdma_SimpleTransfer(&xcdma,(u32)source_0,(u32)cdma_memory_destination_0,numofbytes,Example_CallBack,(void*)&xcdma); //transferweightfromDDR3toBram1 XAxiCdma_IntrEnable(&xcdma,XAXICDMA_XR_IRQ_ALL_MASK); Status=XAxiCdma_SimpleTransfer(&xcdma,(u32)source_1,(u32)cdma_memory_destination_1,numofbytes,Example_CallBack,(void*)&xcdma);
2. 發送 FSM 運行信號和要傳輸的輸入數量。
Xil_Out32((XPAR_ACCELERATOR_0_BASEADDR)+(CTRL_REG*4),(u32)(numofbytes|0x80000000));
3. 檢查硬件計算結果。
OT_RSLT_HW[0]=Xil_In64((XPAR_ACCELERATOR_0_BASEADDR)+(RESULT_0_REG*AXI_DATA_BYTE)); OT_RSLT_HW[1]=Xil_In32((XPAR_ACCELERATOR_0_BASEADDR)+(RESULT_1_REG*AXI_DATA_BYTE)); OT_RSLT_HW[2]=Xil_In32((XPAR_ACCELERATOR_0_BASEADDR)+(RESULT_2_REG*AXI_DATA_BYTE)); OT_RSLT_HW[3]=Xil_In32((XPAR_ACCELERATOR_0_BASEADDR)+(RESULT_3_REG*AXI_DATA_BYTE)); OT_RSLT_HW[4]=Xil_In32((XPAR_ACCELERATOR_0_BASEADDR)+(RESULT_4_REG*AXI_DATA_BYTE)); OT_RSLT_HW[5]=Xil_In32((XPAR_ACCELERATOR_0_BASEADDR)+(RESULT_5_REG*AXI_DATA_BYTE)); OT_RSLT_HW[6]=Xil_In32((XPAR_ACCELERATOR_0_BASEADDR)+(RESULT_6_REG*AXI_DATA_BYTE)); OT_RSLT_HW[7]=Xil_In32((XPAR_ACCELERATOR_0_BASEADDR)+(RESULT_7_REG*AXI_DATA_BYTE)); for(ii=0;ii<8;?ii++){ ???????printf("%d? ",?OT_RSLT_HW[ii]); ??????????}
4. 檢查SW計算結果。
可以在下面看到測試結果。
正如在這個結果中看到的那樣,我們加速器的使用時間(11.40+13.44+4.71 us)比在 PS 區域(104.99 us)上要少得多。
代碼
https://github.com/Hyunho-Won/cdma_accelerator
審核編輯:湯梓紅
-
FPGA
+關注
關注
1629文章
21743瀏覽量
603564 -
amd
+關注
關注
25文章
5470瀏覽量
134198 -
加速器
+關注
關注
2文章
799瀏覽量
37885 -
AI
+關注
關注
87文章
30935瀏覽量
269183 -
AXI
+關注
關注
1文章
127瀏覽量
16631
原文標題:使用 AXI CDMA 制作 FPGA AI 加速器通道
文章出處:【微信號:Open_FPGA,微信公眾號:OpenFPGA】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論