Demo 演示:基于展銳T710的雙目視覺算法在GPU平臺上性能提升明顯
算法經過調整不同的參數,窗口winSize大小為21,n_disp為64的時候,性能達到最佳。通常kernel越復雜,寄存器占用的空間就越大,最大工作組的大小就越小,有時候發揮不出來并行流水線的最大數量,從而影響性能。MulticoreWare公司團隊在對kernel代碼優化內部的寄存器使用量,根據GM9446內部結構,設置合理的global全局工作組大小256x圖片高度,local工作大小為256,從而最大程度發揮GPU并行流水線的并發量,一般情況下,第一個維度的工作組大小應該是wave大小的倍數(例如32),這樣可以充分利用wave資源,MulticoreWare團隊根據多年優化經驗,手動調整工作組大小以滿足這個條件來保證性能有所提升。 ?此外內存讀取也是影響kernel運行效率的一方面,在OpenCL中一般有全局global內存,本地local內存,常量Constant和Private四種形式組成,MulticoreWare公司團隊在將stereo算法重新調整內存布局,將主機內存使用零拷貝技術與GPU內存直接填充,另外將內核kernel多次內存訪問的數據,從global內存轉存到local內存中,雖然增加了一次轉存數據的時間,但是對于對此存取數據整體時間是縮減的,從降低IO時間的角度整體提高了kernel內核的運行效率,性能也有所改善。運行10次后進行效率對比,GPU比CPU計算最高提速80倍左右,平均提速50倍左右。
CPU(展銳T710 2.0GHz) CPU(Unisoc T710, 2.0GHz) |
GPU (Imagination GM9446) |
倍數 Multiple |
|
1 |
31.935 ms |
0.76 ms |
41.9 |
2 |
56.17 ms |
0.699 ms |
80.3 |
3 |
54.22 ms |
0.72 ms |
75.3 |
4 |
51.67 ms |
0.77 ms |
67 |
5 |
31.72 ms |
0.74 ms |
42.8 |
6 |
27.12 ms |
0.73 ms |
37.1 |
7 |
33.35 ms |
0.77 ms |
43.3 |
8 |
50.12 ms |
0.75 ms |
66.8 |
9 |
31.29 ms |
0.71 ms |
44 |
10 |
29.73 ms |
0.72 ms |
41.29 |
未來Imagination和MulticoreWare兩家公司將致力于共同促進OpenCL在行業中的廣泛采用,鼓勵OpenCL廣泛應用于異構計算、APU、以及CPU和GPU獨立計算的領域中,實現計算資源利用率最大化、高效率處理數據傳輸。
END
歡迎加入Imagination GPU與人工智能交流2群入群請加小編微信:eetrend89(添加請備注公司名和職稱)
推薦閱讀Imagination與MulticoreWare Inc.攜手展示其GPU的出色性能
Imagination Technologies是一家總部位于英國的公司,致力于研發芯片和軟件知識產權(IP),基于Imagination IP的產品已在全球數十億人的電話、汽車、家庭和工作場所中使用。獲取更多物聯網、智能穿戴、通信、汽車電子、圖形圖像開發等前沿技術信息,歡迎關注 Imagination Tech!
原文標題:Imagination 與 MulticoreWare 合作將 GPU 技術用于全新的雙目視覺方案
文章出處:【微信公眾號:Imagination Tech】歡迎添加關注!文章轉載請注明出處。
-
imagination
+關注
關注
1文章
573瀏覽量
61361
原文標題:Imagination 與 MulticoreWare 合作將 GPU 技術用于全新的雙目視覺方案
文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論