賽靈思的研究結果表明,K26 SOM 提供了比英偉達 Jetson Nano 高出大約 3 倍的性能。此外,它的單位功耗性能較之英偉達 Jetson TX2 提升了 2 倍。對于 SSD MobileNet-v1 這樣的網絡,K26 SOM 的低時延、高性能深度學習處理單元 (DPU)提供了比 Nano 高出 4 倍甚至更高的性能。
01
與未來兼容的 Kria K26 SOM
智能應用除了要求亞微秒級的時延,還需要具備私密性、低功耗、安全性和低成本。以 Zynq MPSoC 架構為基礎,Kria K26 SOM 提供了業界一流的單位功耗性能和更低的總體擁有成本,使之成為邊緣設備的理想選擇。
原始計算能力
就在邊緣設備上部署解決方案而言,硬件必須擁有充足的算力,才能處理先進 ML 算法工作負載。我們可以使用各種深度學習處理單元 (DPU) 配置對 Kria K26 SOM 進行配置,還能根據性能要求,將最適用的配置集成到設計內。
支持更低精度的數據類型
深度學習算法正在以極快的速度演進發展,各種更低精度的數據類型和定制數據正在進入使用。傳統的 GPU 廠商已無法滿足當前的市場需求,而 Kria K26 SOM 能夠支持全系列數據類型精度,如 PF32、INT8、二進制和其他定制數據類型。
運算的能耗成本
低時延與低功耗
為了改善軟件可編程能力,GPU 架構需要頻繁訪問外部 DDR。這種做法非常低效,有時候會對高帶寬設計要求構成瓶頸。相反,Zynq MPSoC 架構具有高能效,它的可重配置能
力便于開發者設計的應用減少或不必訪問外部存儲器。這不僅有助于減少應用的總功耗,也通過降低端到端時延改善了響應能力。
典型 GPU 與 Zynq MPSoC 架構
靈活性
與數據流固定的 GPU 不同,賽靈思硬件提供了靈活性用來專門地重新配置數據路徑,從而實現最大吞吐量并降低時延。此外,可編程的數據路徑也降低了對批處理的需求,而批處理是 GPU 的一個重大不足,需要在降低時延或提高吞吐量之間做出權衡取舍。Kria SOM 靈活的架構已在稀疏網絡中展示出巨大潛力。
02
與英偉達 Jetson 性能比較
深度學習模型性能比較
根據測試數據,所有模型在 K26 SOM 上的性能數值均優于英偉達 Jetson Nano。而且對于 SSD Mobilenet-V1 等部分模型,吞吐量則為 Jetson Nano 的四倍以上,為 Jetson Tx2 的兩倍左右,從下表可以很容易地看到顯著的吞吐量提升。
FPS(時延優化)
功耗測量
邊緣設備提供最佳性能這點非常重要,但同時必須降低能耗。賽靈思測量了英偉達和賽靈思 SOM 模塊在執行具體模型時發生的峰值功率,結果很明顯,K26 SOM 優于 Jetson Nano
3.5 倍,優于 Jetson TX2 2.4 倍。
FPS/瓦
實際應用性能比較
為了分析實際用例,我們選擇了一種準確檢測和識別車輛牌照的基于機器學習的應用。將 Uncanny Vision 行業領先的 ANPR 算法部署在 Kria SOM 上后,與英偉達用 Deepstream-SDK 完成的“車牌識別”的公開數據進行比較,結果說明,Uncanny Vision 的 ANPR 流水線在針對 KV260 入門套件進行優化后,實現了超過 33fps 的吞吐量,顯著優于英偉達基準測試中 Jetson Nano 的 8pfs 和 Jetson Tx2 的 23fps。這種前所未有的性能水平為 ANPR 集成商和 OEM 廠商提供了優于競爭對手的開發靈活性。
實際應用測試顯示,K26 SOM 不僅在標準性能比較中表現極其優異,并且在為開發者提供加速整體 AI 和視覺流水線所需的原始性能時,效率也更高。通過對比,在標準的基準測試領域之外,競爭解決方案傾向于提供較低效率水平,而且功耗較高。
文章出處:【微信公眾號:FPGA開發圈】
責任編輯:gt
-
賽靈思
+關注
關注
32文章
1794瀏覽量
131427 -
gpu
+關注
關注
28文章
4767瀏覽量
129204 -
英偉達
+關注
關注
22文章
3839瀏覽量
91663
原文標題:白皮書 | Kria K26:邊緣端視覺 AI 理想平臺
文章出處:【微信號:FPGA-EETrend,微信公眾號:FPGA開發圈】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論