本文由前向啟創&CTO張暉介紹了前向啟創在TI TDA芯片上,使用深度學習方法,解決智能駕駛感知問題的一些經驗。
深度學習以其強大的特征表示能力,已經在許多應用領域中體現出了不俗的性能。而針對智能駕駛應用,深度學習應該如何落地呢?
前向啟創&CTO張暉認為,主要存在有兩大技術挑戰:一是主芯片的選型,二則是針對特定芯片的深度學習算法的設計與實現。
前向啟創&CTO張暉,2004年畢業于華中科技大學,獲雙學士學位;2004-2005年就職于美國安凱微電子,任算法工程師;005-2013年就職于美國ZORAN(CSR/Qualcomm)公司,任算法研發經理;近15年算法芯片化與產品化經驗;在ACCV、ICPR等國際會議上發表學術論文多篇;擁有多項中美發明專利。
TI智能駕駛ASIC
針對智能駕駛產品主處理器芯片進行選型,應該將汽車智能駕駛產品的主要訴求——高可靠性與低成本,作為主要參考依據。
從業界角度來看,智能駕駛主芯片可分兩大流派,一派為ASIC,將特定的算法計算引擎芯片化,代表企業有如TI、Mobileye、nVidia、Ambarella等;另一派則為FPGA,代表企業有如Xilinx,Altera等。
而ASIC以其定制性,在成本、功耗、算力、彈性、車規、功能安全等級以及量產周期上達到了更好的平衡。
TI(Texas Instuments)自2010年起開始提供針對智能駕駛的ASIC芯片TDA(TIDriverAssist)系列,至今已經迭代到了第四代。
經過多年的演進,TI已經將多項針對智能駕駛的算法逐步芯片化、引擎化,其功能安全等級,也達到了ASIL-C級。
TI的ASIC芯片TDA(TIDriverAssist)系列
TI的智能駕駛芯片以其優異的性價比,已被全球超過15家Tier1、25家OEM主機廠所采用,成功在近100款車型中量產,已累積出貨近4千萬片。目前前向啟創也采用TI ASIC芯片。
深度網絡設計
網絡模型設計是深度學習應用的關鍵,如何設計一個能滿足產品化要求的智能駕駛感知網絡呢?
張暉認為,主要存在著兩大關鍵點,第一需要貼近任務和系統需求,即必須針對智能駕駛系統應用對感知層的需求來進行網絡設計,切不可為了使用深度學習而選擇深度神經網絡;
第二需要考慮到芯片嵌入式平臺算力受限系統,必須因芯設計,切不可盲目的進行網絡堆砌,導致運算量過大,而造成無法部署到芯片上的問題。
從智能駕駛的任務來看,Level2–Level3系統對感知提出了更高的要求,例如AEB-Cross需要檢測車輛側面狀態,TJA(TrafficJamAssistance)更需要識別出可通行區域,即FreeSpace,等等。
針對車輛側面檢測,前向啟創重新設計了一套FINet網絡,將傳統的2D-BoundingBox擴展到了3D-BoundingBox,可以對車輛的多個表面進行檢測。
前向啟創針對車輛側面檢測設計的FINet網絡
而針對FreeSpace任務,前向啟創重新設計了的FINet可將此任務分解為,對Flat平坦可通行區域;Step路沿臺階;以及Obstacle障礙物三大類目標進行分割。
前向啟創針對FreeSpace任務,FINet分解為三大類目標
深度網絡優化
常見的深度學習網絡都對主芯片的算力提出了比較高的要求。
常見網絡在對720P@30fps圖像進行推理時,對算力的要求
由上圖可看出,大部分網絡對算力的要求超過了1Tops,而類似TITDA2x這類低功耗芯片目前達不到1Tops算力要求。所以在網絡基礎模型設計好后,為了大幅降低模型的GMACS以適應算力受限的芯片平臺,就需要針對芯片進行網絡的細調整(FineTuning)及優化。
針對TIASIC的芯片架構,前向啟創主要采用了兩大方法進行網絡優化,第一卷積稀疏化,第二8-BIT量化技術。
第一,卷積稀疏化方法是通過調整損失函數,對權重小于動態閾值的卷積核中的系數進行歸零處理,再將此稀疏度的張量重新進行調優訓練,對已歸零處理后的系數不再進行反向傳播更新,最后以達到在保證稀疏度的情況下,訓練精度沒有明顯的下降。
兩種不同稀疏度的目標函數下,通過調優訓練出來的濾波器的核
第二,動態8-BIT量化技術,動態指的是在8-BIT的最大位寬的前提下,盡量高地提高張量的量化精度,即有符號與否,定標值是多少,都隨張量的范圍而進行動態調整。
在完成以上兩步優化后,前向啟創的FINet網絡在精度下降不到1%的情況下,整體提速了近10倍。
芯片級部署與實現
針對智能駕駛應用,TI的TDA系列芯片采用了多核異構的芯片架構來達到算力與功耗平衡,而其中的子處理器是可配置的,如DSP和EVE等子處理器單元數可以選擇,以求針對系統要求,達到更合適的性價比。
整體芯片架構如圖所示
多核異構架構的最大優點就是能夠將不同類型的計算或控制任務異核化,TITDA系列芯片的設計初衷中,視覺感知的中低層計算任務主要被集中到了DSP和EVE這兩類子處理器上:
TITDA系列芯片的設計
EVE作為TI針對智能駕駛應用而專門設計的向量硬件加速器,在同等功耗下,相比于現有其它智能駕駛芯片,每個EVE核能夠達到8倍的計算性能的提升。
每個EVE核能夠達到8倍的計算性能的提升
針對深度神經網絡中最耗時的卷積運算部分,在部署階段,前向啟創主要使用了其中的EVE核來進行計算,利用EVE中的SIMD特性,可以將FINet中的卷積運算部分提速8倍左右。
完成在TI芯片上的部署后,前向啟創FINet網絡整體上能夠達到實時感知的系統性能要求。
在TITDA這類成熟的ASIC上,通過網絡設計、網絡優化以及芯片部署這三大步,就能基本實現深度神經網絡的初步框架。
在后續的產品化過程中,還需根據實際的系統需求,對這三步進行閉環式的迭代,以求達到系統性能與算力的最佳平衡。
-
神經網絡
+關注
關注
42文章
4779瀏覽量
101063 -
智能駕駛
+關注
關注
3文章
2588瀏覽量
48870 -
深度學習
+關注
關注
73文章
5512瀏覽量
121431
原文標題:智能駕駛感知產品化:基于TI ASIC深度神經網絡的設計與實現 | GGAI經驗談
文章出處:【微信號:ilove-ev,微信公眾號:高工智能汽車】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論