智能駕駛產業鏈由感知層、決策層、執行層組成。感知層的車載感知系統主要包括攝像頭、超聲波雷達、激光雷達、毫米波雷達等;路側輔助系統主要包括高精地圖、衛星定位、慣性導航和V2X技術等。決策層主要包括ADAS算法、車載芯片、車載存儲器、高精地圖、云平臺。執行層主要包括電子驅動、電子轉向、電子制動、燈光。平臺層主要包括大數據、智能駕駛解決方案、傳統車聯網、智能座艙。終端組成主要包括車載OBU、路測單元RSU、手機APP、邊緣計算。
隨著智能駕駛行業的發展,智能駕駛功能日益復雜,主流智駕輔助功能滲透率穩步提升,車道保持輔助、緊急制動輔助、自適應巡航、盲區監測、車道居中輔助、并線輔助、自動變道輔助、自動泊車入位、記憶泊車等功能逐漸落地。智能駕駛系統對傳感器、算力需求日益旺盛。智能駕駛系統既需要大量的算力,也需要多種類型的計算資源,典型的智能駕駛系統處理流程如下。
智能駕駛系統是一種能夠自主感知、決策和執行行駛任務的車輛控制系統。智能駕駛的等級劃分通常基于國際標準化組織(ISO)的標準,分為L0到L5六個等級。這些等級反映了自動駕駛系統的成熟度和自動化程度。以下是每個等級的具體描述:
L0:無自動化。駕駛員全權負責駕駛過程,沒有任何自動化功能介入。這是傳統駕駛方式,不涉及自動駕駛技術。
L1:輔助駕駛功能。車輛提供部分自動化功能,如自適應巡航控制、自動泊車等,但駕駛員仍需承擔主要的駕駛任務和責任。自適應巡航控制是一種智能化的巡航系統,能夠根據前方路況自動調整車速和車輛行駛姿態,減輕駕駛員的駕駛壓力。而自動泊車則是一種自動停車輔助系統,能夠在車輛找到合適的停車位后自動完成停車過程,無需駕駛員操作方向盤、油門和剎車等。此外,車道保持功能也是L1級別自動駕駛的一個重要組成部分,它可以通過攝像頭和傳感器識別道路邊界,自動調整車輛行駛軌跡以保持車輛在車道內穩定行駛。這些功能能夠輔助駕駛員完成部分駕駛任務,提高駕駛的便利性和安全性。
L2:部分自動化。車輛可以在特定條件下自主完成某些駕駛任務,主要包括自適應巡航、自動泊車、車道保持、變道輔助和自動變道功能等,這些功能能夠在一定程度上減輕駕駛員的駕駛壓力,提高駕駛的便利性和安全性,駕駛員仍需監控駕駛環境并準備接管。其中,自適應巡航和自動泊車功能在L1級別自動駕駛中已經出現,而在L2級別中得到了進一步的提升和完善。此外,車道保持功能在L2級別自動駕駛中也更加智能化和成熟,能夠自動識別道路邊界并調整車輛行駛軌跡,保持車輛在車道內穩定行駛。變道輔助和自動變道功能則能夠幫助駕駛員在合適時機自動完成變道操作,提升行車安全。
L3:條件自動化。在特定環境下,車輛可以在大部分時間內自主駕駛,駕駛員不必始終保持注意力,但需要在系統請求時及時接管。這個級別的自動駕駛可以在特定情況下完成車輛周邊環境的識別和駕駛,并根據收集到的數據進行自主決策和執行相應的操作。除了常規的功能外,還包含了更多復雜場景的自動泊車功能、高速路況的自動駕駛以及記憶式導航等更為高級的自動駕駛功能。具體來說,它能在特定的場景下實現車輛的自動識別車道、自適應巡航、自動變道等功能,甚至在高速公路上自動完成超車動作。此外,還可以根據導航信息自主規劃出行路線,并在特定情況下完成自主超車等動作。
L4:高度自動化。車輛可以在各種環境和條件下自主駕駛,駕駛員在大多數時間可以不必參與駕駛,系統可以在特定情況下自主處理復雜路況。在某些情況下,駕駛員可能不需要任何操作。智能駕駛功能主要有自適應巡航、自動泊車、交通擁堵輔助、車道偏離預警和車輛主動避障等功能。當車輛處于復雜環境或不確定情況時,它能自動識別車道并處理緊急事件,如自動變道、自動避讓等。此外,它還可以根據導航信息自主規劃出行路線,并在特定情況下自主完成駕駛任務,如自動駛入高速公路等場景。總的來說,L4級別的自動駕駛系統已經具備了高度的智能化和自主決策能力。
L5:完全自動化。這是最高級別的自動駕駛,車輛可以在任何環境和條件下完全自主駕駛,駕駛員在車內或車外都可以完全脫離駕駛任務。車輛可以像機器人一樣自主行駛和操作。完全自主駕駛:L5級別自動駕駛系統能夠在各種道路和環境中完全自主駕駛,無需任何人工干預。自主規劃路線:系統可以根據導航目標自主規劃最優路線,并自動選擇道路、調整速度、避讓障礙物等。智能感知和決策:通過高清地圖、激光雷達、攝像頭等多種傳感器,系統能夠全面感知周圍環境,并實現自主決策和判斷。復雜場景處理:系統能夠處理復雜場景下的駕駛任務,包括高速公路、市區道路、雨雪天氣等環境,并具備應對突發情況的能力。安全保障功能:系統具備多種安全保障措施,如自動剎車、避障、車道保持等,確保乘客和行人的安全。目前許多公司和研究機構都在朝著這個目標努力研發相關技術。需要注意的是,盡管技術發展迅速,但達到L5級別的自動駕駛仍需要解決許多技術和法規方面的問題。
整個智能駕駛系統處理過程通常需要涉及以下幾種類型的計算資源:
- 深度學習類:環境感知模塊是深度學習算力使用的大戶,包括常見的各類圖像、激光點云檢測算法,比如物體檢測、車道線檢測、紅綠燈識別等,都會涉及大量的典型神經網絡(NN)的運算。此類模塊通常使用高度定制化的NN加速器來實現。
- 視覺處理類:此類屬于計算密集型,但并非深度學習類的算法模塊,比如圖像信號處理(ISP)、圖像金字塔(Pyramid)、畸變矯正(Rectify)、局部特征提取、光流跟蹤、圖像編解碼(Codec)等運算。此類模塊通常使用硬化的專用視覺加速器來實現低時延。
- 通用計算類:雖然定制化的深度學習、視覺處理加速器可以滿足大部分常見的成熟的計算密集型運算,但仍然無法覆蓋全部需求。隨著前沿技術的快速發展和自研技術的深入,往往還會產生相當一部分自定義的運算模塊。此類模塊通常也是計算密集型的操作,無法使用CPU高效實現,因此還需要通用的計算密集型處理單元(比如DSP、GPU)來實現。
- 邏輯運算類:此類模塊包含大量的邏輯運算,不適合使用計算密集型的處理器實現,一般使用通用的CPU處理器來實現。此類模塊包括常見的多傳感器感知融合算法(比如卡爾曼濾波KF)、基于優化的決策規劃算法、車輛控制算法、系統層面的功能邏輯、診斷邏輯、影子模式數據挖掘功能等。
典型的智能駕駛系統算力部署參考如下圖。
智能駕駛系統設計之初就得考慮芯片選型,如何在眾多的SoC芯片選型是一門復雜的系統工程,不單需要考慮深度學習算力,還需要考慮CPU算力、安全、內存帶寬、功耗、成本等。大疆車載在智能駕駛核心芯片的選型上積攢了一些經驗,在此予以分享。 一顆典型SoC的主要組成:
1、CPUCPU的內部架構可以簡化為如下模型。
CPU內有負責取指/分支預測/數據轉發等的Control、邏輯運算的ALU、高速緩存Cache和DRAM等存儲單元。相對GPU等并行運算核心,CPU的Control單元和存儲單元功能更加強大,適合做邏輯控制。
在車載SoC中,根據功能不同CPU又分為Safety MCU和ACPU,前者性能較弱但實時性和安全性更強,后者多核心、高主頻、性能強大但實時性和安全性有所降低。
1.1、Safety MCUSafety MCU有多種常見的CPU架構,如英飛凌的TriCore、瑞薩的G3KH、ARM Cortex M7、ARM Cortex R5F。既有外置安全的MCU方案,也有內置安全的MCU方案,如德州儀器TDA4內置Cortex R5F,SoC一般會內置Safety MCU來提高系統的集成度。
例如,Cortex R5F MCU核心的內部架構復雜程度參考下圖,主要特點如下:
- 8級流水線;
- CPU主頻可以支持到1.0 Ghz,遠超傳統MCU;
- Data Processing Unit負責各種運算和邏輯控制;
- FPU負責浮點運算;
- L1 Instruction/Data Cache是一級緩存,參考容量16KB+16KB;
- Memory Protection Unit用于內存保護,保護能力有限,一般只能支持十幾個區域的保護;
引自《DDI0460D_cortex_r5_r1p2_trm.pdf》
在Safety MCU(安全微控制器)的設計中,一個關鍵的特性是采用了所謂的鎖步核架構,這一架構通過成對出現的核心——通常被稱為“Primary Core”和“Shadow Core”——來實現高可靠性的操作。這種設計通過一種獨特的方式確保了MCU在復雜環境中的穩定性和安全性。鎖步核技術的核心在于,兩個核心在指令級別上實現了完全同步的操作,即它們在同一時刻執行相同的指令,并產生相同的結果。為了確保兩者的一致性,系統配備了一個“Compare”機制,該機制會周期性地比較兩個核心的輸出結果。如果比較結果顯示兩者結果相同,則MCU繼續正常運行;若結果不同,則表明系統中可能出現了錯誤或故障,此時需要采取適當的安全措施,如關閉系統或進行故障隔離。雖然鎖步核架構使用了兩個核心,但從計算能力的角度來看,它實際上只相當于一個核心的性能。這是因為兩個核心必須保持同步,并且在任何時刻都執行相同的指令。然而,這種設計上的限制換來了更高的可靠性和安全性。鎖步核技術是實現MCU核心高診斷覆蓋度的一種傳統而有效的方法。通過在Primary Core和Shadow Core之間進行比較,系統能夠在第一時間檢測到潛在的錯誤或故障,從而避免它們對系統穩定性和安全性造成威脅。經過多年的實踐驗證,這種方法已經在微控制器和復雜度較低的微處理器領域展現出了其卓越的性能和可靠性。
Safety MCU除要求CPU核心達到ASIL D外,往往會要求內部總線、外設接口、電源等跟Main Domain隔離。否則,可能因為低安全級別的Main Domain的異常,如錯誤操作外設寄存器,導致MCU Domain異常。
Safety MCU的算力一般使用KDMIPS(Kilo Dhrystone Million Instructions executed Per Second)表示,如Cortex R5F的算力約2 KDMIPS。
因為MCU運算和內存資源比較有限,且不支持MMU(Memory Management Unit,比MPU強大的內存管理單元),一般只能運行如FreeRTOS之類的小型RTOS。車載行業一般要求RTOS達到ASIL D級別,常用的MCU RTOS主要有AUTOSAR OS, SafeRTOS。一般沒有配套的libc和STL庫,對C++的支持不夠友好,比較難開發維護復雜軟件。因為Safety MCU的軟硬件的安全性和實時性都較高,一般用于運行整車的數據交互、診斷、控制算法等軟件。
綜上,我們在進行Safety MCU選型時,除了關注Safety MCU的算力,還需要重點關注總線、外設等的隔離性,另外也需要關注片內RAM的大小,全球汽車MCU原廠有恩智浦、德州儀器、意法半導體、微芯、英飛凌、瑞薩、芯力能、英特爾/Mobileye、高通、英偉達、安霸、ARM、特斯拉、比亞迪半導體、杰發、芯馳、芯旺、芯擎、芯鈦、黑芝麻智能、昆侖芯、后摩智能、西井科技、奕行智能、寒武紀行歌、海思、地平線、愛芯元智、元視芯、兆易創新、中穎、中微半導、芯海、國芯科技、杰發科技、肇觀電子、美仁、輝芒微、比亞迪半導體、智芯科技、旗芯微、航順、賽騰微、琪埔微、小華半導體、云途半導體、曦華科技、復旦微電、國民技術、極海、先楫半導體、紫光國微、蜂馳高芯、靈動微、東軟載波、希格瑪微電子、匯春科技、華芯微電子、愛思科微電子、凌歐創芯、峰岹科技、泰矽微、旋智科技、芯弦半導體、盛騏微、君正、士蘭微、晟矽微電、耐能、芯科集成、澎湃微、恒爍、鉅泉、奕斯偉、凌思微、全志、華大北斗、瑞芯微等。
1.2、ACPU常用的ACPU的架構有MIPS和ARM,但以ARM的Cortex A系列為主。相比較MCU,ACPU的架構更復雜、主頻更高、Cache和RAM性能更優,整體性能更強。
例如,Cortex A72 ACPU核心的內部架構復雜程度參考下圖,比Safety MCU要復雜許多,相同主頻下算力約為Cortex R5F的3倍,主要升級如下:
- 15級流水線:- Branch prediction可以提升分支預測的成功率;- Decode可以支持多條指令并行解碼;- Dispatch可以支持同時發射多條指令;- Interger execute / Adv SIMD and FP / Load store等多個執行單元可以并行工作;
- 可以支持更高的CPU主頻,如2.0 GHz;
- Instruction / Data Cache是一級緩存,參考容量48KB+32KB;
- 二級緩存一般較大,參考容量1MB,可極大降低指令和數據Cache Miss的概率,減少對DDR的訪問;
- 支持MMU,可實現內核態和用戶態之間、不同進程之間的地址隔離,提高內存訪問的安全性;
引自《cortex_a72_mpcore_trm_100095_0003_06_en.pdf》
對L2+系統,除要求ACPU核心達到ASIL B外,常用外設一般也要求達到ASIL B,如IPC/DMA/CSI,具體硬件安全級別要求依賴功能安全分解。
ACPU的算力一般使用KDMIPS表示,如Cortex A72的算力約11 KDMIPS。ACPU的算力取決于使用的CPU核心的架構和CPU的主頻,一般架構越新支持的主頻越高,常用CPU核心算力信息參考如下。
以AE結尾的ACPU Core可以支持鎖步,實現ASIL D功能安全級別,如Cortex-A65AE。未來L3~L4系統會對ASIL D ACPU算力有越來越多的需求。
ACPU不僅主頻高,資源充足,還具備運行大型操作系統如Linux的能力,為智能駕駛系統提供了強大的計算平臺。在L2+級別的智能駕駛系統中,功能安全要求往往對操作系統提出了ASIL B級別的嚴格標準。在這種情況下,QNX或VxWorks等操作系統成為了首選。這些操作系統不僅支持多進程并發執行,而且每個進程都擁有獨立的地址空間,實現了進程間的有效隔離。這種設計確保了系統的穩定性和安全性,即使某個進程崩潰,也不會影響到其他進程的正常運行。同時,這些操作系統還支持智能駕駛系統中成百上千個線程的復雜調度。通過高效的線程管理機制,系統能夠充分利用ACPU的多核性能,實現快速響應和高效處理。這對于實現智能駕駛系統的各種復雜功能,如傳感器數據的預處理、加速器的調度、感知融合、導航規劃等至關重要。
ACPU在智能駕駛系統中的應用不僅限于軟件模塊的部署。隨著NN(神經網絡)算力的增加,ACPU需要處理更多的傳感器數據、更高分辨率的相機圖像以及更復雜的場景和功能。為了滿足這些需求,ACPU的算力也在不斷提升。現在,ACPU能夠支持更多高分辨率傳感器數據的預處理、深度學習模型的前后處理、更復雜的感知融合功能以及軌跡預測和行為規劃等任務。這些功能的實現都離不開ACPU強大的計算能力和高效的處理速度。此外,ACPU還配套了功能安全認證的libc和STL庫等開發工具,為上層軟件的開發提供了極大的便利。這些工具不僅提高了開發效率,還確保了軟件的安全性和可靠性。
綜上,ACPU的選型需要重點關注算力,同時需要留意外設和操作系統的功能安全級別。此外,ACPU算力應該和NN算力相匹配,以發揮最優的系統性能。
2、并行計算2.1、DSPDSP芯片,也稱為數字信號處理器,是一種具有特殊結構的微處理器,相比于通用CPU,更適用于計算密集度高的處理。
在DSP芯片內部,通常采用程序和數據分開的哈弗結構,廣泛采用流水線操作,同時具有專門的硬件乘法器,提供特殊的DSP指令,可以用來快速的實現各種數字信號處理算法。
DSP芯片一般具有如下的主要特點:
- 程序和數據空間分開,可以同時訪問指令和數據;
- 片內具有快速RAM,通常可通過獨立的數據總線進行連接;
- 有專門的硬件乘法器,在一個指令周期內可完成一次乘法和一次加法;
- 具有低開銷或無開銷的循環及跳轉的硬件支持;
- 在單時鐘周期內可以操作多個硬件地址發生器;
- 具有快速中斷處理和硬件I/O支持;
- 支持流水線操作,使不同指令之間的取指、譯碼和執行等操作可以并行執行;
與通用微處理器相比,DSP芯片的其他通用功能相對較弱一些。DSP結構示圖如下。
通過獨立的指令總線和數據總線與外部數據存儲進行連接,外圍通常會配置L1和L2 cache,提高數據存取效率。
內部主要分為程序控制單元(PCU)、地址發生單元(AGU)和數據計算單元(DALU),外加一些地址寄存器和數據寄存器。每個處理單元都是獨立的硬件模塊,通過指令流水將各個模塊并行起來處理,提高DSP的處理能力。
在DSP評估過程中,運算速度是DSP芯片的一個最重要的性能指標,通常有如下幾個方面的考量:
- 數據位寬長度;
- 單周期內的乘累加個數;
- 寄存器個數;
- 單周期內同時可處理的指令個數;
- 內聯指令豐富程度;
- 外圍SRAM大小;
隨著DSP在圖像、音頻和機器學習領域的應用,芯片廠商對DSP也同樣做了新場景的適配和支持,如TI的C71 DSP,除了支持常見的標量運算和矢量運算,還增加的矩陣乘加速器(MMA),進一步的提升了DSP的專用能力,讓開發者更容易進行NN模型部署。
業內知名的DSP芯片廠要包括德州儀器、亞德諾等。也有多家國產DSP芯片進軍汽車市場,包括進芯電子、中科昊芯等。其中進芯電子已經推出了32位浮點DSP芯片AVP32F335系列產品,中科昊芯即將推出HXS320F280039C、HXS320F28379D等32位浮點RISC-V DSP芯片產品。
2.2、GPUCPU的功能模塊多,適合復雜的運算場景,大部分晶體管用在控制電路和存儲上,少部分用來完成運算工作。GPU的控制相對簡單,且不需要很大的Cache,大部分晶體管被用于運算,GPU的計算速度因此大增,擁有強大的浮點運算能力。
CPU與GPU架構對比示意圖當前的多核CPU一般由4或6個核組成,以此模擬出8個或12個處理進程來運算。普通的GPU就包含了幾百個核,高端的有上萬個核,這對于處理大量的重復處理過程有著天生的優勢,同時更重要的是,它可以用來做大規模并行數據處理。
在應用方面,GPU適合前后計算步驟無依賴性、相互獨立的計算場景,很多涉及到大量計算的問題基本都有這種特性,比如圖形學的計算、挖礦和破解密碼等,這些計算可以分解為多個相同的小任務,每個小任務由GPU中的單個核處理,GPU通過眾核并發的方式提高同時處理小任務的個數,從而提高計算速度。而CPU更適合前后計算步驟嚴密關聯,邏輯依賴較高的計算場景。
GPU相比CPU有幾個特點:
- 運算資源非常豐富;
- 控制部件占得面積非常小;
- 內存帶寬大;
- 內存延時高,對比CPU使用多級緩存緩解延時,GPU采用多線程的方式處理;
- GPU處理需要數據高度對齊;
- 寄存器資源極為豐富;
實際CPU與GPU最大的區別是帶寬,CPU像法拉利,跑的很快,但要是拉貨,就不如重卡。GPU像重卡,跑的不快,但一次拉貨多。有些貨可以全部打包裝車運輸,如這些貨都來自一個地方,大小相同,需要運輸到一個地方,這就是計算密集型任務。有些貨不行,比如這些貨要去不同地方,體積大小不一,不能多個打包,只能多次運輸,這就是控制密集型任務。CPU在緩存、分支預測、亂序執行方面花了很多精力,用大量寄存器實現這些功能,保證了高速度,頻率一般都遠高于GPU,每次速度很快,但大量寄存器占用大量空間,考慮到成本以及半導體的基本定律(單顆die面積不超過800平方毫米,否則良率會急速下降),CPU的核心數非常有限,每次能帶的貨很少。GPU相反,不考慮分支預測與亂序執行,用最快的寄存器代替緩存,結構簡單,晶體管數量少,可以輕易做到幾千核心,每次能帶的貨很多,但速度不快。所以,相對來說,GPU更適合處理分支少,數據量大,計算簡單且重復的運算任務。
2.3、深度學習能力廣義上來說,只要能夠運行人工智能算法的芯片都叫做深度學習芯片。但是通常意義上的深度學習芯片,指的是針對深度學習算法做了特殊加速設計的芯片。
通常來說,深度學習芯片普遍以OPS(Operations Per Second)為單位來評估深度學習的理論峰值算力。OPS的物理計算單位是乘積累加運算(Multiply Accumulate, MAC),是在微處理器中的特殊運算。1 * MAC = 2 * OPS。實現此運算操作的硬件電路單元,被稱為“乘累加器”。這種運算的操作,是將乘法的乘積結果b*c和累加器a的值相加,再存入累加器a的操作:a ← a + b*c
深度學習算力理論值取決于運算精度、MAC的數量和運行頻率。對于定點和浮點計算單元共用核心的加速器,可大致簡化為INT8精度下的MAC數量在FP16精度下等于減少了一半,FP32再減少一半,依次類推。例如,假設芯片內有512個MAC運算單元,運行頻率為1GHz,則INT8的算力為512 * 2 * 1GHz = 1TOPS(Tera Operations Per Second),FP16的算力為0.5TOPS,FP32的算力為0.25TOPS。
通常,各大芯片廠商宣傳的TOPS往往都是運算單元的理論值,而非整個硬件系統的真實值。實際運行起來,真正的有效算力可能只有理論值的30%算力,甚至更低。這里就涉及到“算力利用率”的概念。比如說,某個神經網絡模型需要的理論算力是1TOPS,而實際運行的SoC的標稱算力是4TOPS,那么利用率只有25%。以下是特斯拉、Mobileye、英偉達、華為、地平線芯片的算力對比表。
以ResNet-50及MobileNet V1網絡在SoC A和SoC B上的運行數據為例,實際的有效算力會因為圖片分辨率、網絡結構差異等原因而不同。
這又是什么原因呢?通常來說,實際的有效算力主要受兩方面的影響:1)處理器的計算架構:從上表可以看到,即使是同一款SoC,對不同網絡結構的利用率差異也非常大。這是因為深度學習加速器本身是高度定制化的計算架構,只有執行和加速器特性比較匹配的網絡結構才能發揮出較高的利用率。
2)存儲帶寬:存儲帶寬決定數據搬運的速度。如果存儲帶寬跟不上計算速度,則數據無法及時到達計算單元,導致處理器的計算單元空置,從而導致處理器的算力利用率大打折扣。智能駕駛應用的處理場景通常具有圖像分辨率大、并行樣本量(batch size)小、網絡結構小的特點,這對于存儲帶寬的要求通常會更高。
同汽車的動力指標,馬力不如百公里加速時間更真實反映整車動力性能;同理,有效算力比理論算力更能反映芯片實際性能。所以,在SoC選型時需要重點關注SoC全系統能夠提供的有效算力。
2.4、算力多樣化需求在深度學習推理端,各家芯片往往都會根據自家的神經網絡推理框架設計對應的NN處理器,各種TPU/NPU/DPU…層出不窮,芯片廠家根據神經網絡特點,通過定制化的設計處理器,使得軟硬件的適配度更高,從而提高芯片算力的利用率。
市場上,除了NN處理器,像高通/德州儀器等公司的車載芯片,在SoC上配備了GPU/DSP/CV加速器等通用算力處理器來提高車載芯片的處理能力和算法開發的擴展性。
在智能駕駛系統中,大部分的計算可以通過深度學習處理器來完成。但是,對于一些算法開發能力較強的公司來說,會根據實際的業務場景需求,來設計自己的神經網絡結構,芯片廠商提供的NN處理器的算子庫無法滿足他們的需求,往往存在一些自定義算子的開發。另外,ISP、多傳感器融合、定位與建圖等功能還會涉及一些非深度學習的視覺算法的實現。此時,車載芯片上的GPU/DSP/CV加速器將可以很好的補充這部分算力需求。
DSP能夠提供低功耗的矢量處理能力,相比于CPU,可以使用DSP的SIMD指令很好的應對并行度高,數據連續性較好的算法。對于并行度高,但是數據連續性較差的算法,如果部署在DSP上,將對IO帶寬帶來很大的挑戰,無法充分發揮DSP的計算能力,但是GPU的高并發特點,可以很好的應對這種算法。同時,GPU的圖像處理能力能夠滿足智能駕駛場景中渲染和可視化的需求。
綜上,SoC選型時,需要根據業務需求,合理規劃和分配算力,實現SoC各個模塊協調高效合作,而非只關注深度學習算力。
3、安全3.1、網絡安全(Cybersecurity)隨著UNECE WP29 R155法規、ISO/SAE 21434標準的發布,國內也緊跟著發布了一系列車載網絡安全相關的國標、法規,包括網絡安全技術相關的、流程相關的、數據保護相關的等等,這一切表明網絡安全在智能網聯汽車行業的重視程度在逐日提升。
網絡安全機制的實現講究縱深防御,上層包括面向服務的應用防火墻、對服務訪問的鑒權和授權等,中間層包括操作系統的進程訪問權限管理、文件系統加密、以太網防火墻、安全通信、調試接口管控、安全審計等,底層包括安全啟動、安全升級、安全存儲、密鑰管理等基礎功能。在芯片選型時,關于網絡安全往往會考慮如下方面:
- 芯片的封裝。盡量選擇BGA封裝的芯片。
- 芯片防信道攻擊的能力。目前很多側信道攻擊的手段可以很輕易獲取到芯片運行時的關鍵資產,例如密鑰。
- 芯片的調試接口。例如JTAG,可通過某種硬件機制永久關閉,或者可通過軟件安全機制控制芯片調試接口的開關。
- 芯片的安全啟動。安全啟動一般起始于芯片的BootRom,通過校驗固件的簽名,來防止固件被惡意篡改,確保了固件的完整性。
- 芯片的安全運行環境。該運行環境主要用于管理芯片運行時的關鍵資產,例如芯片的安全配置、密鑰等,并通過硬件來實現安全算法加速服務。
- 芯片的內存保護單元。例如MMU或MPU,該單元一般集成在處理器中,由運行在處理器上的操作系統進行配置,實現運行態的內核/進程/線程的地址虛擬化和數據隔離。
- 芯片唯一SN。一般會用于綁定、認證等安全業務。
除了以上技術要求之外,在芯片選型時,也需要考慮供應商網絡安全資質的要求,例如是否有CSMS管理體系。
3.2、功能安全(FuSa)眾所周知 “智能駕駛、安全第一”。SoC作為智能駕駛控制器的核心,其安全性能是確保最終交付安全產品的關鍵。因此在SoC芯片的設計選型中,必須把功能安全作為核心指標進行評估:
- SoC芯片支持的功能安全完整性等級(ASIL)是否滿足最終產品的安全等級需求;
- SoC芯片的安全設計是否匹配當前的產品的功能安全概念;
- SoC芯片是否全面考慮支持不同駕駛自動化等級產品應用;
為了實現上述目標,同時需要對SoC供應商的功能安全的設計和開發能力進行全面評估:
- 對SoC的安全設計概念進行評估,包括安全需求、安全狀態、故障容錯時間間隔等;
- 對SoC的安全機制設計進行評估,包含診斷機制、自檢機制、安全隔離和冗余設計等;
- 對SoC的安全分析結果進行評估,包括定性安全分析、定量安全分析和相關失效分析結果等;
- 對SoC的開發工具鏈的鑒定報告進行檢查,包括工具軟件的置信度評估結果,軟件工具開發過程評估等;
- 對廠商提供的SoC相關的安全審核、認證和評估結果進行檢查,包括是否是獨立的第三方審核和評估,評估范圍、評估報告的等;
功能安全的級別跟SoC的功能安全目標相關。評估時需要細分SoC內部各個模塊的功能安全等級,從軟件和硬件維度,確認SoC的功能安全設計是否能夠全面、有效的滿足自家產品的安全需求。在產品應用層面,還需要全面評估產品引入功能安全設計后,潛在的SoC算力需求增加、通信帶寬增大、存儲容量需求增加等方面的變化,確保SoC安全功能設計能夠在項目中完整落地。
4、其他4.1、內存帶寬SoC內部的CPU、NN加速器、GPU等除了執行指令外,還會從DDR讀取指令和讀寫數據。但DDR的訪問不能單周期完成,典型的訪問延時100ns+。盡管Cache在一定程度上可以緩解DDR的訪問延時問題,但考慮到多核心并發、隨機訪問DDR,DDR帶寬往往會成為CPU和各個加速器運行的瓶頸。例如,假設NN加速器處理一幀圖像,50ms用于DDR數據的加載和存儲,50ms用于在數據運算,此時幀率是10Hz;如果DDR的帶寬減半,此時需要100ms用于DDR數據的加載和存儲,50ms用于在數據運算,此時幀率為6.7Hz。可見,DDR帶寬可以間接影響各個處理器和加速器的運行的效率。
常用的單通道(32bit) DDR的頻率和帶寬參考如下。
如下圖為內存多通道交織的例子:如果只使用一個通道,對DDR的訪問是單通道串行的;如果CPU同時連接到4通道的DDR,4個通道之間的訪問可以并發,提高DDR帶寬。
綜上,除了關注DDR的單通道帶寬外,還需要重點關注DDR的通道數,如理論上雙通道的DDR帶寬是單通道的2倍。
4.2、功耗和成本相同的芯片規格,芯片的工藝會直接影響到芯片的功耗,如7nm和16nm 30T算力的SoC功耗大約為15W和30W。算力的增加同樣會增加功耗,如7nm 30T和200T算力的SoC功耗大約為15W和100W。功耗的大小又會影響到結構和散熱,較高的功耗需要增加風扇、尺寸、銅管、材料等,進一步增加域控制器的成本。
算力的增加也意味著芯片成本的增加,如200T算力的SoC的價格約為30T算力的SoC的7倍,所以在選擇芯片規格的時候也要重點關注對算力的真實需求,過多的預留可能會導致成本的浪費。
4.3、豐富的IO接口資源自動駕駛的主控處理器需要豐富的接口來連接各種各樣的傳感器設備。目前業界常見的自動駕駛傳感器主要有:攝像頭、激光雷達、毫米波雷達、超聲波雷達、組合導航、IMU以及V2X模塊等。
- 對攝像頭的接口類型主要有:MIPI CSI-2、LVDS、FPD Link等;
- 激光雷達一般是通過普通的Ethernet接口來連接;
- 毫米波雷達都是通過CAN總線來傳輸數據;
- 超聲波雷達基本都是通過LIN總線;
- 組合導航與慣導IMU常見接口是RS232;
- V2X模塊一般也是采用Ethernet接口來傳輸數據。
除了上述傳感器所需IO接口外,常見的其它高速接口與低速接口也都是需要的,比如:PCIe、USB、I2C、SPI、RS232等等。
4.4、芯片的生態(工具鏈)芯片整個軟件的工具鏈或者對一些算法的開發是不是能滿足客戶的需求。也就是說芯片的生態怎么樣,是否具備一個良好的生態系統能夠支撐客戶做可落地化的開發,也是主機廠或Tier1在選擇芯片時候的重要考量因素之一。
根據蓋世汽車研究院數據顯示,2023年高通座艙域控芯片裝機量超226萬顆,市場占比近六成。排在高通之后的同樣是從消費電子芯片領域跨界而來的AMD,其2023年座艙域控芯片裝機量近57.6萬顆,市場占比超15%。這主要來自于為特斯拉代工的和碩與廣達,對應車型為Model 3與Model Y。
瑞薩排位第三,2023年座艙域控芯片裝機量近32.8萬顆。德賽西威是主要客戶,其超20萬套座艙域控采用的瑞薩的M3或H3。除德賽西威外,這兩款芯片也用于安波福、佛吉亞、華陽通用的座艙域控產品中,配套量居高的車型包括艾瑞澤8、哈弗H6等。英特爾、三星、德州儀器也都在10萬級以上,其中英特爾近76%座艙域控芯片配套于東軟的座艙域控產品;三星則主要供應LG;德州儀器主要供應安波福。芯擎科技憑借60,152顆的裝機量,拿到了“第七”的排位,高于英偉達與恩智浦。據悉,該年度“龍鷹一號”主要配套北斗智聯和億咖通的座艙域控產品,涉及車型領克08 EM-P、睿藍7等。華為此次排位第十,麒麟芯片2023年裝機量為21,923顆,主要配套阿維塔11、阿維塔12等車型。
注:轉載至 網絡 文中觀點僅供分享交流,不代表貞光科技立場,如涉及版權等問題,請您告知,我們將及時處理
-
SoC芯片
+關注
關注
1文章
615瀏覽量
34958 -
智能駕駛
+關注
關注
3文章
2552瀏覽量
48815 -
自動駕駛
+關注
關注
784文章
13877瀏覽量
166638 -
汽車輔助駕駛
+關注
關注
0文章
4瀏覽量
6896
發布評論請先 登錄
相關推薦
評論