一塊汽車芯片抵一臺超算的時間正在臨近。
一周前,英偉達發布智能汽車最強芯Thor,單片算力達到2000TOPS,性能相當于Orin的8倍,在相近精度下,算力幾乎是前段時間被禁的A100的4倍。
更恐怖的是,Thor的出現直接把尚未問世的Atlan扼殺在搖籃里,這種卷王行為把業內人士都看傻了。
然而,話音未落,在三天后的投資者會議上,另一家芯片豪門高通也發大招,宣布推出“集成式汽車超算SoC” :Snapdragon Ride Flex,SoC外掛NPU的組合算力最高也將達到2000TOPS。
據說有高通工程師在朋友圈放話:這就是我們的回應,給這場算力爭霸賽增添了一絲火藥味。 ? 英偉達與高通的隔空斗法,真實地反映了智能汽車在數字指標上日益嚴重的貧富不均——燃油車時代,即使是一臺軒逸這樣的買菜車,F1方程式賽車的馬力也不過是其8倍;而在智能電動汽車上,旁邊一輛車的算力可能會是你車的數十倍,甚至數百倍。 ? 透過通貨膨脹一般的智能汽車芯片算力,我們嘗試回答幾個問題: ? 1、汽車芯片的算力,是怎么卷到2000T的? 2、智能汽車芯片,是不是算力越大越牛X? 3、汽車智能芯片超算化,會變成英偉達和高通的神仙打架嗎?? ??
算力卷王
近些年的智能駕駛發展史,某種程度上可以概括為芯片算力暴漲史。 ? 2016年,因輔助駕駛致死事故和Mobileye分道揚鑣的特斯拉,找到英偉達定制了計算平臺 Drive PX2,算力為24TOPS[1]。一般來說,TOPS越高,每秒能進行的AI計算越多,能承載的人工神經網絡性能也越好。 ? 就像手機、電腦常常用芯片跑分作為賣點,在深度學習席卷汽車行業的浪潮中,TOPS成了衡量智能駕駛能力先進與否的第一指標,英偉達CEO黃仁勛亦有名言:“TOPS就是新的馬力”[2]。? 今年CES展上,在算力層面吃過虧的Mobileye 發布算力為176T的EyeQ Ultra,相比EyeQ4提升50倍。同樣,地平線今年即將登陸理想L8的J5芯片,算力亦高達128T,是J2芯片的34倍,唯恐落后于對手。 ? 英偉達更是深諳算力即權力的游戲規則,繼Drive PX2之后,英偉達在6年時間內發布了三代智能駕駛芯片,從Xavier、Orin再到Thor,算力實現從30TOPS到254TOPS再到2000TOPS的躍遷,每一代都是“芯皇”般的存在。 ? 如果以Drive PX2為基準,10年內英偉達的智能駕駛芯片AI算力增長了83倍,比傳統的摩爾定律還要快。 ?
英偉達Thor智能駕駛芯片 ? 為什么智能駕駛芯片這么“喪心病狂”地堆算力?這當中,既有英偉達兩年一更新芯片架構的努力,也有臺積電不斷提高芯片制程工藝極限的功勞,但更重要的是有市場,翻譯過來就是,下游企業紛紛患上了算力饑渴癥。? 其一,智能汽車上的傳感器規格與數量均在近幾年有了飛躍,帶來了數據的暴漲。 ? 比如今年開始交付的蔚來ET7,全車搭載33個傳感器,其中包括11枚800萬像素高清攝像頭,1個高精度激光雷達,5個毫米波雷達等,傳感器每秒產生僅圖像數據就達到8G,約等于一部90分鐘的高清藍光電影[3]。 ? 為滿足智能駕駛的實時處理需求,蔚來不得不啟用4枚Orin組成算力1016T的計算平臺——傳感器太多導致數據爆炸,單芯算力已是應對不及。 ? 同時,智能駕駛算法的“大模型化”,也讓芯片算力愈發吃緊。 ?
特斯拉FSD感知算法比早期的Autopilot算法復雜得多 ? 去年,特斯拉率先在智能駕駛系統的感知模塊中啟用新型神經網絡Transformer,相比于傳統的CNN,Transformer性能大漲,可以幫助系統實現三維感知,并能擁有和人類一樣的“記憶”能力。 ? 特斯拉開路之后,Transformer迅速席卷行業,但它并非沒有代價——參數極多,消耗計算資源大,長城汽車旗下的自動駕駛公司毫末智行就發現,“Transformer所需算力是CNN所需算力的100倍(在訓練端)[4]。” ? 其次,汽車電子電氣架構的集中化,也在催生超級芯片。 ?
為了便于車內數據交互、降低總體成本,汽車行業正在竭力減少散落在車內各處的上百個ECU,將它們負責的計算任務整合到盡可能少的芯片中——汽車電子電氣架構已由最早的分布式計算迭代到目前的域控計算,而下一代將是所需芯片更少的中央計算。
與之對應,“艙駕融合”的概念被提出來,這是一個終極目標:一枚主芯片同時負責智能駕駛與智能座艙的計算任務(當然會有其他小芯片輔助)。而自動駕駛動輒上千T的算力要求,和車內動輒幾塊2K屏的大屏趨勢,逼迫這枚芯片必須在性能上狂飆。 ? 面對這些需求,英偉達在產品線上果斷砍掉了去年發布的智能駕駛專用芯片—算力1000T的Atlan,以2000T算力的Thor取而代之,高通Flex平臺緊急跟進,兩家企業(在口頭上)將智能汽車芯片送進了超算時代。 ? ?
算力越大≠效果越好
在分析英偉達制霸AI芯片市場,股價五年暴漲20倍的原因時,分析師們往往會草草地拋出一個觀點:算力為王。車企們在宣傳智能汽車時,也常常有意無意地向用戶傳達一種思想:算力越大越牛X。 ? 不過這并非事實。在真實的智能駕駛系統中,更大的算力只提供牛逼的可能性,但不保證牛逼的確定性。? 一方面,企業通常對外宣傳的TOPS,是一塊芯片的AI峰值算力,但在實際運行中,芯片算力很難被充分利用。 ?
一個不那么為人所知的事實是,在高數據量的計算任務中,最大的瓶頸常常是存儲帶寬而非算力。因為計算單元的運行頻率遠高于存儲單元,芯片會陷入“算力等數據”的狀態,高算力其實在空轉[5]。 ?這就相當于餐廳里有一位米其林大廚,做飯又快又好吃,但受制于切菜工的效率,導致出餐率一直上不去。
存儲能力成為AI應用的主要瓶頸 ? 有效運用高算力的一個方法是在芯片中放置更多的高速緩存(SRAM),這種存儲單元與計算單元距離更近,數據傳輸的延遲更低,可有效提升帶寬。 ? 比如特斯拉在其FSD芯片內封裝了32MB的高速緩存,緩存帶寬達到2TB/s,將每秒能處理的圖像從Drive PX2的100余幀提升至2300幀,為其FSD Beta算法提供了基礎[6]。
但特斯拉做到這一切的前提是斥巨資從硅谷找到頂級半導體人才,進行自主研發,而能同時滿足這樣條件的車企并不多。 ? 另一方面,即使通過各種方法盡可能把芯片算力用滿,也不代表萬事大吉——算力是智能駕駛的基礎,算法才是靈魂。? 關于算法的重要性,在游戲行業有一個生動的例子。2021年前,游戲玩家在打開GTA5聯機版時,即使擁有性能不錯的電腦,也需要等待一段漫長的時間。后來有程序員解包發現,由于部分代碼質量過低,某個只需一步完成的步驟,被迫跑了19.8億次if語句——這段代碼很簡單,但占用了60%的計算資源[7]。 ? 同樣的道理在智能駕駛行業也成立:堆砌、消耗算力并不難,難的是通過高效算法將算力轉化為實打實的用戶體驗。
一個有經驗的算法團隊常常能取得更高的算力費效比。比如小鵬剛剛向廣州區域的P5車型推送了城市高階輔助駕駛CNGP,在行業大多基于上百T算力實現這一目標時,小鵬P5僅搭載了算力30TOPS的Xaiver芯片,依靠的便是算法優化和高精地圖加持[8]。 ? 不久前與五菱一起推出低算力輔助駕駛方案的大疆車載認為,實現智能駕駛面臨傳感器、算力、算法、數據四座大山,四座山頭需要一起翻越。換句話說,智能駕駛系統其實是一個木桶,決定最終體驗的是不是某塊長板,而是短板。 ? 而在當下,整個汽車行業將芯片算力堆到數百乃至上千T的大有人在,但沒有一家車企的輔助駕駛系統效果,比得上特斯拉基于144T算力做出來的FSD Beta。面對這種情況,很難說智能駕駛行業的短板在芯片算力上。 ? ?
神仙打架,車企真成組裝廠?
英偉達與高通神仙打架,會造成智能汽車芯片三名之后寸草不生的局面嗎?答案是否定的。 ? 這是因為,與另一個芯片使用大戶消費電子相比,汽車行業對成本更加敏感,市場高度分層,且對安全要求更高。而在目前,一枚汽車超算芯片很難同時滿足上述條件。 ? 從成本和市場角度來看,高算力芯片等于高成本,意味著只有部分高端車型才用得起,其下游車企往往是少數舍得下血本的硬件預埋派:先掏大價錢把算力、硬件堆高,再通過OTA更新功能。
英偉達已經量產的Orin,采用7nm工藝生產,算力254T,每片價格便達到400美元[9],目前只有蔚小理、智己、飛凡等品牌30萬+的車型搭載。而Thor的算力達Orin 8倍,采用更先進的5nm工藝,其價格必定會比Orin更加驚人。 ? 而從安全角度看,統管智能駕駛與智能座艙的超算級芯片雖然更加簡潔,數據流轉效率更高,但代價是失去了硬件級的安全冗余。如果芯片沒有做好隔離,智能駕駛與智能座艙的應用可能會相互帶崩(比如車機死機造成輔助駕駛突然退出),影響車輛安全。這給擅長把控安全的傳統汽車半導體大廠留下了機會。 ? 由于成本高企且難以滿足全部需求,車企中也分化出了硬件自研派,比如蔚小理一邊與英偉達、高通稱兄道弟,另一邊則各自建立芯片自研團隊,研發與自家算法、軟件匹配程度更高的芯片,試圖將命運掌握在自己手中。
而在廣闊的輔助駕駛市場,更加主流的其實是服務中低端車型的夠用就好派。他們不追求(也無力使用 )高端配置,而是用低成本芯片、傳感器,在有限場景內將輔助駕駛功能做好。 ? 比如大疆與五菱今年合作推出的智駕版 KIWI EV則更進一步,采用200萬像素攝像頭為主傳感器,計算平臺算力僅16T,全套輔助駕駛套件成本在一萬以內。 ? 隨著此類方案的流行,一些平價智能駕駛芯片如地平線J3(算力5T)、德儀TDA4(算力8T)正在打開越來越大的市場。 ?
地平線CEO余凱的朋友圈 ? 然而將時間線拉長,智能汽車對算力的需求在切實提升,汽車單枚大算力芯片取代多枚小算力芯片的趨勢難以逆轉,時間更像是英偉達與高通的朋友: ? 隨著5nm工藝成熟、芯片出貨量增加,超算級汽車芯片的價格會降低,從而在整體成本上更加節約。在發布會上,黃仁勛就夸下海口,表示Thor能夠“一片頂六片”,整體上能為車企降本數百美元。 ?
Thor芯片以一挑六 ? 而影響一款芯片市場表現的隱形條件:軟件與生態方面,英偉達各自手握AI訓練和安卓開發生態,并擁有對應的軟件工具鏈。近兩年,英偉達與高通正在用軟硬結合的方式,把越來越多的車企拉入其生態中。 ? 國產智能汽車芯片的代表地平線也決定加入戰局:明年,地平線將發布單芯片算力1000T的征程6,同樣支持駕艙融合。在這之前,地平線的大算力芯片征程5獲得了比亞迪、上汽、理想、紅旗等國內車企的訂單。 ? 只是對車企們來說,一個棘手的問題在愈發清晰:一輛車的產品力正在越來越多地被一枚芯片所定義,車企如今的產品節奏正在被芯片大廠拿捏。如果不加碼自研,車企很難逃脫羅永浩口中的“方案整合商”詛咒。
參考資料:
[1] AI領強算力時代,GPU啟新場景落地,華西證券
[2] 英偉達最終活成了三芯,雷鋒網
[3] 蔚來發布首款自動駕駛車型ET7,蔚來官網
[4] 毫末和自動駕駛的3.0時代,顧維灝
[5] 人工智能遭遇“存儲墻”,存算一體必將破墻而出,雷石投資
[6] 可能是全網最詳細的特斯拉FSD芯片解析:是猛獸還是小貓?電動星球
[7] GTA 5祖傳「屎山」代碼終于修復!R星認可黑客方案,還給他發了1萬美元獎金,量子位
[8] ?30TOPS算力就能實現自動駕駛?小鵬P5城市NGP體驗,搜狐汽車
[9] 自主品牌轉型7大分歧,看十余位車圈大佬高質量互懟,XEV研究所
編輯:黃飛
評論
查看更多