Twitter Hacker @Tristan公布了他破解的FSDbeta內(nèi)部的3Dvoxel NN,形態(tài)仿佛狂野的《西部世界》,看起來雖然粗糙,無法實(shí)現(xiàn)纖毫畢現(xiàn),但是關(guān)鍵信息——尤其是落在識別結(jié)果分類范圍之外的長尾目標(biāo)和場景,可以識別。
@Tristan是一個(gè)活躍在Twitter.com和github.com上的技術(shù)工程師(小編:Tristan現(xiàn)供職于Facebook),其個(gè)人公開的興趣是機(jī)器學(xué)習(xí)和逆向工程——這就不難理解Tristan和長期活躍在互聯(lián)網(wǎng)上一批汽車科技黑客,對于破解Tesla車機(jī)系統(tǒng)尤其是自動駕駛系統(tǒng)的熱情了。小編要是有這個(gè)實(shí)力也會這么干,畢竟這是在公眾可以接觸到的AI完整系統(tǒng)中,鳳毛麟角的批量商用產(chǎn)品了。
11月25日,@Tristan在twitter上公布了他所破解的Autopilot感知堆棧內(nèi)的新功能,大致的名字可以被稱作“Voxel 3D Birdseye view Model”——基于體素的3D矢量空間感知模型。這個(gè)功能首次被發(fā)現(xiàn)于大概一個(gè)半月前的2021.36版本,再次發(fā)現(xiàn)是在當(dāng)前正在接受測試的FSD beta10.5版本。目前尚不確定這部分的NN模型是否在實(shí)際的識別堆棧中online參與識別,但功能肯定是存在的,而且這部分NN模型針對性也很明顯,就是針對在純視覺系統(tǒng)下表現(xiàn)不佳的靜態(tài)物體識別。我們可以先看一段被hacked出來的Voxel 3D Birdseye view模型識別結(jié)果,如下:
@Tristan并未提供這段視頻的對比真實(shí)世界場景,但大致上讀者應(yīng)該還是可以理解這是車輛行駛在道路上,從Camera提供的2D視覺信號所“恢復(fù)”出來的3D voxel靜態(tài)物信息,包含但不限于:道路區(qū)域內(nèi)的隔離物體、道路邊緣大致輪廓,以及道路外圍的第一排臨街建筑物和各種交通實(shí)體。
讀者可以先不著急理解FSD beta是如何將視頻信號轉(zhuǎn)換為3D voxel構(gòu)成的場景的,理解這種技術(shù)的關(guān)鍵在于,什么是voxel體素的概念。
圖二【Tesla voxel 3d model-2.png】來自spatial.com的體素概念截圖,URLhttps://blog.spatial.com/the-main-benefits-and-disadvantages-of-voxel-modeling;
體素本質(zhì)上是 3D 像素,但它們不是正方形,而是完美的立方體。理論上,體素是復(fù)制現(xiàn)實(shí)的完美建模技術(shù)。我們可以理解現(xiàn)實(shí)的世界是由類似于體素的東西組成的(小編:但它們要小得多,我們稱之為“亞原子粒子”)。如果您有足夠高的密度(或2D平面下的“分辨率”)和適當(dāng)?shù)匿秩炯夹g(shù),您就可以使用體素來復(fù)制現(xiàn)實(shí)世界中的對象,這些對象在外觀和行為上都無法與真實(shí)事物區(qū)分開來。下圖為例,如果計(jì)算機(jī)的渲染能力足夠強(qiáng),就可以構(gòu)建出基于立方體voxel的虛擬物理實(shí)體。只要Voxel有足夠的細(xì)膩,虛擬的實(shí)體就可以逼真到肉眼在一定距離上無法辨識。(小編:你能識別下圖中的房屋實(shí)際是由voxel構(gòu)成的嗎?)
圖三【Tesla voxel 3d model-3.png】來自spatial.com的體素概念截圖,URLhttps://blog.spatial.com/the-main-benefits-and-disadvantages-of-voxel-modeling;
基于voxel的體素建模在今天有一些非常具體的用例。許多科學(xué)學(xué)科都使用體素來快速確定體積數(shù)據(jù)。例如,在基于體素的形態(tài)測量學(xué)中,研究人員可以使用體素比較腦組織濃度的差異;地質(zhì)學(xué)家經(jīng)常使用體素建模技術(shù)來模擬地形和高程等地質(zhì)特征。更廣泛地說,科學(xué)家可以使用基于體素的建模來可視化和測量城市中心從流體到綠色空間的任何事物的體積。體素在需要對單個(gè)粒子進(jìn)行建模的模擬技術(shù)中也很有用,就像智能材料模擬的情況一樣。(小編:以上信息來自于spatial.com對于體素和體素建模的論證)
但我們今天所要關(guān)注的重點(diǎn)在于自動駕駛領(lǐng)域?qū)τ?D目標(biāo)實(shí)時(shí)建模的特殊需求,顯著區(qū)別于以上科學(xué)領(lǐng)域的精密應(yīng)用。這里會帶出兩個(gè)問題,如下:
1 為什么說自動駕駛領(lǐng)域,是特殊的3D目標(biāo)實(shí)時(shí)的建模需求?
小編:按照目前的自動駕駛感知系統(tǒng)硬件配置,除了Tesla劍走偏鋒選擇了“純視覺”路線而只依賴camera/s硬件以外,幾乎所有的其它主流自動駕駛廠商,都選擇了視覺+超視覺的機(jī)器感知的方案,而需要配置完整的camera + Lidar + mmRadar硬件陣列。(小編:針對低速泊車場景的超聲波雷達(dá)supersonic我們不做討論)對于后者的綜合性傳感器配置來說,獲取靜態(tài)場景/物體的測量信息并不算難題。無外界干擾因素的前提下,Lidar通過激光反射點(diǎn)云信息可以直接測量和描述主車四周的的環(huán)境信息,從而直接獲取3D建模結(jié)果。可能和Lidar在車身上不同的安裝位置和角度相關(guān)會有一些具體差異,如果是Waymo那種車頂360度大型旋轉(zhuǎn)Lidar布局,則可以直接獲取最終3D結(jié)果。對,直接!但對于Tesla Vision純視覺解決方案來說,通過成像平面的感光原理,只能是拿到主車四周的部分信息(小編:缺失了關(guān)鍵的深度信息),所以必須有這么一個(gè)看起來類似“悖論”的數(shù)據(jù)處理過程:
真實(shí)的物理世界——>小孔成像投影變換——>像平面成2D像——>NN神經(jīng)網(wǎng)絡(luò)——>voxel 3D場景信息
單一的視覺傳感器的優(yōu)勢,也正是它自身的劣勢。
2 為什么說自動駕駛領(lǐng)域的voxel 3D建模需求和以上科學(xué)領(lǐng)域有顯著區(qū)別?
小編:從視頻一中的voxel 3D場景信息我們也能看得出來,自動駕駛領(lǐng)域中,至少在Tesla的技術(shù)實(shí)現(xiàn)中,尤其針對靜態(tài)周圍場景的voxel 3D場景信息的voxel體素的體積較大,視覺上看遠(yuǎn)大于我們以上提到的各種科學(xué)應(yīng)用中的3D建模中的voxel,最終的呈現(xiàn)效果上也就沒那么細(xì)膩。小編不敢確定的是,大尺寸的voxel是否能夠帶來顯著降低的建模算力需求?是否帶來更高的建模結(jié)果置信度?或者說是否足夠補(bǔ)充Tesla Vision純視覺信息對于道路靜態(tài)場景的理解力不足的現(xiàn)狀?以下我們通過參考一個(gè)FSD beta系統(tǒng)camera捕捉的視覺場景,和其對應(yīng)的實(shí)際voxel 3D建模結(jié)果,來嘗試解答以上問題:
圖四【Tesla voxel 3d model-4.png】來自@Tristan推特視頻截圖,URLhttps://twitter.com/rice_fry/status/1463628678445756416/photo/1;
圖五【Tesla voxel 3d model-5.png】來自@Tristan推特視頻截圖,URLhttps://twitter.com/rice_fry/status/1463628678445756416/photo/3 ;
上圖四和圖五對應(yīng)顯示了一個(gè)道路中央帶有隔離標(biāo)識的雙向車道。可能讀者第一視覺感官是這兩張圖實(shí)在是看不出來有什么2D—3D的對應(yīng)關(guān)系,實(shí)際上這就是大型voxel體素的3D化處理效果。注:圖五中的綠色方塊為模擬出的主車位置(小編:圖四和圖五之間位置上有些不匹配,請忽略這個(gè)問題,不影響我們的對比分析)
紅色箭頭:此處為場景中最有代表性的景物,也是Tesla Vision所面臨的最大的長尾問題之一:如果針對靜態(tài)景物的NN識別Head并沒有針對這種黃色的道路隔離指示牌進(jìn)行預(yù)分類定義和針對性訓(xùn)練,則類似道路中央的障礙物可能會被Tesla Vision所忽略;(小編:各位還記得我們之前公眾號里貼過的那個(gè)西雅圖輕軌所特有的單支柱結(jié)構(gòu)嘛?如果沒有針對性分類和訓(xùn)練、或者本文所討論的針對靜態(tài)場景信息的3D voxel識別結(jié)果,那就是存在于“可駕駛區(qū)域“內(nèi)極大的駕駛風(fēng)險(xiǎn);圖五中我們可以看到識別結(jié)果為一個(gè)穩(wěn)定的、疊加增高的體素voxel立柱;
紫色箭頭:圖五中的紫色箭頭所指的邊界高度voxel,整齊劃一,對應(yīng)為圖四當(dāng)中的馬路邊的路緣石。高于路面一個(gè)voxel高度的路緣石結(jié)構(gòu)被準(zhǔn)確地、連續(xù)地識別出來,可以有力地補(bǔ)充Tesla Vision中針對馬路可行駛區(qū)域邊界的識別置信度。在這里我們也可以思考一下,精準(zhǔn)地模擬路緣石可能的高度和各種形狀和缺損,實(shí)際上對于“可行駛區(qū)域”邊界的界定沒有什么特別好的增益。連貫地、穩(wěn)定地識別出來路緣石邊界即可;
藍(lán)色箭頭:圖五中高出路緣石高度的voxel是對應(yīng)與圖四當(dāng)中的灌木綠化帶,因?yàn)槊娣e較大,所以也是呈現(xiàn)出連貫的趨勢;
紫色箭頭:圖五中綠色箭頭的voxel柱狀結(jié)構(gòu),對應(yīng)于圖四當(dāng)中的路邊電線桿。目前尚不清楚不同voxel體素的不同顏色所代表的具體含義,可能是識別結(jié)果置信度,也可能是高度。
綜上可以看到,路側(cè)更遠(yuǎn)處的更高高度的場景識別,目前是么有輸出的,仿佛被人切了一刀。其實(shí)很好理解,在距離“可行駛區(qū)域”以外一定距離上的高度信息對于自動駕駛系統(tǒng)并無增益,可以忽略。后面我們還會看到一個(gè)例子,Tesla的這種voxel場景識別技術(shù),可以識別地下車庫的頂棚。對于帶有頂棚結(jié)構(gòu)的室內(nèi)場景和隧道場景,高度識別還是有實(shí)際意義的。
在經(jīng)過這個(gè)理解過程之后,小編相信讀者再看圖五的voxel 3D輸出,就不會是之前那種一頭霧水的感覺了。當(dāng)然圖五所代表的voxel 3D場景識別結(jié)果依然是低信息密度的識別輸出。但考慮到Tesla Vision識別堆棧的識別結(jié)果不會是以voxel 3D場景為唯一準(zhǔn)繩,針對靜態(tài)場景尤其是障礙物的voxel 3D識別結(jié)果一定是視覺識別輸出的補(bǔ)充,從而實(shí)現(xiàn)對于“防撞”等關(guān)鍵任務(wù)的保障。
我們可以再看一個(gè)實(shí)際的靜態(tài)場景處理前后對比:
圖六【Tesla voxel 3d model-6.png】來自@Tristan推特視頻截圖,URLhttps://twitter.com/rice_fry/status/1463628811321311236/photo/1;
圖七【Tesla voxel 3d model-7.png】來自@Tristan推特視頻截圖,URLhttps://twitter.com/rice_fry/status/1463628811321311236/photo/3;
以上圖六和圖七的對比非常明確,主要表達(dá)對于公路路面上的三角錐的voxel 3D識別。因?yàn)槿清F本身的椎體結(jié)構(gòu)(底部粗頂部細(xì)),因此voxel識別結(jié)果也基本是這個(gè)趨勢。當(dāng)然針對單個(gè)三角錐來說,voxel 3D的識別結(jié)果是不能令人滿意的,太過粗糙以至于如果你單獨(dú)觀察圖七,實(shí)際上你并不能分清楚這些堆狀障礙物的本質(zhì)屬性到底是什么東西。但其所能表達(dá)的指定位置上有障礙物的這個(gè)性質(zhì)是足夠有價(jià)值的:FSD beta的路徑規(guī)劃模塊需要考慮這些障礙物,并避讓。當(dāng)然,從歷史經(jīng)驗(yàn)上看,Tesla Vision的靜態(tài)物體識別Head是可以提供對于三角錐這種交通常見物體的識別和分類的,并不需要依賴額外的voxel 3D NN識別輸出,但如果遇到交通場景長尾現(xiàn)象中各種可能的障礙物屬性無法窮盡的客觀事實(shí),那么voxel 3D的輸出就顯得十分必要了。
圖八【Tesla FSD beta v9-18.png】,圖片來源請參考本公眾號之前的歷史文章插圖;
圖九【Tesla FSD beta v9-31.png】,圖片來源請參考本公眾號之前的歷史文章插圖;
以之前我們公眾號文章中曾經(jīng)捕捉到的FSD beta路測場景,我們可以實(shí)地看到大量存在的Tesla Vision無法識別的長尾現(xiàn)象。圖八中的貨車卸貨斜板結(jié)構(gòu);圖九中西雅圖輕軌支柱位于道路可行駛區(qū)域內(nèi)部等等。對于Lidar、mmradar等有源傳感器,識別類似障礙物并非難題,但對于純視覺方案來說,如果不按照視覺+NN的標(biāo)準(zhǔn)數(shù)據(jù)收集和訓(xùn)練方法,針對道路中央的支柱、貨車尾部的卸貨斜板等目標(biāo)物體提前建立分類并進(jìn)行訓(xùn)練,就永遠(yuǎn)不會被Tesla Vision的HydraNets所識別,從而對自動駕駛系統(tǒng)構(gòu)成真實(shí)的威脅。(小編:讀者可能會想到車體上還有四周12個(gè)supersonic雷達(dá)可以用于最后的防撞告警?但大量事實(shí)證明Tesla autopilot系統(tǒng)不會在正常行駛中使用超聲波感知數(shù)據(jù)做防撞操作,僅作障礙物提示使用)
FSD beta所采用的voxel 3D NN的技術(shù)細(xì)節(jié)并未得到披露,從類似的一般性的公開方法來說,從2D單個(gè)圖像中恢復(fù)出voxel 3D信息的方法是基于標(biāo)準(zhǔn)的Encoder—Decoder結(jié)構(gòu)的。小編以一篇公開論文(V3DOR網(wǎng)絡(luò))為例,大致論述一下其背后的技術(shù)原理。
V3DOR=Visual 3D Object Reconstruction,屬于典型的encoder-decoder架構(gòu)的NN。Encoder編碼部分將從camera相平面輸出的2D圖像中獲取“合適的”特征,Decoder將在這些特征的基礎(chǔ)上恢復(fù)目標(biāo)物或者場景的3D信息。整體的訓(xùn)練數(shù)據(jù)來自于一個(gè)叫做ShapeNet的數(shù)據(jù)集,因數(shù)據(jù)集在近期數(shù)據(jù)規(guī)模的不斷豐富和演進(jìn),因此V3DOR的性能在穩(wěn)步進(jìn)化,號稱State of the art。實(shí)際上利用Lidar技術(shù)或者結(jié)構(gòu)光學(xué)攝影技術(shù),部署在消費(fèi)電子產(chǎn)品上,比如手機(jī),來拍攝實(shí)際物體并生成矢量化的目標(biāo)物3D成像,還是一個(gè)比較成熟的技術(shù)。(小編:畢竟已經(jīng)進(jìn)入消費(fèi)電子行列了)以從iphone12pro開始進(jìn)入iphone系列的Lidar模塊為例,如下效果:
【小編:請注意,以下關(guān)于iPhone Lidar的資料來自于少數(shù)派站點(diǎn)文章《iPhone12 Pro的激光雷達(dá)能做哪些有趣的事?》】
圖十【Tesla voxel 3d model-9.png】來自互聯(lián)網(wǎng),URLhttps://sspai.com/post/63498/ ;
從近景的貨柜開始,打開iPhone的Lidar傳感器進(jìn)行掃描,從圖中你會發(fā)現(xiàn),Lidar傳感器與肉眼不同,它看到的只有遠(yuǎn)近關(guān)系而沒有材質(zhì)。受限于機(jī)身尺寸和需求差異,iPhone Pro 和 iPad Pro 上的雷達(dá)傳感器只能識別幾米的距離。上圖中可以看到深度信息只包含鏡頭周邊的場景,包括左手的冰柜和左手的貨架,而過遠(yuǎn)的地方則無法識別。
圖十一【Tesla voxel 3d model-10.png】來自互聯(lián)網(wǎng),URLhttps://sspai.com/post/63498/ ;
如果綜合利用iPhone機(jī)體內(nèi)的其他傳感器,比如陀螺儀和網(wǎng)格系統(tǒng),iPhone 會通過陀螺儀來對設(shè)備姿態(tài)進(jìn)行記錄(小編:這意味著拿著iPhone的你可以亦步亦趨地朝前走,而陀螺儀/IMU可以記錄你和iPhone的姿態(tài)從而生成基準(zhǔn)網(wǎng)格,并將運(yùn)動過程中Lidar所有的記錄信息按照相對位置保存并納入網(wǎng)格系統(tǒng))。當(dāng)掃描開始后,它會通過一套網(wǎng)格系統(tǒng)來記錄被拍攝物品所處的位置。上圖所示,便是拍攝過程中的網(wǎng)格視圖。
圖十二【Tesla voxel 3d model-11.png】來自互聯(lián)網(wǎng),URLhttps://sspai.com/post/63498/ ;
Lidar掃描到的信息是無數(shù)的位置關(guān)系,僅僅整理成網(wǎng)格形式還不夠精細(xì)、準(zhǔn)確。為將這些信息變成可用的模型,我們可以使用多邊形網(wǎng)面圖,它也被稱作 Mesh。上圖所示,貨柜被進(jìn)一步處理成一個(gè)個(gè)三角形組成的一張網(wǎng)。這個(gè)網(wǎng)所具備的凹凸代表,便是真實(shí)世界中物品所具備的形狀和深度關(guān)系。Mesh+Grid的后臺技術(shù),將Lidar結(jié)構(gòu)化的深度信息,很條理地整理出來了。當(dāng)然,除了這些深度信息外,最后一步需要獲取的便是從iPhone的光學(xué)攝像頭拍照。這一步與Lidar傳感器無關(guān),使用的是設(shè)備上的普通攝像頭,用于記錄場景的材質(zhì) Texture。
下一步可以在Mesh+Grid的基礎(chǔ)上遍歷整個(gè)便利店,則可以得到整體的深度信息圖。繼續(xù)將這些深度信息組合所得的網(wǎng)面圖所得三角填充基礎(chǔ)色(小編:我的理解是光線強(qiáng)度和陰暗,不涉及顏色),得到結(jié)果如下圖所示:
圖十三【Tesla voxel 3d model-14.png】來自互聯(lián)網(wǎng),URLhttps://sspai.com/post/63498/ ;
最后將拍到的圖片根據(jù)位置一一還原到掃描到的場景中,會得到完整的,帶有紋理的圖片。
圖十四【Tesla voxel 3d model-15.png】來自互聯(lián)網(wǎng),URLhttps://sspai.com/post/63498/ ;
小編沒有iPhone搭載的Lidar相機(jī)的使用體驗(yàn),但想必以上這個(gè)流程應(yīng)該不是實(shí)時(shí)的。對于自動駕駛來說,擁有Lidar傳感器當(dāng)然是件好事兒,但對于選擇純視覺方案的Tesla來說,沒有Lidar,可相關(guān)自動駕駛的識別和感知能力、尤其是對于未分類障礙物的需求,卻絲毫不能缺失。因此,從視覺出發(fā)、甚至苛刻到必須從單張2D視覺像文件出發(fā),要實(shí)時(shí)構(gòu)造出道路環(huán)境下的深度信息,難!且必要!!
圖十五【Tesla voxel 3d model-16.png】來自論文《Voxel-Based 3D Object Reconstructionfrom Single 2D Image Using Variational Autoencoders》插圖,作者Rohan Tahir等;
如上圖所示,V3DOR=Visual 3D Object Reconstruction網(wǎng)絡(luò)具備典型的encoder-decoder架構(gòu)的NN。底部的藍(lán)色框內(nèi)呈現(xiàn)了2D到3D變換的過程,對于一個(gè)標(biāo)準(zhǔn)的2D圖像文件,需要如下處理過程:
1 圖形文件的預(yù)處理過程:
針對任何給定的圖形文件,V3DOR需要對其進(jìn)行灰度處理和Normalize一般化,降低圖形文件和圖形文件之間的差異。首先,目標(biāo)是轉(zhuǎn)換成3D信息,目標(biāo)物體和場景的顏色并不重要,一般化處理則包括統(tǒng)一到固定像素(這里是128*128pixels)以降低CPU和RAM負(fù)荷;每像素的灰度尺度為0-255之間的數(shù)值表述;同時(shí)還需要將目標(biāo)物盡可能放置在文件的尺寸中心等等,盡可能捕捉盡可能多的可以表征3D信息的特征;
2 Encoder編碼部分:
編碼部分一共七層的2D卷積層,小編確實(shí)沒太看懂上圖中的卷積層參數(shù),但論文中給出的實(shí)際是標(biāo)準(zhǔn)的平面卷積參數(shù),分別是(64, 3 × 3, 2),(64, 5 × 5, 2),(128, 7 × 7, 2),(128, 5 × 5, 2),(256, 3 × 3, 2),(256, 4 × 4, 2),(512, 2 × 2, 2)。以上卷積參數(shù)格式為,(filter channels, spatial filter dimensions, stride)。可以看到一個(gè)大的趨勢,其實(shí)和我們?nèi)粘J褂玫?D CNN主流參數(shù)沒有區(qū)別,都是越往后channel越大,可以學(xué)習(xí)到越來越多的高層semantic語義信息。
Encode編碼部分最終輸出的所謂隱含變量(Latent Variable)是1維的,size為512,是一個(gè)數(shù)組格式。進(jìn)入隱含變量表達(dá)時(shí),將其通過一個(gè)全連接網(wǎng)絡(luò)擴(kuò)展為8192維數(shù)組。按照作者的說法,可以將更多從2D圖像內(nèi)學(xué)到的特征,充分表達(dá)出來,以便后續(xù)的Decoder解碼部分可以據(jù)此恢復(fù)出較好的立體信息。
3 Decoder解碼部分:
隱含變量Latent Variable(一個(gè)8192維數(shù)組)作為學(xué)習(xí)來的特征,被送入Decoder執(zhí)行解碼。Decoder就是根據(jù)輸入的隱含變量來執(zhí)行一個(gè)類似形變的操作,將形變結(jié)果填寫入一個(gè)只有一個(gè)channel的3D空間內(nèi)。注意,這里這個(gè)V3DOR的輸出空間是一個(gè)32*32*32的立體空間,只有一個(gè)channel,也就是立體空間內(nèi)各向等質(zhì),不再做任何特征上的區(qū)分。可以打個(gè)類比,就好像3D打印出來的模型,通體一個(gè)材質(zhì),但可以充分反映物體的3D屬性,就是最大的成功。
具體的Decoder解碼器包含5層的3Dtranspose,小編從未見過如此結(jié)構(gòu),具體參數(shù)格式為:((filter channels, filter dimensions, stride),類似于3D CNN?具體指標(biāo)為:五層(64, 5 × 5 × 5, 2),(32, 3 × 3 × 3, 2),(32, 5 × 5 × 5, 2),(21, 3 × 3 × 3, 2),(1, 3 × 3 × 3, 1)。
至此,V3DOR將2D圖形(128*128pixels)轉(zhuǎn)換為3D空間物體表象(32*32*32不清楚何種單位),且為矢量格式。
可能有的讀者腦子轉(zhuǎn)不過彎兒,這不是空手套白狼嗎?怎么就encoder——decoder就大變活人出來3D信息了呢?我們其實(shí)可以這樣想,給你一個(gè)車輛圖片,2D的當(dāng)然,你必然可以想象出它的3D外觀,這是毫無疑問的,建立在大量“先驗(yàn)或者經(jīng)驗(yàn)”的基礎(chǔ)之上,比如汽車就四個(gè)輪子,汽車基本是個(gè)長方體,車輛頂部結(jié)構(gòu)或者正方或者溜背結(jié)構(gòu)等等,人類大腦內(nèi)部有大量的邏輯關(guān)系提示你你看不到的車體部分是什么結(jié)構(gòu)和尺寸。對于V3DOR也一樣,只要有足夠大的樣本數(shù)據(jù)庫,NN可以用一種最笨的辦法學(xué)到人類的這種推理經(jīng)驗(yàn),本質(zhì)就是監(jiān)督學(xué)習(xí)。
如果我們延伸考慮類似V3DOR的NN結(jié)構(gòu),如果在FSD beta內(nèi)部,它大概應(yīng)該是一個(gè)相對獨(dú)立的應(yīng)用,而且對于camera raw data的處理,可能在feature的參數(shù)要求上和其它識別task不同而獨(dú)立存在,也可能共用一個(gè)backbone,不確定。因?yàn)槿狈γ鞔_的技術(shù)描述,我們只能大概推測voxel 3D場景任務(wù)Head在HydraNets中的大致位置,如下圖:
圖十六【Tesla voxel 3d model-8.png】來自TeslaAI day主題演講視頻截圖以及小編編輯結(jié)果,底圖URLhttps://www.youtube.com/watch?v=j0z4FweCy4M&t=4115s?;
這個(gè)推測是基于voxel-3D task作為一個(gè)標(biāo)準(zhǔn)head,坐落于標(biāo)準(zhǔn)CNN backbone基礎(chǔ)之上的。但也有可能不是,不過不影響我們對于這個(gè)功能的理解。
最后,關(guān)于這個(gè)話題,我們可以回到我們之前提到過的單一傳感器——camera的悖論。Elon Musk也不知道是不是最早被Mobileye的Shashua教授洗了腦,執(zhí)拗地堅(jiān)持使用Camera,而且還是獨(dú)眼camera,放棄mmradar,不屑Lidar,從而不帶絲毫的立體信息。從而成功地把自己逼入“感知絕境”。在這個(gè)獨(dú)眼基礎(chǔ)上,F(xiàn)SD beta想不聰明都不行,而且至少要等同于人類駕駛智能才有可能邁入L4境界,甚至因?yàn)楠?dú)眼而更難。
在現(xiàn)有的神經(jīng)網(wǎng)絡(luò)NN架構(gòu)下,感知技術(shù)普遍是建立在監(jiān)督學(xué)習(xí)的基礎(chǔ)之上,這意味著機(jī)器需要知道通過訓(xùn)練,我要學(xué)什么?才有可能學(xué)得足夠好。但現(xiàn)實(shí)是長尾的,千奇百怪層出不窮,此路在可靠性上就行不通。因此必要的機(jī)器測量比如Lidar,在面對奇怪長尾場景的時(shí)候,就顯得尤為必要….. 除非…..Tesla可以從camera中恢復(fù)出足夠精度和可靠性的類Lidar輸出。
這就是這個(gè)悖論的起點(diǎn)。不要測量,要感知,可感知結(jié)果不能確保安全的前提下,通過感知技術(shù)實(shí)現(xiàn)基本等效的測量結(jié)果,沿著道路環(huán)境用camera raw data恢復(fù)出3D世界,但并不對其進(jìn)行識別操作。其本質(zhì),又回到了曾極力避免的機(jī)器“測量”的本意上。
評論
查看更多