百度Apollo目前歷經(jīng)四代,分別是Apollo1.0、1.5、2.0、2.5。
Apollo一路走來,正在走出高成本的科研范疇,邁向?qū)嵱妙I(lǐng)域。在Apollo1.5版上,激光雷達(dá)是最核心的,不僅完成傳統(tǒng)的局部導(dǎo)航,還完成通常由攝像頭完成的障礙物識(shí)別。2.0版上,增加交通信號(hào)燈檢測(cè)和障礙物分類。RTK與激光雷達(dá)點(diǎn)云融合定位,MPC模型預(yù)測(cè)法做控制算法,RNN做交通場(chǎng)景預(yù)測(cè)。Apollo重點(diǎn)模塊集中在障礙物感知、預(yù)測(cè)、高精度定位、路徑規(guī)劃、控制的工作。
這樣一輛車,總成本100多萬(wàn)人民幣(含改裝成本),顯然只能做科研,即使做共享出行,成本都太高了。
2.5版上,Apollo有了重大改變,從高成本科研階段進(jìn)入實(shí)用化的階段,從以前的低速園區(qū)應(yīng)用,演進(jìn)到低成本方案的高速公路應(yīng)用。在Github上Apollo2.5是這樣說的 Vehicles with this version can drive autonomously on highways at higher speed with limited HD map support. The highway needs to have clear white painted lane marks with minimum curvatures. The performance of vision based perception will degrade significantly at night or with strong light flares.Be cautious when driving autonomously, Especially at night or in poor vision environment. Please test Apollo 2.5 with the support from Apollo engineering team. 在高精度地圖支持下,車輛可以在高速公路上以較高的速度自動(dòng)駕駛,高速公路應(yīng)該車道線清晰,曲率不高。在強(qiáng)烈陽(yáng)光和低照度下請(qǐng)謹(jǐn)慎,請(qǐng)?jiān)贏pollo工程團(tuán)隊(duì)的支持下測(cè)試Apollo2.5。
和原來數(shù)十萬(wàn)元的系統(tǒng)成本相比,Apollo2.5僅用一個(gè)廣角攝像頭和一個(gè)毫米波雷達(dá)就完成了高速公路自動(dòng)駕駛,總體成本下降了90%,已經(jīng)具備量產(chǎn)條件。
Apollo2.5的基礎(chǔ)是百度的低成本“相對(duì)地圖”,這種地圖和凱迪拉克超級(jí)巡航上的激光雷達(dá)地圖類似。
由USHR為凱迪拉克制作的激光雷達(dá)地圖專為高速公路無(wú)人駕駛設(shè)計(jì),地圖的內(nèi)容包括車道數(shù)量、車道寬度、水平寬度、速度上限、速度下限、海拔高度、順坡斜率、邊坡斜率、航向角、水平曲率半徑等,精度為10厘米。在凱迪拉克超級(jí)巡航里包括6自由度的MEMS IMU,使用天寶的RTX服務(wù)和一臺(tái)天寶的單頻雙星(GPS/GLONASS)接收機(jī),使用4G通訊來矯正定位,包括精確衛(wèi)星時(shí)鐘,軌道和電離層信息,定位精度可達(dá)1.8米。
凱迪拉克使用6個(gè)毫米波雷達(dá),包括1個(gè)長(zhǎng)距超聲波雷達(dá),可能是德國(guó)大陸汽車的ARS-410,5個(gè)短距離毫米波雷達(dá),可能是大陸的SRR520。前后兩個(gè)攝像頭也由大陸提供,8-10個(gè)超聲波雷達(dá),當(dāng)然車內(nèi)還有一個(gè)駕駛者狀態(tài)監(jiān)控?cái)z像頭。圖中未標(biāo)出360環(huán)視系統(tǒng),實(shí)際上凱迪拉克超級(jí)巡航也有360環(huán)視系統(tǒng)。這套系統(tǒng)遠(yuǎn)優(yōu)于特斯拉的Autopilot 2.5輔助駕駛系統(tǒng)。
中國(guó)的高速公路路況不同于美國(guó),中國(guó)的高速公路有三大殺手,一是大貨車,二是無(wú)視交通法規(guī)的司機(jī),三是豪車飆車。對(duì)這三大殺手,必須做出對(duì)應(yīng),這就是場(chǎng)景決策或者說行為決策。大貨車由于國(guó)情因素,超載是不可避免的,不超載就會(huì)虧本。超載情況下,剎車性能大幅度下降,加上大貨車都是氣剎,反應(yīng)速度遠(yuǎn)低于小型車的液壓剎車,此外大貨車在高速上方向打的稍微急一點(diǎn)就可能翻車,會(huì)壓垮臨近車道的車。所以高速上盡量不跟大貨車,盡量不與大貨車平行。然而高速上也忌諱隨意變道,或者見大車就超。需要在兩者之間做一個(gè)平衡,找一個(gè)最優(yōu)策略。
有些司機(jī),在高速逆行或倒車,如果按照一般無(wú)人車的原則是遇到障礙物就減速,而面對(duì)逆行或倒車,減速不是最優(yōu)策略,換道才是,不過也要看是否具備換道條件。最后是那些不在意超速罰款的豪車,四處穿插變道,任意超出,無(wú)人車要盡量遠(yuǎn)離這些車輛。
如何讓無(wú)人車面對(duì)這些場(chǎng)景時(shí)做出最優(yōu)選擇?
行為決策,第一種方法為人為編程法(Manual Programing),包括FSM(Finite State Machines)有限狀態(tài)機(jī)、行為樹、目標(biāo)導(dǎo)向、效用系統(tǒng)、Rule Based、HSM(Hierarachical State Machines)層次狀態(tài)機(jī)。
FSM有限狀態(tài)機(jī),這是目前AI游戲界最常用的方法,也是小公司無(wú)人駕駛最常用的,簡(jiǎn)單高效,最大的優(yōu)點(diǎn)是可視化,缺點(diǎn)是無(wú)法對(duì)應(yīng)太多的場(chǎng)景,一般不超過10個(gè),在高速上場(chǎng)景比較簡(jiǎn)單,尚可使用,低速市區(qū)則完全不能用。
第二種是Optimisation最優(yōu)法,包括CCO(Chance Control Optiminsation)。
第三種是Graph 搜索法,包括A+法(寶馬),RRTS(快速擴(kuò)展隨機(jī)樹法)。
第四種Model Predictive Control (MPC)法,例如Interactive Multi Model-Extended Kalman Filter (IMM-EKF)。
第五種Partially Observable Markov Decision Process (POMDP),部分可觀察馬爾科夫決策過程法,降低對(duì)傳感器的依賴性。
Waymo使用POMDP來做行為決策,Waymo的 behavior prediction team由Stephane Ross領(lǐng)導(dǎo),主要用POMDP來預(yù)測(cè)行人、車輛和騎自行車者的未來行為。預(yù)測(cè)行為與行為決策是聯(lián)為一體的。
這實(shí)際上一種強(qiáng)化學(xué)習(xí)。深度學(xué)習(xí)算法一般可分為三大類,即非監(jiān)督學(xué)習(xí)(unsupervised learning)、監(jiān)督學(xué)習(xí)(supervised leaning)和強(qiáng)化學(xué)習(xí)。根據(jù)Agent當(dāng)前狀態(tài),選擇了動(dòng)作a,這時(shí)與環(huán)境發(fā)生了交互,Agent觀測(cè)到下一個(gè)狀態(tài),并收到了一定的獎(jiǎng)賞r(有好有壞)。如此反復(fù)的與環(huán)境進(jìn)行交互,在一定條件下,Agent會(huì)學(xué)習(xí)到一個(gè)最優(yōu)/次優(yōu)的策略。這實(shí)際上就是個(gè)馬爾科夫決策過程(MDP),也就是阿爾法狗背后的算法。
而無(wú)人車的決策都來自傳感器得到的信息,這些信息都不能完整地描述環(huán)境,只是環(huán)境的一部分,因此需要使用POMDP,即部分觀察馬爾科夫決策過程。強(qiáng)化學(xué)習(xí)過程可以使用一個(gè)馬氏決策過程(M arkov decision process,MDP)表示,MDP由四元組 定義,其中S為狀態(tài)集,A為動(dòng)作集,R :SxA = R為獎(jiǎng)賞函數(shù),記R (s,a,st)為在狀態(tài) S下采用動(dòng)作a到達(dá)st 后所得到的瞬間獎(jiǎng)賞值;T:SxA = PD (為狀態(tài)轉(zhuǎn)移函數(shù),其中T (s,a,st)為Agent在狀態(tài)S下采用動(dòng)作a到達(dá)st的概率…。
如果Agent在學(xué)習(xí)過程中,無(wú)需學(xué)習(xí)MDP的模型知識(shí),直接學(xué)習(xí)最優(yōu)策略, 我們稱這類方法為模型無(wú)關(guān)(Model free) ;如果在學(xué)習(xí)過程中,先學(xué)習(xí)MDP的模型知識(shí),然后再根據(jù)這些推導(dǎo)、學(xué)習(xí)出最優(yōu)策略,我們稱之為模型有關(guān)( Model based)。其中前者是研究的重點(diǎn),因?yàn)樵趯?shí)際中主要遇到的問題。是如何在模型不知的情況下學(xué)習(xí)到最優(yōu)策略。前者的算法主要有TD(λ), Q—learning 算法,后者主要有Dyna、Prioritized Sweeping、Sarsa 算法等。
無(wú)人車的POMDP一般包括狀態(tài)建模、行為建模、觀察建模、轉(zhuǎn)移函數(shù)建模、收益建模。狀態(tài)建模包括行人、車輛、騎車人可能的行為目標(biāo)點(diǎn),映射到POMDP模型的七元組的S。將汽車的行為,恒速、加速、減速、左轉(zhuǎn)、右轉(zhuǎn)組合為多種行為。將車輛位置、速度和周圍移動(dòng)目標(biāo)的位置集合映射到POMDP模型的七元組的Z。汽車的收益建模包括安全、舒適、高效三個(gè)目標(biāo)。
為了加快測(cè)試過程,百度開發(fā)了強(qiáng)大的仿真系統(tǒng)。在Apollo 中,對(duì)仿真平臺(tái)的定位是不僅僅是真實(shí),而是要能夠進(jìn)一步:能夠發(fā)現(xiàn)無(wú)人車算法中的問題。因?yàn)樵谡麄€(gè)算法迭代閉環(huán)中,光有擬真是不夠的,還需要能夠發(fā)掘問題,發(fā)現(xiàn)了問題后才能去解決問題,也就是回到了開發(fā)過程。如此這樣,從開發(fā)到仿真再回到開發(fā),仿真平臺(tái)同我們的開發(fā)過程串聯(lián)成一個(gè)閉環(huán)。只有閉環(huán)的東西才能構(gòu)成持續(xù)迭代和持續(xù)優(yōu)化狀態(tài)。所以仿真平臺(tái)在整個(gè)無(wú)人車算法迭代中的地位非常重要。
Apollo 仿真器的靜態(tài)世界的表達(dá),正是直接使用了 Apollo 相對(duì)地圖數(shù)據(jù)。所以它是真實(shí)的,且是具有足夠低成本的。
相對(duì)低速場(chǎng)景,高速公路場(chǎng)景要簡(jiǎn)單的多,更容易實(shí)現(xiàn)低成本可量產(chǎn)的無(wú)人駕駛。未來國(guó)內(nèi)第一輛量產(chǎn)的L4無(wú)人車,很有可能是百度Apollo與中國(guó)本土車企打造的。
-
激光雷達(dá)
+關(guān)注
關(guān)注
968文章
3990瀏覽量
190079 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
784文章
13870瀏覽量
166609 -
Apollo
+關(guān)注
關(guān)注
5文章
342瀏覽量
18474
原文標(biāo)題:百度Apollo限定場(chǎng)景低成本方案,邁向可量產(chǎn)之路
文章出處:【微信號(hào):zuosiqiche,微信公眾號(hào):佐思汽車研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論