本文介紹了強(qiáng)化學(xué)習(xí)與智能駕駛決策規(guī)劃。智能駕駛中的決策規(guī)劃模塊負(fù)責(zé)將感知模塊所得到的環(huán)境信息轉(zhuǎn)化成具體的駕駛策略,從而指引車輛安全、穩(wěn)定的行駛。真實(shí)的駕駛場(chǎng)景往往具有高度的復(fù)雜性及不確定性。如何制定一套泛化能力強(qiáng)的決策規(guī)劃?rùn)C(jī)制是智能駕駛目前面臨的難點(diǎn)之一。強(qiáng)化學(xué)習(xí)是一種從經(jīng)驗(yàn)中總結(jié)的學(xué)習(xí)方式,并從長(zhǎng)遠(yuǎn)的角度出發(fā),尋找解決問(wèn)題的最優(yōu)方案。近些年來(lái),強(qiáng)化學(xué)習(xí)在人工智能領(lǐng)域取得了重大突破,因而成為了解決智能駕駛決策規(guī)劃問(wèn)題的一種新的思路。
01.強(qiáng)化學(xué)習(xí)的介紹
強(qiáng)化學(xué)習(xí)(Reinforcement Learning)近些年來(lái)是人工智能的一個(gè)前言領(lǐng)域,屬于機(jī)器學(xué)習(xí)的一個(gè)重要分支。從定義上來(lái)講,強(qiáng)化學(xué)習(xí)可以通過(guò)經(jīng)驗(yàn)探索來(lái)學(xué)習(xí)到解決問(wèn)題的最優(yōu)策略,即累計(jì)回報(bào)值最大的動(dòng)作選取策略。在沒(méi)有任何初始經(jīng)驗(yàn)的情況下,強(qiáng)化學(xué)習(xí)可以通過(guò)平衡探索未知?jiǎng)幼鞯目赡苄裕瑢W(xué)習(xí)到解決問(wèn)題的最優(yōu)方法,從而達(dá)到自我學(xué)習(xí)的目的。因此,強(qiáng)化學(xué)習(xí)與其他機(jī)器學(xué)習(xí)算法的一個(gè)顯著區(qū)別為不依賴初始人工標(biāo)注數(shù)據(jù)集的大小,探索式的自我學(xué)習(xí)可大幅度的節(jié)省人力成本。近些年來(lái),隨著深度學(xué)習(xí)的迅速發(fā)展,將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)成為人工智能研究的熱門領(lǐng)域之一,并在游戲、控制等領(lǐng)域取得了令人矚目的成就。
02.智能駕駛決策規(guī)劃的任務(wù)
智能駕駛的主要目的是為人們提供安全、舒適及高效的出行體驗(yàn)。大多數(shù)的交通事故產(chǎn)生的原因來(lái)自于駕駛員人為因素,例如疲勞駕駛、情緒駕駛以及路況判斷失誤等。因此,合理的選擇駕駛行為及路線規(guī)劃是智能駕駛的一個(gè)重要環(huán)節(jié)。其中,行為決策負(fù)責(zé)在接收到全局路徑后,根據(jù)從感知模塊得到的環(huán)境信息(車輛速度、障礙物及道路信息等),做出具體的行為決策(如變道、跟車、減速等)。而規(guī)劃的任務(wù)則是在接收到?jīng)Q策層的宏觀動(dòng)作指令之后,將其轉(zhuǎn)化成一條更加具體的行駛軌跡,從而能夠生成一系列控制信號(hào)(油門、方向盤轉(zhuǎn)角、剎車等),實(shí)現(xiàn)車輛的自動(dòng)行駛。如何應(yīng)對(duì)不同的路況信息將做出合理的決策與規(guī)劃是無(wú)人駕駛智能化的一個(gè)重要指標(biāo)。
03.決策規(guī)劃目前的難點(diǎn)
由于實(shí)際的交通場(chǎng)景千變?nèi)f化,道路結(jié)構(gòu)差異大(高速、十字路口、停車場(chǎng)等),如何去設(shè)計(jì)一套通用性強(qiáng)的決策規(guī)劃?rùn)C(jī)制是目前困擾著智能駕駛的一個(gè)主要難題。同時(shí),其他交通參與者的行為存在不確定性,不僅需要對(duì)其行為做預(yù)測(cè),還需要考慮本車與其他交通參與者的博弈。因此,需要對(duì)時(shí)刻變化的外部環(huán)境做出快速及準(zhǔn)確的響應(yīng)。如何應(yīng)對(duì)感知模塊提供的信息做不到100%的準(zhǔn)確和100%的全覆蓋也是智能車在決策規(guī)劃時(shí)要考慮的重要因素。
04.強(qiáng)化學(xué)習(xí)對(duì)于智能駕駛決策規(guī)劃的意義
強(qiáng)化學(xué)習(xí)適用于求解具有時(shí)序性的決策問(wèn)題,這正與智能駕駛的決策過(guò)程相契合。結(jié)合神經(jīng)網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)框架可以增加駕駛場(chǎng)景的泛化能力。同時(shí),考慮部分不可觀測(cè)環(huán)境的強(qiáng)化學(xué)習(xí)流程可以評(píng)估交通參與者的不確定性,并通過(guò)預(yù)測(cè)與推演的方式從長(zhǎng)遠(yuǎn)的角度出發(fā)來(lái)尋求最優(yōu)的駕駛方案。更重要的是,強(qiáng)化學(xué)習(xí)由于其自身具有應(yīng)對(duì)外部環(huán)境改變而產(chǎn)生進(jìn)化的能力。當(dāng)未知的corner case產(chǎn)生時(shí),智能體可以通過(guò)改變自身的駕駛策略來(lái)適應(yīng)并探索學(xué)習(xí)到解決該問(wèn)題的方法。
-
人工智能
+關(guān)注
關(guān)注
1791文章
47305瀏覽量
238589 -
智能駕駛
+關(guān)注
關(guān)注
3文章
2526瀏覽量
48773 -
強(qiáng)化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
266瀏覽量
11261
原文標(biāo)題:強(qiáng)化學(xué)習(xí)對(duì)于智能駕駛決策規(guī)劃的意義
文章出處:【微信號(hào):阿寶1990,微信公眾號(hào):阿寶1990】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論