2022年11月29日,百度Apollo Day技術開放日活動線上舉辦。百度自動駕駛技術專家全景化展示Apollo技術實力及前沿技術理念。
隨著自動駕駛的規模化落地,數據規模將出現爆發式增長。如何尋找更有價值的數據,如何高效地利用數據提升駕駛能力,成為自動駕駛持續學習和實現規模化的關鍵。百度自動駕駛技術專家李昂提出了「高提純、高消化」的數據閉環設計理念,全面強化自動駕駛的數據煉金術。據介紹,該方案的數據提純路徑利用車端小模型和云端大模型,實現高效率數據挖掘和自動化標注;數據消化架構實現自動化訓練,具備聯合優化和數據分布理解的能力,有效地利用高純度數據進一步提升自動駕駛系統的整體智能水平。
自動駕駛是一個系統性工程,李昂本次關于數據閉環技術的分享,展現了百度在自動駕駛方面進行的是系統的技術創新:既關注常見的感知、決策、控制環節,又在AI算法最關鍵的數據提純、標注和模型訓練環節進行大膽創新,用新的技術思路和解題模式提升底層技術的支撐力,最終又反過來能促進感知、決策等環節的發展。
清華大學交叉信息研究院助理教授
博士生導師趙行博士
以下為演講全文
大家好,我是李昂。我為大家帶來百度Apollo對于自動駕駛數據閉環的一些實踐與思考。
首先,自動駕駛是一個持續學習的問題。無人車持續地在城市道路中行駛,會遇到各式各樣的新問題和很多意想不到的新場景。
根據這臺車端回傳的視頻可以發現,其實在城市道路上遇到一群羊,排著隊橫穿馬路的情況,也不是完全沒有可能的。
而這些罕見的長尾場景,對于自動駕駛來說是一個急需解決的問題,這也是自動駕駛需要持續學習的一個重要原因。
當無人車實現大規模的商業化落地,大量的無人車在道路上行駛,持續地去搜集海量的數據。
而對于我們的問題是,如何利用好這些大數據,提升無人駕駛整體的安全性與舒適性,這就是數據閉環所需要考慮的一個核心問題。
百度認為數據閉環是無人駕駛最終實現持續學習能力的重要基礎架構。
然而,大數據給自動駕駛智能水平帶來巨大提升空間的同時,大量的數據也給數據閉環建設帶來了全新挑戰。
一方面,大規模的數據帶來了數據存儲以及數據標注的一個巨大壓力,全量落盤的模式不再是一個可以持續的方案。
另外一方面,數據閉環的目標是利用數據提升無人駕駛整個的駕駛能力。在大規模數據的情況下,算法迭代所需要的計算量也隨之增加。我們將這兩個困難總結為兩個核心的問題:
首先,如何高效率地從海量的數據里找到高價值或者叫高純度的數據?
其次,如何利用好這些高純度的數據,高效、高質量地提升整體數據驅動算法的整體智能水平?
我們從回答這兩個問題的角度出發,設計了百度Apollo的數據閉環的整體設計思路。
首先,自動駕駛系統是由車端和云端兩個部分組成的。而整個數據閉環是由數據提純以及數據消化這兩個部分構成。
其中數據提純同時出現在車端和云端,它的目標是找到高價值、高純度的數據。
而數據消化部署在云端,它的目標是利用高純度的數據,提升自動駕駛的整體的智能水平。
接下來,將從這兩個方面分別介紹百度關于數據閉環的高提純、高消化的設計思路。
首先,我們需要建設高效率數據提純的通路。
大規模的數據對于智能系統的幫助其實已經是業界共識了,然而百度認為數據的規模并不是唯一的標準。數據的純度也是一個重要的考量。這里定義數據的純度為,單位數據可以給整個智能系統提供的信息量。一個簡單的例子來看一看如何提高數據的純度。
在左下角這個圖片中可以發現,正前方有一只小狗,沒有被算法檢測到。我們稱這樣的數據為定向樣本。而在右邊的特征空間的表示中,用白色的圓圈來表示這樣的定向樣本。這里的正負號是這些樣本的標注。
所以一個比較直接的想法就是嘗試去找與這只小狗類似的一個照片,而這些圖片大概率也會造成系統的漏檢。
這些圖片的搜索,可以通過比如最近鄰檢索的一些方式來實現,在這個特征空間上我們用藍色的圓圈來表示。這種搜索類似樣本的一個數據挖掘的方式,把它叫做定向挖掘。
這里可以注意到,其實定向挖掘這個方法,并沒有使用到檢測模型的一些自身的信息。因而除了相似性,還可以從整個模型的角度來挖掘這個問題。
其實任何的模型都會有自己的決策邊界,在這張圖上使用虛線來表示。而出現在決策邊界上的數據,往往是具有很大不確定性的。
因而,這些數據也會給模型帶來額外的信息。所以我們將找到這些數據的方式叫做不確定性挖掘。
可以注意到,在獲取這些不確定性數據的同時,其實并沒有它們的標簽。借助于人工或者自動化標注的一些方式,可以獲得這些標簽。標簽從某種程度上也可以認為是數據的一種,并且可以帶來更多關于這些樣本的一些信息。當獲得這些標簽之后,就可以通過模型訓練的方式,來改變模型的決策邊界。
所以簡單地總結一下,數據挖掘與標注都是提高數據純度的一個重要手段。
根據這樣的思路,百度設計了自動駕駛的數據提純通路。
從這張圖上可以看到,數據總是以數據流的形式不斷地進入到這個系統里。而數據提純的一個核心組件是推理引擎,作用是對任意的一個給定的模型和一組數據,給出這個模型在這組數據上的推理結果,這個結果可以包括數據的特征以及模型預測出的標簽。
另外一個重要的組件是模型倉庫,這里包含了云端大模型、車端小模型,以及一些并沒有上車的一些候選小模型。
這里的大模型可以用來通過推理引擎獲取對應數據的特征和標簽。大模型的特征與向量檢索相結合,其實可以用作定向挖掘,大模型的標簽可以用作自動化標注。
除了大模型以外,車上的小模型也可以用來做數據提純。小模型可以通過推理的方式獲取小模型的標簽,注意,這里小模型的效果其實不如大模型,但由于小模型是實際在車上跑的模型,可以用這些標簽來判斷哪些數據是目前的小模型無法準確預測的數據。這也就是說這些數據其實是并沒有被模型消化的數據。在之后的訓練過程當中可以重點關注,提升在這些數據上的一些效果。
除此之外,多個小模型還可以利用比較經典的,一個集成學習的不確定性估計的方法,獲得模型對數據的不確定性,從而實現不確定性挖掘。
所以通過推理引擎,實際上對所有數據的各種屬性進行了推理,基于這些數據屬性,可以進一步地提供復雜的挖掘規則,從而實現更為復雜和更有針對性的挖掘方式。
另外,從這個架構上不難發現,數據提純的效率很大的程度由推理引擎的效率決定。而推理引擎的效率又可以分為數據的讀取速度,以及模型的推理和計算速度。后者其實可以通過一些分布式的方式來提升,而前者主要可以通過文件系統的一些創新來進行優化。
這里我們與百度飛槳團隊產生了緊密的合作,將百度自研的PaddleFlow數據緩存的基礎架構,集成進入了數據閉環的平臺,實現了推理引擎數據讀取效率的10倍以上的提升。
另外一方面,如果只有云端數據提純這樣的一個方式,是沒有辦法滿足大規模自動駕駛的需求的。原因是在于存儲空間的上限其實是無法支持全量的數據回傳。
因而,在車端也需要部署數據提純的通路。云端和車端系統的主要區別在于它的存儲和計算能力的不同。很多云端可以執行的操作,在車端變得難以實現,比如說集成學習的一些方式。
因而,我們在設計車端挖掘方案的時候,雖然依舊遵循相同的原則和底層邏輯,但更多是采用一些輕量級的策略。比如云端基于大模型的挖掘方式,在車端是沒有辦法實現的,所以車端會改用小模型的特征提取。
最終簡單地總結一下,數據提純的呈現方式,實際上是云端到車端的一個模型和策略的雙重降維。
第二部分:在我們獲取了高純度數據的同時,另一個重要的問題,就是如何高效率、高質量地消化這些數據,將數據轉化為無人車的智能與駕駛能力。
無人駕駛的系統與傳統的機器學習的應用其實是有很大的不同的,這樣的不同,給整體的數據消化帶來了很多挑戰。
首先,我們所處的世界其實是不斷變化的。因而,無人車搜集到數據的分布也是在不斷變化的。
所以如何讓無人駕駛這個系統可以感知到數據分布的一個變化,是需要考慮的一個重要問題。
其次,無人駕駛的系統并不是單一的模型,是由多個可微和不可微的模塊共同組成的。并且這些模塊是相互關聯、相互影響的。所以需要考慮如何更好地去聯合優化這些模塊。
最后,數據消化還存在一個效率的問題,而高效的系統往往是需要實現高度的自動化,從而降低流程中對于人工的需求,最終達到降低系統成本的一個核心目標。
接下來,我會從這三個角度分別去介紹百度對于數據消化的一個實踐與思考。它們分別是自動化、聯合優化以及數據分布。
首先,基于持續學習與AutoML的一些概念,百度在數據閉環里面設計了一套自動化訓練引擎。
數據通過數據緩存的形式、采樣的方式進入到訓練引擎,這類似于持續學習里面一些比較經典的經驗回放機制。
由于自動駕駛系統的優化是多目標的,整個訓練引擎需要持續的維護一個模型集合,不僅僅包含最優的模型,還包含在整個訓練過程當中產生的中間模型。
我們使用一個異步的推理引擎對這些模型進行評測,因而最終的訓練的輸出是一個候選模型的集合,而不是一個單一的模型。這個集合在多目標優化里面一般叫做Pareto front。
此外,在概念上,百度認為一個模型它是由參數和超參數共同定義的,這里的參數定義了模型的靜態狀態,而超參數其實定義了整個模型優化的軌跡或者叫動力學。這兩種參數是結合起來一起進行管理的。
通常模型參數是通過梯度優化的方式來優化的,而超參數則需要使用非梯度優化。這里借鑒了基于進化算法的一個架構思路。
首先從模型集合里采樣模型參數和超參數。然后對它們做一些探索。這里有與傳統的超參數優化有所不同的地方,在于不僅僅對超參數進行探索,同時對整個模型的參數也進行擾動。這也是受到今年Rich sutton等人提出的持續學習的可塑性的影響,以及2019年Jordan ash等人提出的模型熱啟動工作的啟發。百度在實踐中發現,這種參數的擾動是可以提高在持續訓練的過程當中,整個模型群體的魯棒性和穩定性。
探索后的模型參數可以作為初始化,與超參數共同傳入Paddlecloud分布式訓練,而訓練的過程中產生的模型將會一起傳回整個模型集合進行管理。
需要注意的是,這里的訓練步長不一定是要等模型收斂,也可以設置比較短的一些步長,這樣的話可以直接實現動態參數優化的一個能力。
利用這樣的一個訓練引擎,對自動駕駛系統里面的數據驅動模型實行了自動化托管的能力,也就是說在數據確定的情況下,可以實現全無人的訓練模式。
繼續以剛才的小狗為例,當發現這只小狗出現誤檢之后,可以利用特征檢索的一些方式,挖掘出一批小狗的數據,然后將新數據與舊數據同時傳入到訓練引擎進行自動化訓練。這里可以看到每一個點其實是一個模型,可以看到在整個訓練的過程當中,模型的效果是不斷提升的,同時在訓練的最終結果發現,可以實現小目標和總體指標的同時提升。
此外,這個訓練引擎是一個通用的架構,因此它不僅僅是可以用在這樣的一個問題上,其他的各種各樣的一些問題也可以利用這樣的方式提升模型的效果。舉個例子比如:低矮綠植問題、柵欄問題以及懸浮塑料袋的問題。
點擊查看大圖
不難想象,在持續優化這樣的一個系統的時候,所有的這些挖掘的數據最終是以一個個的數據集的形態傳輸到訓練引擎當中的。
而在迭代的過程當中發現,其實每一次新數據進來的時候,整個模型的效果是呈持續提升的一個趨勢。并且尚沒有觀測到數據飽和的一個狀態。
大家可以注意到,其實剛才提到的例子都是對單一模型的一個優化。而整體自動駕駛是一個多模塊的復雜系統,因而更需要去關注聯合優化的問題。
本質上來看,整個自動駕駛系統可以看作是一個端到端的優化,因為我們最終在乎的,是這個無人車在車上的一個效果,而優化的方式是通過加上很多模塊級別的輔助目標。比如感知會有自己的目標,預測、規劃都會有自己獨立的目標。而之所以沒有辦法真正地實現端到端的優化這個能力,是由于在整個系統里面存在很多不可微的模塊,因而沒有辦法計算它們的梯度。
此外,對于系統里面某一些數據驅動模塊的優化,從端到端的角度,也是需要考慮它對下游的一個影響,可以認為目前整個的工程架構所做的方式,應該是類似于系統級的Coordinate descent,又叫做坐標下降方法。
一個比較經典的聯合優化的例子就是行為預測,在這張圖上可以發現,行為預測這個模塊它是處于中間的,它有上游,也有下游。這里的行為預測模型同時考慮了障礙物軌跡以及面對障礙物的意圖,它的效果會直接影響下游的軌跡規劃這個模塊。
而預測的模型,預測的數據以及它的問題的復雜度都相對比較高。
首先我們做了一個初步的嘗試,嘗試了與之前感知比較類似的一個方法,搜集一些數據,利用自動化優化的引擎來優化預測的評測指標。這里的指標是由不同的障礙物的類型構成,比如自行車、障礙車或者是行人。
從右邊的結果可以發現,的確發現了這個預測的整體指標取得了提升,但是當把最好的預測模型放進這個端到端系統時,發現仿真的指標卻下降了。實際上,我們認為這是由于預測指標與仿真指標的目標不一致所造成的。
這里使用地形圖來示意訓練和評測的優化目標。假設越高的點越好,越紅的點越好,指標越好。如果只看訓練的指標,使用梯度優化的方式,的確是可以找到紅色的比較高的區域。然后它的對應位置的評測目標,卻并非是處于一個比較高的狀態。
因而一個比較直觀的想法就是,在優化這個模型的時候,同時去看兩個地形圖的高度,這樣就有更大的概率,去找到兩個指標都好的一個最終狀態。
基于這樣的一個想法,百度實現了一個工程架構。在訓練的同時,將產生的預測模型實時地與下游規劃模塊進行打包,同步地進行仿真評測。因而,最終的訓練引擎同時優化的是離線的預測指標以及仿真的端到端指標。
通過結果可以發現,雖然預測的指標有小幅度的下降,但是其實最終這個仿真的效果是有大幅度提升的。
剛才已經提到了一些關于數據分布對于訓練的影響的一些問題。可以認為整個數據消化的能力是與數據分布的理解能力息息相關的,因而著重也需要去考慮這個系統如何去理解數據分布。
數據分布其實在機器學習里面是一個非常重要的概念。這個原因是在于目前比較有效的數據驅動的方式主要是基于深度學習。而深度學習的核心原則是經驗風險最小化。
這里我列舉出了訓練和評測的經驗風險最小化的公式。而重點關注的是這個w和v數值,它們分別是訓練時的每個樣本的權重,或者叫分布或者是密度,和評測時候的每個樣本的權重。
所以從這個公式可以發現,如果w和v不一樣,那通過這個訓練公式獲得的模型,在評測的時候大概率也不是最好的。而評測的效果往往是需要真正關心的。因而,這里一個核心的問題就是如何找到正確的數據分布。
為此,百度在數據閉環里設計了一套對于數據分布的管理和探索的方案。
點擊查看大圖
這里主要分為兩個部分,首先,對數據分布的先驗進行統一的管理,這里的先驗可以是人為設定的,也可以是通過學習來獲得。
當這個先驗進入到訓練引擎之后,訓練引擎其實可以把這個先驗或者這個數據分布當作超參數,做一定程度的探索或搜索。當我們發現更好的分布之后,可以通過一個反饋的機制修正數據分布的先驗。
而另外一個問題就是,數據分布到底應該如何去描述它,百度主要采用標簽化或者叫場景化的一個方式。
以剛才行為預測為例,其實可以通過問三個問題來映射所有的數據到不同的場景,而這三個問題,可以分別是主車的行為、障礙物的行為,以及障礙物的類型。
當對每個場景的數據進行統計,就可以最終獲得整個數據集所對應的數據分布的描述。
這里介紹一個比較有意思的學習數據分布的一個嘗試。主要的想法是由于整個數據閉環的平臺其實管理了所有的模型訓練,因而在百度平臺的Log里面存在大量的模型和對應的指標。
例如在剛才的行為預測訓練里面,我們發現Log里面其實有很多模型、預測指標、仿真指標的配對數據。
所以一個自然而然的想法就是,是不是可以訓練一個線性的預測器,它的輸入是不同場景的預測指標,而輸出是仿真的指標。這個線性預測器的權重,最終就對應了指標之間的相關性,其實也代表了不同場景下障礙物的預測能力,對于仿真效果的一個重要度的體現。
以環島的數據舉例,從這批預測數據中學習到了關于仿真急剎的數據分布。這里權重最高的場景是主車繞行環島,障礙物進入環島,障礙物為車輛時的意圖預測能力。
從這個對應場景視頻我們不難看出,當在這個時候,障礙車預測不準確的時候,主車很有可能出現急剎的情況。
雖然這樣的分布,并非是完全真實的分布,但平臺具備這樣貢獻度的估計能力,其實可以給研發帶來一定程度的幫助。
從另外一個角度,我們可以適度地根據這樣的一個數據分布,提供一個指導,來調整數據分布的一個先驗或者是指標評測時候的數據分布,從而達到加強訓練指標和評測指標的一致性的方式。
例如在剛才的預測的例子里,這樣的一個方式可以大幅度降低在訓練流程中對于仿真評測的需求,從而達到降低成本。
最終總結一下:百度提出了以高提純、高消化為核心驅動力的數據閉環的設計思路。這里的高提純通過小模型和大模型的車云協同,實現高效的數據挖掘和自動化標注。
而高消化則通過數據、模型、指標的集中式、端到端整合來實現。
除此之外,訓練、推理以及數據分布是在數據消化中可以形成有效的一個反饋機制,進一步提升數據消化的整體效率和效果。
最后,希望百度Apollo的高提純、高消化的數據閉環技術思想,可以給業界同行們帶來更多的啟發,共同推動和實現自動駕駛大規模的商業化落地。
好,謝謝大家!
審核編輯 :李倩
-
自動駕駛
+關注
關注
784文章
13923瀏覽量
166851 -
無人車
+關注
關注
1文章
304瀏覽量
36529 -
Apollo
+關注
關注
5文章
342瀏覽量
18496
原文標題:百度Apollo Day|李昂:數據規模不是唯一標準,數據純度更是重要考量
文章出處:【微信號:baiduidg,微信公眾號:Apollo智能駕駛】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論