將一個(gè)機(jī)器人隨機(jī)放入未知環(huán)境中,是否有辦法讓機(jī)器人一邊移動(dòng)一邊確定自己的位置并構(gòu)建該環(huán)境的地圖?近日,由重慶大學(xué)王科副教授帶領(lǐng)的團(tuán)隊(duì)的論文 SBAS:Salient Bundle Adjustment for Visual SLAM,將顯著性預(yù)測(cè)模型應(yīng)用于 SLAM 框架中去,模擬人類執(zhí)行這一任務(wù)的過程,有效提升了機(jī)器人定位及建圖的準(zhǔn)確性和魯棒性。
1. 什么是 SLAM?
SLAM 的全稱是 Simultaneous Localization And Mapping,即同時(shí)定位與建圖。
通俗來說,該技術(shù)希望搭載特定傳感器的機(jī)器人在未知的環(huán)境中,通過不斷的運(yùn)動(dòng)提取環(huán)境中的特征如墻角、柱子等來估計(jì)自身的位置,并同時(shí)根據(jù)傳感器觀測(cè)到的數(shù)據(jù)建立環(huán)境的地圖,從而達(dá)到同時(shí)定位和地圖構(gòu)建的目的。
通常情況下,基于幾何的方法的 SLAM 技術(shù)可以分為兩類:特征法和直接法。
特征法通過提取和匹配圖像中的關(guān)鍵點(diǎn)通過最小化重投影誤差來估計(jì)相機(jī)的姿態(tài),而直接法則直接利用圖像中的像素強(qiáng)度通過最小化光度誤差來估計(jì)相機(jī)的姿態(tài)。目前,該領(lǐng)域已經(jīng)有了一些較為出色的算法模型。
MonoSLAM 是第一個(gè)使用擴(kuò)展卡爾曼濾波(EKF)和 Shi-Tomasi 角點(diǎn)的實(shí)時(shí)視覺 SLAM 系統(tǒng)。該方法簡(jiǎn)化了 SLAM 對(duì)硬件的要求,并可以被應(yīng)用于仿人機(jī)器人實(shí)時(shí) 3D 定位和建圖以及手持相機(jī)的在線增強(qiáng)現(xiàn)實(shí)。
PTAM 是最早提出將 Track 和 Map 分開作為兩個(gè)線程的一種 SLAM 算法,也是一種基于關(guān)鍵幀的單目視覺 SLAM 算法。采用非線性優(yōu)化方法代替基于濾波器的方法作為后端優(yōu)化方法,PTAM 提出并實(shí)現(xiàn)了跟蹤映射過程的并行化。
直接法不提取特征點(diǎn),而是利用像素強(qiáng)度通過最小化光度誤差來估計(jì)攝像機(jī)的姿態(tài)。基于直接法的 SLAM 模型如下:
DTAM 是第一個(gè)使用直接方法生成密集三維地圖的系統(tǒng)。然而,它需要商用 GPU 來執(zhí)行復(fù)雜的計(jì)算。為了提高效率,SVO 提取 FAST 特征,然后利用直接法的方式來估計(jì)攝像機(jī)的姿態(tài)和三維結(jié)構(gòu)。
LSD-SLAM 擴(kuò)展了這項(xiàng)工作,并且可以在大比例尺環(huán)境下生成半密集地圖。同時(shí)能夠?qū)⑷S環(huán)境地圖實(shí)時(shí)重構(gòu)為關(guān)鍵幀的姿態(tài)圖和對(duì)應(yīng)的半稠密的深度圖。
除了基于幾何的方法的 SLAM 外,基于深度學(xué)習(xí)的 SLAM 憑借神經(jīng)網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力也取得了很大的進(jìn)步。PoseNet 是最早使用 CNN 端到端估計(jì)相機(jī)姿態(tài)的方法之一。Deep VO 使用 RNN 來建模運(yùn)動(dòng)動(dòng)力學(xué)和圖像序列之間的關(guān)系,ESP-VO 在此基礎(chǔ)上增加了位姿估計(jì)的不確定性估計(jì)。
2. 基于顯著性模型的 SLAM 框架
圖 | 框架總覽
為更好地解決現(xiàn)有 SLAM 框架的問題,作者提出了一個(gè)適用于室內(nèi)和室外環(huán)境的 SLAM 框架,它可以應(yīng)用于各種場(chǎng)景,具有較好的魯棒性和準(zhǔn)確性。
上圖為整體框架的簡(jiǎn)化說明,它包括兩個(gè)組件:基于幾何法的 SLAM 管道和基于深度學(xué)習(xí)的顯著性預(yù)測(cè)模塊。顯著性預(yù)測(cè)模塊生成與 SLAM 數(shù)據(jù)集相對(duì)應(yīng)的顯著性圖。然后,將顯著性圖作為輸入,幫助 SLAM 選擇顯著的特征點(diǎn),以提高定位的準(zhǔn)確性和魯棒性。
視覺顯著性是指模仿人類視覺系統(tǒng),從自然場(chǎng)景中選擇出最顯著、最感興趣的區(qū)域或點(diǎn),以便在不同的任務(wù)下進(jìn)行進(jìn)一步的處理。近年來,有許多基于深度學(xué)習(xí)的方法來預(yù)測(cè)自然場(chǎng)景中的顯著性區(qū)域,并取得了很好的效果。然而,這些顯著性預(yù)測(cè)方法并不能完全描述 SLAM 系統(tǒng)應(yīng)該關(guān)注的特征,原因是這些方法只使用原始的人類注視信息,例如,在駕駛車輛行駛的過程中,人類的注視通常停留在車輛前方的道路上,因?yàn)檫@是車輛行駛的地方。但是,這還不夠,因?yàn)?SLAM/VO 還需要聚焦在遠(yuǎn)離圖像中心的區(qū)域,所以僅僅依靠人眼眼動(dòng)跟蹤器獲得的凝視數(shù)據(jù),并不能幫助 SLAM 系統(tǒng)捕捉所有這些重要線索。
為解決這一問題,作者通過結(jié)合幾何信息和語義信息,在 KITTI 數(shù)據(jù)集的基礎(chǔ)上,構(gòu)造一個(gè)顯著性數(shù)據(jù)集 Salient-KITTI 來訓(xùn)練顯著性模型,用語義注視代替人類注視。具體來說,作者首先提取圖像幾何信息如特征點(diǎn)、線和平面等。然后使用語義分割網(wǎng)絡(luò) SDC Net 在感興趣對(duì)象周圍生成分割掩碼。
然后,作者選取了 13 個(gè)類別作為 SLAM 應(yīng)該重點(diǎn)關(guān)注的對(duì)象(紅綠燈、交通標(biāo)志、道路、建筑物、人行道、停車場(chǎng)、軌道、圍欄、橋梁、電線桿、桿群、植被、地形)來過濾幾何信息,因?yàn)檫@些類別中的區(qū)域通常包含顯著的、穩(wěn)定和魯棒的特征。如下圖,其顯示了語義注視和人類注視地面真值的比較。
最后,基于該顯著性數(shù)據(jù)集,作者使用 DI-Net 獲得顯著性模型,并用它來預(yù)測(cè)初始顯著性圖,隨后根據(jù)圖像的深度信息得到最終的顯著性圖。
為了驗(yàn)證顯著性模型的可行性,作者做了三個(gè)實(shí)驗(yàn):
a) 1、顯著性模型的有效性驗(yàn)證。使用分別在 Saleint-KITTI 數(shù)據(jù)集和 SALICON 數(shù)據(jù)集上訓(xùn)練的顯著性模型,驗(yàn)證所提出的顯著性模型相對(duì)于其它顯著性模型的有效性。
圖 | SALICON 和 KITTI 數(shù)據(jù)集訓(xùn)練的顯著性模型的比較
結(jié)果顯示,對(duì)于基于 SALICON 數(shù)據(jù)集訓(xùn)練的模型,當(dāng)圖像中沒有顯著對(duì)象時(shí),注意力集中在圖像的中心,從而忽略了其他重要信息,即我們所說的存在中心偏差。相反,在 Salient-KITTI 數(shù)據(jù)集上訓(xùn)練的模型可成功地捕捉到這些重要信息。此外,該模型還可以減少動(dòng)態(tài)對(duì)象的影響,因此具有顯著性值高的點(diǎn)通常是更穩(wěn)定和魯棒的點(diǎn)。
2、基于 KITTI 數(shù)據(jù)集的室外場(chǎng)景驗(yàn)證。在單目和立體視覺配置中,作者提出的系統(tǒng)比 ORB-SLAM3 更精確,因?yàn)?SBA 使顯著特征點(diǎn)充分發(fā)揮其作用。同時(shí),本實(shí)驗(yàn)也證明利用顯著圖可以使算法在姿態(tài)估計(jì)方面有更多的優(yōu)勢(shì),具體效果如下圖所示。
3、基于 EuRoc 數(shù)據(jù)集的室內(nèi)場(chǎng)景驗(yàn)證。在第三個(gè)實(shí)驗(yàn)中,作者將算法與其他最先進(jìn)的算法進(jìn)行了比較,如 ORB-SLAM、DSM、DSO、突出 DSO 和 ORB-SLAM3。
圖 | EuRoc 數(shù)據(jù)集的一些軌跡結(jié)果和地面真實(shí)情況
結(jié)果顯示,在大多數(shù)序列中,作者提出的模型在室內(nèi)和室外環(huán)境下都能很好地工作,同時(shí)也比文獻(xiàn)中的最新技術(shù)獲得更精確的結(jié)果。
王科表示,該研究不僅僅針對(duì)自動(dòng)駕駛,基于圖像處理的都可以用,它是一個(gè)基礎(chǔ)的算法,而非純應(yīng)用的提升,只不過最初是在自動(dòng)駕駛平臺(tái)做起來的。
而隨著 SLAM 技術(shù)的不斷發(fā)展,它們將被應(yīng)用到越來越多的領(lǐng)域中,小到掃地機(jī)器人,大到無人駕駛技術(shù)、AR、VR 等,未來將為人類生活帶來極大的便利。
責(zé)任編輯:lq
-
算法
+關(guān)注
關(guān)注
23文章
4629瀏覽量
93227 -
SLAM
+關(guān)注
關(guān)注
23文章
426瀏覽量
31900 -
機(jī)器人視覺
+關(guān)注
關(guān)注
0文章
48瀏覽量
10115
原文標(biāo)題:重慶大學(xué)研發(fā)定位與建圖技術(shù),可讓機(jī)器人視覺更智能
文章出處:【微信號(hào):deeptechchina,微信公眾號(hào):deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論