編者按:在自適應(yīng)搜索問題中,經(jīng)常會(huì)需要機(jī)器人在很強(qiáng)的背景干擾情況下定位目標(biāo)位置。在本文中,伯克利的研究人員提出了一種通用的自適應(yīng)感知方法AdaSearch,能快速定位目標(biāo)點(diǎn)。以下是論智對(duì)該成果的編譯。
在機(jī)器學(xué)習(xí)的很多任務(wù)中,常見的有根據(jù)固定、預(yù)先收集好的數(shù)據(jù)集回答問題。但是在一些應(yīng)用中,我們沒有先驗(yàn)數(shù)據(jù),必須自己收集回答問題所需要的數(shù)據(jù),例如在環(huán)境污染監(jiān)控和人口普查過程中常出現(xiàn)這種情況。自己收集數(shù)據(jù)則要求我們將注意力放在最相關(guān)的信息源上,但是想確定哪些信息源會(huì)得到有用的結(jié)果則是很困難的。另外,當(dāng)實(shí)體收集數(shù)據(jù)時(shí)(例如機(jī)器人、衛(wèi)星或人類),我們必須對(duì)測(cè)量方法進(jìn)行規(guī)劃,盡量減少智能體隨時(shí)間移動(dòng)所造成的成本增加。我們將這種抽象的問題稱為“具身自適應(yīng)感知(embodied adaptive sensing)”。
針對(duì)這一問題,我們提出了新的解決方法,其中機(jī)器人必須穿越它所在的環(huán)境后確定位置或目標(biāo)物體。自適應(yīng)感知涵蓋了機(jī)器人研究中的很多問題,例如快速定位污染物或放射性資源的泄漏、在搜救中找尋被困者。在這些情況下,設(shè)計(jì)一種能盡快返回正確結(jié)果的感知軌跡是很重要的。
本文我們以放射物泄漏問題(RSS)為例,無人機(jī)需要確定環(huán)境中k-最大的放射性輻射源,k是用戶定義的參數(shù)。RSS是自適應(yīng)感知問題中非常有趣的案例,因?yàn)槠渲袝?huì)遇到多種復(fù)雜的背景噪聲(放射源周圍有很多放射性物質(zhì))。
于是,我們提出了AdaSearch,這是一種用于通用自適應(yīng)感知問題的連續(xù)消除式的框架,我們?cè)诜派湓磳ふ业沫h(huán)境下測(cè)試它。AdaSearch在環(huán)境中的每一點(diǎn)都能將泄漏率控制在置信區(qū)間中。利用這些置信區(qū)間,算法經(jīng)過迭代確定了一系列可能泄漏點(diǎn),最終選出唯一的一個(gè),清除掉其他的。
將具身搜索看作多重假設(shè)的測(cè)試場(chǎng)景
傳統(tǒng)上,機(jī)器人領(lǐng)域?qū)⒕呱硭阉鳎╡mbodied search)看作持續(xù)的運(yùn)動(dòng)計(jì)劃問題,其中機(jī)器人必須平衡環(huán)境探索和對(duì)高效軌跡的選擇。這就催生了既可以進(jìn)行路線優(yōu)化,又可以進(jìn)行環(huán)境探索的方法,可以用滾動(dòng)時(shí)域控制(receding horizon control)進(jìn)行優(yōu)化。而我們通過假設(shè)檢驗(yàn)測(cè)試,將該問題看作序列最佳動(dòng)作定義。
在假設(shè)檢驗(yàn)測(cè)試中,它的目標(biāo)是在多種分散問題上得出結(jié)論。給定智能體一系列測(cè)量動(dòng)作N,每個(gè)都能根據(jù)固定分布生成觀察結(jié)果。
智能體的目標(biāo)是學(xué)習(xí)這些N個(gè)觀察分布中的預(yù)指定特征。例如,我們以向新客戶展示產(chǎn)品A或產(chǎn)品B為例,記錄他們對(duì)該產(chǎn)品的評(píng)價(jià),從而表示統(tǒng)計(jì)學(xué)中的A/B測(cè)試。這里的N=2,因?yàn)橹挥袃蓚€(gè)動(dòng)作:展示A和展示B。而我們要研究的目標(biāo)特征就是哪個(gè)產(chǎn)品更受歡迎。根據(jù)我們收集到的偏好信息,對(duì)這些樣本以及置信區(qū)間進(jìn)行跟蹤記錄,分別用置信下限和上限對(duì)產(chǎn)品進(jìn)行定義。隨著收集的評(píng)價(jià)越多,我們對(duì)每個(gè)產(chǎn)品的偏好估計(jì)就越準(zhǔn)確。最終可以用一個(gè)結(jié)論來定義B比A更受歡迎:如果B的置信下限比A的置信上限還要高,那么我們可以認(rèn)為B比A更受歡迎。
而在環(huán)境感知的情況下,每個(gè)動(dòng)作都要從一定位置和方向讀取傳感器。通常來說,智能體的目標(biāo)是確定哪個(gè)方向能測(cè)量出最多的觀測(cè)信號(hào),或者哪一系列的k動(dòng)作能得到最大的平均觀測(cè)。為了這一目標(biāo),智能體可能會(huì)按順序選擇動(dòng)作,通過此前的觀察選擇信息量更多的動(dòng)作。
乍一看,序列最佳動(dòng)作確定可能對(duì)移動(dòng)的具身感知智能體來說太抽象了。智能體完全可以不考慮潛在成本隨機(jī)選擇動(dòng)作。但是,抽象的動(dòng)作確定是非常強(qiáng)大的。通過精準(zhǔn)的統(tǒng)計(jì)語言實(shí)現(xiàn)具身搜索問題,我們提出了與每種感知?jiǎng)幼鞣浅O嚓P(guān),且置信度很高的觀察方法,確定了未來要做的一系列動(dòng)作。
我們提出的AdaSearch用序列最佳動(dòng)作定義得到的置信區(qū)間和全局軌跡規(guī)劃,實(shí)現(xiàn)了漸進(jìn)最優(yōu)的測(cè)量復(fù)雜度,并能有效的分?jǐn)傔\(yùn)動(dòng)成本。
放射源尋找
為了驗(yàn)證它的效果,我們會(huì)用AdaSearch尋找放射性元素唯一一個(gè)泄漏點(diǎn)。我們將環(huán)境模擬成一個(gè)平面網(wǎng)格,如下所示。其中的紅點(diǎn)是放射性元素集中的區(qū)域。但是定位這一點(diǎn)非常難,因?yàn)閭鞲衅鲿?huì)被其他紫色的點(diǎn)(背景輻射)干擾。信息的收集由配有傳感器的無人機(jī)進(jìn)行,目標(biāo)就是設(shè)計(jì)一個(gè)路線,我們能通過傳感器收集來的觀測(cè)信息,盡快定位放射點(diǎn)的位置。
AdaSearch
我們的AdaSearch算法結(jié)合了全局收斂計(jì)劃和自適應(yīng)感知。在無人機(jī)第一次通過網(wǎng)格時(shí),會(huì)先均勻地收集環(huán)境信息。
第一次觀察后,我們能取消一些明顯不合適的區(qū)域。如果在平均值周圍的置信上限小于任何區(qū)間的最大下限,該點(diǎn)則會(huì)被消除,表示該點(diǎn)不是目標(biāo)區(qū)域。
在下一次探索,AdaSearch會(huì)更仔細(xì)地搜索剩余點(diǎn),直到找到目標(biāo)。
Baseline
我們將AdaSearch和經(jīng)過相同案例訓(xùn)練的信息最大化方法——InfoMax進(jìn)行比較。但不幸的是,對(duì)于大型空間的搜索,實(shí)時(shí)計(jì)算無法支持路線規(guī)劃或者參數(shù)化。這可能導(dǎo)致算法變得非常貪婪,會(huì)花大量時(shí)間找尋錯(cuò)誤的原因。
為了區(qū)分我們的置信區(qū)間所帶來的影響和全局規(guī)劃啟發(fā)法,我們用簡(jiǎn)單的全局規(guī)劃方法——NaiveSearch作為第二種baseline。這種方法統(tǒng)一地對(duì)網(wǎng)格采樣,在每個(gè)單元格上都花費(fèi)同樣時(shí)間。
結(jié)果
我們?cè)?4×64米的網(wǎng)格上,用4米的分辨率實(shí)現(xiàn)了三種算法,模擬了放射性源尋找的實(shí)例。結(jié)果我們觀察到,AdaSearch通常比NaiveSearch和InfoMax更快完成。隨著不斷增加背景輻射的水平,NaiveSearch的運(yùn)行時(shí)間越來越慢,但AdaSearch的變化卻不大。
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28632瀏覽量
208025 -
無人機(jī)
+關(guān)注
關(guān)注
230文章
10515瀏覽量
181873 -
智能體
+關(guān)注
關(guān)注
1文章
164瀏覽量
10606
原文標(biāo)題:AdaSearch:用連續(xù)消除法實(shí)現(xiàn)自適應(yīng)感知,快速精準(zhǔn)定位
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論