CVPR 2019 接收論文編號公布以來,AI科技大本營開始陸續(xù)為大家介紹一些優(yōu)秀論文。今天推薦的論文,將與大家一起探討一種在視覺語言導(dǎo)航任務(wù)中提出的新方法,來探索未知環(huán)境。
作者
這篇論文是 UC Santa Barbara 大學(xué)(加州大學(xué)圣巴巴拉分校)與微軟研究院、Duke 大學(xué)合作完成,第一作者系 UC Santa Barbara 大學(xué)的王鑫。
據(jù) UC Santa Barbara 計算機科學(xué)系助理教授王威廉在其個人微博上發(fā)表的喜訊,這篇論文的一作是其組內(nèi)的成員,獲得了 3 個 Strong Accept,在 5165 篇投稿文章中審稿得分排名第一,并且這篇論文已經(jīng)確定將在 6 月的 CVPR 會議上進行報告。
這篇論文解決的任務(wù) vision-language navigation(VLN)我們之前介紹的并不多,所以,這次營長會先給大家簡單介紹 VLN,然后從這項任務(wù)存在的難點到解決方法、實驗效果等方面為大家介紹,感興趣的小伙伴們可以從文末的地址下載論文,詳細閱讀。
什么是 VLN?
視覺語言導(dǎo)航(vision-language navigation, VLN)任務(wù)指的是引導(dǎo)智能體或機器人在真實三維場景中能理解自然語言命令并準確執(zhí)行。結(jié)合下面這張圖再形象、通俗一點解釋:假如智能體接收到“向右轉(zhuǎn),徑直走向廚房,然后左轉(zhuǎn),經(jīng)過一張桌子后進入走廊...”等一系列語言命令,它需要分析指令中的物體和動作指令,在只能看到一部分場景內(nèi)容的情況下,腦補整個全局圖,并正確執(zhí)行命令。所以這是一個結(jié)合 NLP 和 CV 兩大領(lǐng)域,一項非常有挑戰(zhàn)性的任務(wù)。
難點
雖然我們理解這項任務(wù)好像不是很難,但是放到 AI 智能體上并不像我們理解起來那么容易。對 AI 智能體來說,這項任務(wù)通常存在三大難點:
難點一:跨模態(tài)的基標(biāo)對準(cross-modal grounding);簡單解釋就是將NLP 的指令與 CV 場景相對應(yīng)。
難點二:不適定反饋(ill-posed feedback);就是通常一句話里面包含多個指令,但并不是每個指令都會進行反饋,只有最終完成任務(wù)才有反饋,所以難以判斷智能體是否完全按照指令完成任務(wù)。
難點三:泛化能力問題;由于環(huán)境差異大,VLN 的模型難以泛化。
那這篇論文中,作者又做了哪些工作,獲得了評委們的一致青睞,獲得了 3 個 Strong Accept 呢?方法來了~
方法
1、RCM(Reinforced Cross-Modal Matching)模型
針對第一和第二難點,論文提出了一種全新的強化型跨模態(tài)匹配(RCM)方法,用強化學(xué)習(xí)方法將局部和全局的場景聯(lián)系起來。
RCM 模型主要由兩個模塊構(gòu)成:推理導(dǎo)航器和匹配度評估器。如圖所示,通過訓(xùn)練其中綠色的導(dǎo)航器,讓它學(xué)會理解局部的跨模態(tài)場景,推斷潛在的指令,并生成一系列動作序列。另外,論文還設(shè)置了匹配度評估器(Matching Critic)和循環(huán)重建獎勵機制,用于評價原始指令與導(dǎo)航器生成的軌跡之間的對齊情況,幫助智能體理解語言輸入,并且懲罰不符合語言指令的軌跡。
以上的方法僅僅是解決了第一個難點,所以論文還提出了一個由環(huán)境驅(qū)動的外部獎勵函數(shù),用于度量每個動作成功的信合和導(dǎo)航器之間的誤差。
2、SIL(Self-supervised Imitation Learning)方法
為了解決第三個難點,論文提出了一種自監(jiān)督模仿學(xué)習(xí)(Self-supervised Imitation Learning, SIL),其目的是讓智能體能夠自主的探索未知的環(huán)境。其具體做法是,對于一個從未見過的語言指令和目標(biāo)位置,導(dǎo)航器會得到一組可能的軌跡并將其中最優(yōu)的軌跡(采用匹配度評估器)保存到緩沖區(qū)中,然后匹配度評估器會使用之前介紹的循環(huán)重建獎勵機制來評估軌跡,SIL方法可以與多種學(xué)習(xí)方法想結(jié)合,通過模仿自己之前的最佳表現(xiàn)來得到更優(yōu)的策略。
測試結(jié)果
1、測試集:R2R(Room-to-Room)Dataset;視覺語言導(dǎo)航任務(wù)中一個真實 3D環(huán)境的數(shù)據(jù)集,包含 7189 條路徑,捕捉了大部分的視覺多樣性,21567 條人工注釋指令,其平均長度為 29 個單詞。
2、評價指標(biāo)
PL:路徑長度(Path Length)
NE:導(dǎo)航誤差(Navigation Error)
OSR:Oracle 成功率(Oracle Success Rate)
SR:成功率( Success Rate)
SPL:反向路徑長度的加權(quán)成功率(Success rate weighted by inverse Path Length)
3、實驗對比:與 SOTA 進行對比,此前在 R2R 數(shù)據(jù)集上效果最優(yōu)的方法。
Baseline:Random、seq2seq、RPA 和 Speaker-Follower。
測試結(jié)果顯示,RCM 模型的效果在 SPL 指標(biāo)上明顯優(yōu)于當(dāng)前的最優(yōu)結(jié)果。
并且在 SIL 方法學(xué)習(xí)后,學(xué)習(xí)效率也有明顯的提高,在見過和未見過的場景驗證集上,并可視化了其內(nèi)部獎勵指標(biāo)。
論文地址:
https://arxiv.org/pdf/1811.10092.pdf
-
智能體
+關(guān)注
關(guān)注
1文章
164瀏覽量
10604 -
自然語言
+關(guān)注
關(guān)注
1文章
291瀏覽量
13384 -
nlp
+關(guān)注
關(guān)注
1文章
489瀏覽量
22071
原文標(biāo)題:CVPR 2019審稿滿分論文:中國博士提出融合CV與NLP的視覺語言導(dǎo)航新方法
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
基于遺傳算法的QD-SOA設(shè)計新方法
![基于遺傳算法的QD-SOA設(shè)計<b class='flag-5'>新方法</b>](https://file1.elecfans.com/web3/M00/02/99/wKgZO2dg2_iAdKqtAAACOVaVKwc137.png)
一種降低VIO/VSLAM系統(tǒng)漂移的新方法
![<b class='flag-5'>一種</b>降低VIO/VSLAM系統(tǒng)漂移的<b class='flag-5'>新方法</b>](https://file1.elecfans.com/web3/M00/02/32/wKgZO2dbqBOAdkLrAABgnDOmV0Y836.png)
大華股份榮獲2024年中國創(chuàng)新方法大賽一等獎
基于視覺語言模型的導(dǎo)航框架VLMnav
利用全息技術(shù)在硅晶圓內(nèi)部制造納米結(jié)構(gòu)的新方法
一種將NeRFs應(yīng)用于視覺定位任務(wù)的新方法
![<b class='flag-5'>一種</b>將NeRFs應(yīng)用于<b class='flag-5'>視覺</b>定位<b class='flag-5'>任務(wù)</b>的<b class='flag-5'>新方法</b>](https://file1.elecfans.com/web1/M00/F3/C8/wKgaoWce8aSAdNRZAAAcymUektY479.png)
SLAM:機器人如何在未知地形環(huán)境中進行導(dǎo)航
一種完全分布式的點線協(xié)同視覺慣性導(dǎo)航系統(tǒng)
![<b class='flag-5'>一種</b>完全分布式的點線協(xié)同<b class='flag-5'>視覺</b>慣性<b class='flag-5'>導(dǎo)航</b>系統(tǒng)](https://file1.elecfans.com/web2/M00/08/BD/wKgZomb6SSCAIYJfAAUtSR_Z5EI958.jpg)
一種半動態(tài)環(huán)境中的定位方法
![<b class='flag-5'>一種</b>半動態(tài)<b class='flag-5'>環(huán)境</b>中的定位<b class='flag-5'>方法</b>](https://file1.elecfans.com/web2/M00/08/BC/wKgZomb6SAWAKBiCAAH34a4bVs4804.jpg)
一種無透鏡成像的新方法
![<b class='flag-5'>一種</b>無透鏡成像的<b class='flag-5'>新方法</b>](https://file1.elecfans.com//web2/M00/FD/50/wKgZomaZlSKAXJd7AAD91lO42tY599.jpg)
一種利用光電容積描記(PPG)信號和深度學(xué)習(xí)模型對高血壓分類的新方法
使隱形可見:新方法可在室溫下探測中紅外光
![使隱形可見:<b class='flag-5'>新方法</b>可在室溫下探測中紅外光](https://file1.elecfans.com//web2/M00/CF/AB/wKgaomYhnzOALm_YAABXf_eZcXA235.jpg)
評論