一区二区三区在线免费观看视频,色男人网,水蜜臀

CVPR 2019 接收論文編號公布以來，AI 科技大本營開始陸續(xù)為大家介紹一些優(yōu)秀論文。今天推薦的論文，將與大家一起探討一種在視覺語言導(dǎo)航任務(wù)中提出的新方法，來探索未知環(huán)境。

作者

這篇論文是 UC Santa Barbara 大學(xué)（加州大學(xué)圣巴巴拉分校）與微軟研究院、Duke 大學(xué)合作完成，第一作者系 UC Santa Barbara 大學(xué)的王鑫。

據(jù) UC Santa Barbara 計算機科學(xué)系助理教授王威廉在其個人微博上發(fā)表的喜訊，這篇論文的一作是其組內(nèi)的成員，獲得了 3 個 Strong Accept，在 5165 篇投稿文章中審稿得分排名第一，并且這篇論文已經(jīng)確定將在 6 月的 CVPR 會議上進行報告。

這篇論文解決的任務(wù) vision-language navigation（VLN）我們之前介紹的并不多，所以，這次營長會先給大家簡單介紹 VLN，然后從這項任務(wù)存在的難點到解決方法、實驗效果等方面為大家介紹，感興趣的小伙伴們可以從文末的地址下載論文，詳細閱讀。

什么是 VLN？

視覺語言導(dǎo)航（vision-language navigation, VLN）任務(wù)指的是引導(dǎo)智能體或機器人在真實三維場景中能理解自然語言命令并準確執(zhí)行。結(jié)合下面這張圖再形象、通俗一點解釋：假如智能體接收到“向右轉(zhuǎn)，徑直走向廚房，然后左轉(zhuǎn)，經(jīng)過一張桌子后進入走廊...”等一系列語言命令，它需要分析指令中的物體和動作指令，在只能看到一部分場景內(nèi)容的情況下，腦補整個全局圖，并正確執(zhí)行命令。所以這是一個結(jié)合 NLP 和 CV 兩大領(lǐng)域，一項非常有挑戰(zhàn)性的任務(wù)。

難點

雖然我們理解這項任務(wù)好像不是很難，但是放到 AI 智能體上并不像我們理解起來那么容易。對 AI 智能體來說，這項任務(wù)通常存在三大難點：

難點一：跨模態(tài)的基標(biāo)對準（cross-modal grounding）；簡單解釋就是將NLP 的指令與 CV 場景相對應(yīng)。

難點二：不適定反饋（ill-posed feedback）；就是通常一句話里面包含多個指令，但并不是每個指令都會進行反饋，只有最終完成任務(wù)才有反饋，所以難以判斷智能體是否完全按照指令完成任務(wù)。

難點三：泛化能力問題；由于環(huán)境差異大，VLN 的模型難以泛化。

那這篇論文中，作者又做了哪些工作，獲得了評委們的一致青睞，獲得了 3 個 Strong Accept 呢？方法來了~

方法

1、RCM（Reinforced Cross-Modal Matching）模型

針對第一和第二難點，論文提出了一種全新的強化型跨模態(tài)匹配（RCM）方法，用強化學(xué)習(xí)方法將局部和全局的場景聯(lián)系起來。

RCM 模型主要由兩個模塊構(gòu)成：推理導(dǎo)航器和匹配度評估器。如圖所示，通過訓(xùn)練其中綠色的導(dǎo)航器，讓它學(xué)會理解局部的跨模態(tài)場景，推斷潛在的指令，并生成一系列動作序列。另外，論文還設(shè)置了匹配度評估器（Matching Critic）和循環(huán)重建獎勵機制，用于評價原始指令與導(dǎo)航器生成的軌跡之間的對齊情況，幫助智能體理解語言輸入，并且懲罰不符合語言指令的軌跡。

以上的方法僅僅是解決了第一個難點，所以論文還提出了一個由環(huán)境驅(qū)動的外部獎勵函數(shù)，用于度量每個動作成功的信合和導(dǎo)航器之間的誤差。

2、SIL（Self-supervised Imitation Learning）方法

為了解決第三個難點，論文提出了一種自監(jiān)督模仿學(xué)習(xí)（Self-supervised Imitation Learning, SIL），其目的是讓智能體能夠自主的探索未知的環(huán)境。其具體做法是，對于一個從未見過的語言指令和目標(biāo)位置，導(dǎo)航器會得到一組可能的軌跡并將其中最優(yōu)的軌跡（采用匹配度評估器）保存到緩沖區(qū)中，然后匹配度評估器會使用之前介紹的循環(huán)重建獎勵機制來評估軌跡，SIL方法可以與多種學(xué)習(xí)方法想結(jié)合，通過模仿自己之前的最佳表現(xiàn)來得到更優(yōu)的策略。

測試結(jié)果

1、測試集：R2R（Room-to-Room）Dataset；視覺語言導(dǎo)航任務(wù)中一個真實 3D環(huán)境的數(shù)據(jù)集，包含 7189 條路徑，捕捉了大部分的視覺多樣性，21567 條人工注釋指令，其平均長度為 29 個單詞。

2、評價指標(biāo)

PL：路徑長度（Path Length）

NE：導(dǎo)航誤差（Navigation Error）

OSR：Oracle 成功率（Oracle Success Rate）

SR：成功率（ Success Rate）

SPL：反向路徑長度的加權(quán)成功率（Success rate weighted by inverse Path Length）

3、實驗對比：與 SOTA 進行對比，此前在 R2R 數(shù)據(jù)集上效果最優(yōu)的方法。

Baseline：Random、seq2seq、RPA 和 Speaker-Follower。

測試結(jié)果顯示，RCM 模型的效果在 SPL 指標(biāo)上明顯優(yōu)于當(dāng)前的最優(yōu)結(jié)果。

并且在 SIL 方法學(xué)習(xí)后，學(xué)習(xí)效率也有明顯的提高，在見過和未見過的場景驗證集上，并可視化了其內(nèi)部獎勵指標(biāo)。

論文地址：

https://arxiv.org/pdf/1811.10092.pdf

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

智能體

智能體

+關(guān)注

關(guān)注
1

文章
164

瀏覽量
10604
自然語言

自然語言

+關(guān)注

關(guān)注
1

文章
291

瀏覽量
13384
nlp

nlp

+關(guān)注

關(guān)注
1

文章
489

瀏覽量
22071

原文標(biāo)題：CVPR 2019審稿滿分論文：中國博士提出融合CV與NLP的視覺語言導(dǎo)航新方法

文章出處：【微信號：rgznai100，微信公眾號：rgznai100】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

基于遺傳算法的QD-SOA設(shè)計新方法

了QD-SOA的設(shè)計，提出了一種基于遺傳算法的QD-SOA設(shè)計新方法。由于具有用于設(shè)計的模型是必不可少的，因此在第一步中獲得數(shù)值模型。然后，

發(fā)表于 12-17 09:58 ?135次閱讀

基于遺傳算法的QD-SOA設(shè)計<b class='flag-5'>新方法</b>

一種降低VIO/VSLAM系統(tǒng)漂移的新方法

本文提出了一種新方法，通過使用點到平面匹配將VIO/VSLAM系統(tǒng)生成的稀疏3D點云與數(shù)字孿生體進行對齊，從而實現(xiàn)精確且全球一致的定位，無需視覺

發(fā)表于 12-13 11:18 ?226次閱讀

大華股份榮獲2024年中國創(chuàng)新方法大賽一等獎

近日，由中國科協(xié)、重慶市人民政府舉辦的2024年中國創(chuàng)新方法大賽全國總決賽在重慶落下帷幕。大華股份靈活運用創(chuàng)新方法、突破行業(yè)性技術(shù)難題，憑借“不懼強光，分毫必現(xiàn)，基于TRIZ的強逆光銳捕技術(shù)”項目，斬獲全國

發(fā)表于 12-04 17:19 ?383次閱讀

基于視覺語言模型的導(dǎo)航框架VLMnav

本文提出了一種將視覺語言模型（VLM）轉(zhuǎn)換為端到端導(dǎo)航策略的具體框架。不依賴于感知、規(guī)劃和控制之間的分離，而是使用VLM

發(fā)表于 11-22 09:42 ?239次閱讀

利用全息技術(shù)在硅晶圓內(nèi)部制造納米結(jié)構(gòu)的新方法

本文介紹了一種利用全息技術(shù)在硅晶圓內(nèi)部制造納米結(jié)構(gòu)的新方法。研究人員提出了一種在硅晶圓內(nèi)部制造

發(fā)表于 11-18 11:45 ?369次閱讀

一種將NeRFs應(yīng)用于視覺定位任務(wù)的新方法

視覺定位旨在估計在已知環(huán)境中捕獲的給定圖像的旋轉(zhuǎn)和位置，大致可以分為絕對姿態(tài)回歸（APR），場景坐標(biāo)回歸（SCR）和分層方法（HM）。

發(fā)表于 10-28 10:03 ?257次閱讀

SLAM：機器人如何在未知地形環(huán)境中進行導(dǎo)航

的傳統(tǒng)導(dǎo)航方法需要預(yù)先準備好的地圖，但在未知地區(qū)，如果不穿越該區(qū)域，就不可能獲得這樣的地圖。這是機器人技術(shù)領(lǐng)域的一個典型難題，通常被稱為“雞和蛋”的問題。機器人如何在沒有地圖的情況下在

發(fā)表于 10-02 16:37 ?637次閱讀

一種完全分布式的點線協(xié)同視覺慣性導(dǎo)航系統(tǒng)

在本文中，我們提出了一種完全分布式的點線協(xié)同視覺慣性導(dǎo)航系統(tǒng)。我們通過蒙特卡羅模擬和真實環(huán)境數(shù)據(jù)

發(fā)表于 09-30 14:45 ?488次閱讀

一種半動態(tài)環(huán)境中的定位方法

和終身定位方法，以識別非靜態(tài)環(huán)境中的半動態(tài)物體，并提出了一個通用框架，將主流物體檢測算法與建圖和定位算法集成在一起。建圖

發(fā)表于 09-30 14:40 ?305次閱讀

一種無透鏡成像的新方法

使用OAM-HHG EUV光束對高度周期性結(jié)構(gòu)進行成像的EUV聚光顯微鏡為了研究微電子或光子元件中的納米級圖案，一種基于無透鏡成像的新方法可以實現(xiàn)近乎完美的高分辨率顯微鏡。層析成像是一種強大的無

發(fā)表于 07-19 06:20 ?428次閱讀

一種利用光電容積描記（PPG）信號和深度學(xué)習(xí)模型對高血壓分類的新方法

使用的方法將在以下部分中詳細闡述。 AlexNet是一種深度卷積神經(jīng)網(wǎng)絡(luò)，由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton在2012年提出

發(fā)表于 05-11 20:01

使隱形可見：新方法可在室溫下探測中紅外光

MIR振動輔助發(fā)光(MIRVAL) 來自伯明翰大學(xué)和劍橋大學(xué)的科學(xué)家們開發(fā)了一種新方法，利用量子系統(tǒng)在室溫下探測中紅外線(MIR)光。這項研究成果發(fā)表在《自然·光子學(xué)》雜志上，

發(fā)表于 04-19 06:31 ?347次閱讀

微軟提出通過SSD固態(tài)硬盤降低顯存占用的新方法

據(jù)3月25日發(fā)布的信息顯示，微軟近期通過了一項專供電專利成功提出一種新型SSD驅(qū)動器緩存技術(shù)來降低顯存占用量，這將會為未來的DRX API更新后的游戲

發(fā)表于 03-25 10:39 ?546次閱讀

軋機牌坊滑板壓虧修復(fù)的新方法

電子發(fā)燒友網(wǎng)站提供《軋機牌坊滑板壓虧修復(fù)的新方法.docx》資料免費下載

發(fā)表于 03-14 16:16 ?0次下載

氫壓機軸承位磨損維修的新方法

電子發(fā)燒友網(wǎng)站提供《氫壓機軸承位磨損維修的新方法.docx》資料免費下載

發(fā)表于 03-01 16:23 ?0次下載