色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

融合3D場景幾何信息的視覺定位算法

機器人創新生態 ? 來源:機器人創新生態 ? 作者:機器人創新生態 ? 2020-11-13 10:50 ? 次閱讀

視覺定位是自動駕駛和移動機器人領域的核心技術之一,旨在估計移動平臺當前的全局位姿,為環境感知和路徑規劃等其他環節提供參考和指導。國內知名互聯網公司-美團無人配送團隊長期在該方面進行深入探索,積累了大量創新性工作。不久前,視覺定位組提出的融合3D場景幾何信息的視覺定位算法ICRA2020收錄,本文將對該方法進行介紹。

背景

1. 視覺定位算法介紹1.1 傳統視覺定位算法 傳統的視覺定位方法通常需要預先構建視覺地圖,然后在定位階段,根據當前圖像和地圖的匹配關系來估計相機的位姿(位置和方向)。在這種定位框架中,視覺地圖通常用帶有三維信息和特征描述子的稀疏關鍵點表示。然后,通過當前圖像與地圖之間的關鍵點匹配獲取2D-3D對應關系,利用PnP結合RANSAC的策略來估計相機位姿。其中,獲得準確的2D-3D對應關系對定位結果至關重要。近年來,許多工作為提高2D-3D的匹配精度進行了各方面的探索,但大多傳統方法[1,3,4]還是基于SIFT、SURFORB等底層特征,很難處理具有挑戰性(光照改變或季節改變)的情況。

1.2 深度學習視覺定位算法 最近幾年,融合神經網絡的視覺定位算法被廣泛研究,大家希望用神經網絡取代傳統方法中的部分模塊(例如關鍵點和描述子生成)或者直接端到端的估計相機位姿。本論文研究內容屬于對后面這種類型算法的優化。端到端視覺定位算法用神經網絡的權值來表征場景信息,網絡的訓練過程實現建圖,定位由網絡的推理過程實現。PoseNet[2]是第一個基于神經網絡的端到端視覺定位算法,它利用GoogLeNet的基礎架構直接對輸入的RGB圖像進行6DoF相機位姿回歸。在該思路的基礎上,后續的改進包括加深網絡結構、增加約束關系、融合時序信息和多任務聯合建模等,例如,[5]加入貝葉斯CNN來建模精度不確定性;[6]將網絡改為encoder-decoder結構;[7]和[8]引入了LSTM,利用視頻流的時間和運動平滑性約束網絡學習;[9]和[10]提出了多任務學習框架,聯合建模視覺定位、里程計估計和語義分割三個任務,以上的工作都取得了定位精度的提升。

1.3 研究目的及意義 在上述提到的優化方法中,雖然[9]和[10]在定位精度上表現的更有優勢,但是往往需要語義分割等大量的標注信息,在大規模的場景下代價太大。對于加深網絡結構的優化方法,又可能帶來訓練的難度,因此,我們認為合理利用容易獲取的信息來優化約束關系,具有更好的普適性和靈活性,這也是本研究的動機之一。一些其他研究者也在這方面開展了工作,例如受傳統方法的啟發,幾何一致性誤差、重投影誤差、相對變換誤差等被構建為正則化項加入損失函數中。這些改進比僅公式化預測位姿和真值位姿之間歐式距離的效果更好,并且不受網絡結構的約束,可以靈活的適用于各種網絡做進一步的性能提升。

在此基礎上,我們進一步探索以更好的方式用幾何信息來約束網絡權重的更新。在SLAM應用和無人車平臺中,深度信息是不可或缺的。例如,室內情況,利用現有的深度估計算法,可以直接從結構光相機、ToF相機或立體相機中獲取深度信息;室外環境,通常采用三維激光雷達來獲取深度/距離信息。因此,我們的改進也對深度信息加以利用。此外,我們使用了光度一致性的假設,也就是說,根據三維幾何知識,當在多個圖像中觀察三維場景中的同一個點時,我們認為其對應的像素強度應該是相同的,這也被用于許多視覺里程計或光流算法。受此啟發,我們構建了光度差損失項,并自然而然地搭配結構相似性(SSIM)損失項。前者為像素級約束,后者為圖像級約束,和常用的歐式距離一起作為網絡的損失函數,訓練過程中約束網絡權重的更新。我們優化后的損失函數融合了運動信息、3D場景幾何信息和圖像內容,幫助訓練過程更高效、定位效果更準確。

2. 相關工作介紹2.1 幾何一致性約束 幾何一致性約束最近被用來幫助提高位姿回歸的準確性,并被證明比單獨使用歐氏距離約束更有效。[9]和[10]通過懲罰與相對運動相矛盾的位姿預測,將幾何一致性引入到損失函數中。[11]利用圖像對之間的相對運動一致性來約束絕對位姿的預測。[12]引入了重投影誤差,使用真值和預測位姿分別將3D點投影到2D圖像平面上,將像素點位置的偏差作為約束項。這些方法都被認為是當時使用幾何一致性損失的最先進方法。在本研究中,我們探索了一個3D場景幾何約束即光度差約束,通過聚合三維場景幾何結構信息,使得網絡不僅能將預測的位姿與相機運動對齊,還能利用圖像內容的光度一致性。

2.2 光度差約束 光度差約束通常用于處理帶監督或無監督學習的相對位姿回歸、光流估計和深度預測。例如,[13]研究了視頻序列的時間關系,為深度補全網絡提供額外的監督。[14]利用無監督學習的稠密深度和帶有光度差損失的相機位姿構建了神經網絡,以學習場景級一致性運動。[15]提出了一種多任務無監督學習稠密深度、光流和ego-motion的方法,其中光度差約束對不同任務之間的一致性起著重要作用。由于光度差約束在相對位姿回歸和深度預測中被證明是有效的,我們引入并驗證了它在絕對位姿預測中的有效性。 與上述工作相比,我們的研究擴展了以下幾點工作:

搭建了一個深度神經網絡模型,可以直接從輸入圖像估計相應的相機絕對位姿。

利用深度傳感器信息,構建了 3D 場景幾何約束來提高位姿預測精度。并且,稀疏深度信息足以獲得顯著的定位精度提升,這意味著我們的方法可以適用于任何類型的深度傳感器(稀疏或稠密)。

在室內和室外數據集上進行了廣泛的實驗評估,證明了加入 3D 場景幾何約束后,可以提高網絡的定位精度,并且這一約束可以靈活地加入到其他網絡中,幫助進一步提高算法性能。

算法介紹

1. 算法框架

本研究提出的算法框架和數據流如圖a所示,藍色部分是算法中的神經網絡部分(圖b),綠色部分是warping計算過程,黃色部分是網絡的損失函數項,只有藍色部分包含可訓練的權重。 藍色部分的網絡模型采用主流的ResNet-50網絡,保留原來的block設置,并在最后一個block后加入3個全連接層,分別預測3維的translation(x)和3維的rotation(q)。網絡的訓練過程需要輸入兩張連續的有共視的圖像以及其中一張圖像的深度圖,建立真值位姿和預測位姿之間的歐式距離約束作為損失項。大部分先前文獻中的工作僅以這個損失項作為損失函數,我們的工作則進一步融入了3D場景幾何信息,通過利用比較容易獲取的深度信息將這個約束公式化為光度差和SSIM。相比之下,3D場景幾何約束是像素級的,可以利用更多的信息包括相機運動,場景的三維結構信息和圖像內容相關的光度信息,從而使網絡的學習更加高效,更好地朝著全局極小值的方向收斂。

2.Warping計算 綠色部分的warping計算利用連續兩張圖像之間的相對位姿變換和其中一張圖像的深度圖,將本張圖像上的像素投影到另一張圖像的視角上,生成視warping后的圖像,計算公式如下所示。

在warping計算中,從二維圖像像素重建三維結構需要深度信息,實際應用中我們可以從深度傳感器(結構光相機、ToF相機和三維激光雷達)獲取深度信息或通過相關算法回歸深度,例如從兩個重疊的圖像中提取匹配點的三角測量方法。為了不引入誤差,我們更傾向于選擇來自深度傳感器的比較魯棒的深度信息。為了方便反向傳播的梯度計算,我們采用雙線性插值作為采樣機制,生成與當前圖像格式相同的合成圖像。此外,這部分計算不含可訓練的參數,并且inference過程不需要進行這部分的計算,因此不會帶來額外的時間或者資源開銷。 3. 損失函數 在訓練過程中,應用了三個約束條件來幫助訓練收斂:一個經典的歐式距離損失項來約束預測位姿和真值位姿的距離,歐式距離損失項此處不再贅述,直接給出公式如下:

? 當視角變化較小且環境光不變時,同一個三維點在不同圖像中的光強應該相同。這種光度一致性用于解決許多問題,如光流估計、深度估計、視覺里程計等。在這里,我們使用它來進行絕對位姿估計,并光度差損失項公式化為warping計算后的圖像與原始圖像對應像素點的光度差值: ?

其中,M是用來過濾沒有深度信息或者不服從光度一致性的像素。在我們的實驗中,主要用它來屏蔽兩種類型的像素:移動目標對應的像素和帶有無效深度信息的像素。光度差損失項會約束預測的位姿離真值位姿不遠,以保證在相鄰圖像間進行warping計算后重建的圖像與原始圖像對應像素的光度值一致。考慮到warping計算后,獲得了視角重建后的圖像,自然而然的引入結構相似性約束作為損失項。這個約束反映了場景結構的一致性,計算公式如下所示:

網絡的損失函數定義為三個損失項的加權和,用三個加權系數進行尺度均衡。

實驗結果

為了驗證我們提出的算法的性能,進行了以下實驗: 1. 與其他算法定位結果對比 在7Scene數據集中,除了MapNet[11]在chess場景中的表現稍好之外,我們的方法在其他場景都取得了最優的結果(見table 1)。在所需的訓練時間上,MapNet 需要300個epochs和PoseNet[2]需要多于120個epochs,我們的方法只需要50個epochs。同時,在室外的Oxford robotcar數據集上,我們的方法也取得了較大的定位精度提升。Figure2顯示了在7Scene中隨機挑選的場景的測試結果。很明顯,PoseNet的預測位姿噪聲較大,MapNet表現的更穩定,但預測精度欠佳,我們的定位結果更為精確。

2. 損失項的消融實驗 為了充分驗證我們提出的光度差損失和SSIM損失對視覺定位算法性能提升的貢獻,分別進行兩個訓練:在PoseNet網絡的損失函數中加入光度差損失和SSIM損失后訓練網絡。在我們的算法中去掉這兩項損失項,只在歐式距離的約束下訓練網絡。結果表明加入光度差和SSIM損失項總是能提高網絡的定位性能(詳細結果見論文)。同時,也表明新的損失項可以靈活的加入其他網絡,用于進一步提高定位精度。

3. 深度稀疏實驗 實際視覺定位應用中,并不總是有可靠的稠密深度可用,如果我們的算法在稀疏深度上依然可以表現的很好,則可以證明我們的方法具有較廣泛的適用性。我們把可用的深度隨機稀疏至原來的20%和60%后,重新訓練網絡,最終的結果如Table3所示,定位精度并沒有被嚴重惡化。

4. 自監督方法的實驗 在進行warping計算時,我們用了輸入兩幀圖像的位姿預測結果來計算相對位姿變換,進而做warping計算,單就光度差和SSIM損失項來說,這是一種自監督的學習方法,那么,也可以一幀圖像用預測結果,另一幀用真值來計算相對位姿變換。通過實驗對比這兩種方法,實驗結果(詳細結果見論文)表明,自監督策略的結果更優。除了網絡被訓練的次數更多這一原因外,它有助于網絡以一種更自然的方式學習相機位姿的連續性和一致性,因為對于共視的圖像,其相應的位姿應該是高度相關的。

結論與展望

本文提出了一種新的視覺定位算法,搭建一個新的網絡框架端到端的估計相機位姿,在對網絡約束關系的優化中,通過融合3D場景幾何結構、相機運動和圖像信息,引入了3D場景幾何約束,幫助監督網絡訓練,提高網絡的定位精度。實驗結果表明,我們的方法優于以往的同類型工作。并且,在不同的網絡中加入新的約束關系后可以進一步提高定位精度。

基于深度學習的視覺定位算法正在被廣泛而又深入的研究,無論是提升算法的精度還是增強實際場景的適用性,各方面的嘗試和努力都是迫切需要的。希望在未來的工作中,能夠通過融入語義信息或者采用從粗到精多階段級連的方法,在室內外場景上實現更高精度更加魯棒的位姿估計,更多細節見論文.

論文原文:3D Scene Geometry-Aware Constraint for Camera Localization with Deep Learning 鏈接:https://arxiv.org/abs/2005.06147 參考文獻 [1] Ke, Yan and R. Sukthankar. “PCA-SIFT: a more distinctive representation for local image descriptors.” Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2004. [2] A. Kendall, M. Grimes, and R. Cipolla, “Posenet: A convolutional network for real-time 6-dof camera relocalization,” in ICCV, 2015. [3] Bay, Herbert, et al. “Speeded-up robust features (SURF).” Computer vision and image understanding 110.3 (2008): 346-359.

[4] Rublee, Ethan, et al. “ORB:An efficient alternative to SIFT or SURF.” ICCV. Vol. 11. No. 1. 2011. [5] A. Kendall and R. Cipolla,“Modelling uncertainty in deep learning for camera relocalization,” ICRA, 2016. [6] I. Melekhov, J. Ylioinas, J. Kannala, and E. Rahtu, “Image-based localization using hourglass networks,” arXiv:1703.07971, 2017. [7] F. Walch, C. Hazirbas, et al.,“Image-based localization using lstms for structured feature correlation,” in ICCV, 2017. [8] Xue, Fei, et al. “Beyond Tracking: Selecting Memory and RefiningPoses for Deep Visual Odometry.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019

[9] A. Valada, N. Radwan, and W. Burgard, “Deep auxiliary learning for visual localization and odometry,” in ICRA, 2018. [10] N. Radwan, A. Valada, W. Burgard, “VLocNet++: Deep MultitaskLearning for Semantic Visual Localization and Odometry”, IEEE Robotics and Automation Letters (RA-L), 3(4): 4407-4414, 2018. [11] Brahmbhatt, Samarth, et al. “Geometry-aware learning of maps for camera localization.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. [12] A. Kendall and R. Cipolla, “Geometric loss functions for camera pose regression with deep learning,” CVPR, 2017. [13] Ma, Fang chang, Guilherme Venturelli Cavalheiro, and Sertac Karaman.“Self-supervised sparse-to-dense: Self-supervised depth completion from lidar and monocular camera.” 2019 International Conference on Robotics and Automation (ICRA). IEEE, 2019. [14] Zhou, Tinghui, et al. “Unsupervised Learning of Depth and Ego-Motion from Video.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017. [15] Yin, Zhichao, and Jianping Shi. “Geonet: Unsupervised learning of dense depth, optical flow and camera pose.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.

責任編輯:xj

原文標題:機器視覺干貨 | 場景幾何約束在視覺定位中的探索

文章出處:【微信公眾號:機器人創新生態】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    211

    文章

    28380

    瀏覽量

    206918
  • 機器視覺
    +關注

    關注

    161

    文章

    4369

    瀏覽量

    120282
  • 視覺定位
    +關注

    關注

    5

    文章

    51

    瀏覽量

    12389

原文標題:機器視覺干貨 | 場景幾何約束在視覺定位中的探索

文章出處:【微信號:robotplaces,微信公眾號:機器人創新生態】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    3D 視覺定位技術:汽車零部件制造的智能變革引擎

    在汽車零部件制造領域,傳統工藝正面臨著前所未有的挑戰。市場對于零部件精度與生產效率近乎苛刻的要求,促使企業尋求突破之道。而 3D 視覺定位技術,為汽車零部件制造開啟了精準定位與智能化生
    的頭像 發表于 12-10 17:28 ?209次閱讀
    <b class='flag-5'>3D</b> <b class='flag-5'>視覺</b><b class='flag-5'>定位</b>技術:汽車零部件制造的智能變革引擎

    一種全新開源SfM框架MASt3R

    運動恢復結構(SfM)是計算機視覺領域一個長期存在的問題,旨在根據每個相機拍攝的圖像來估計場景3D幾何結構以及觀測該場景的相機的參數。由于
    的頭像 發表于 10-28 14:13 ?519次閱讀
    一種全新開源SfM框架MASt<b class='flag-5'>3</b>R

    紫光展銳助力全球首款AI裸眼3D手機發布

    1.4億臺,展示了該技術巨大的市場潛力和增長空間。近日,全球首款AI裸眼3D手機——中興遠航3D重磅上市。憑借微米級3D光柵技術、Neovision 3D Anytime突破性的2
    的頭像 發表于 07-15 16:00 ?680次閱讀

    3d場景建模可視化,場景1:1還原

    3D場景建模可視化的技術原理、方法和應用,旨在幫助讀者深入了解這一領域的專業知識。 1.技術原理 數學建模: 三維場景建模基于數學幾何原理,通過點、線、面等基本元素構建物體的
    的頭像 發表于 07-12 14:49 ?276次閱讀

    蘇州吳中區多色PCB板元器件3D視覺檢測技術

    3D視覺檢測相較于2D視覺檢測,有其獨特的優勢,不受產品表面對比度影響,精確檢出產品形狀,可以測出高度(厚度)、體積、平整度等。在實際應用中可以與2
    的頭像 發表于 06-14 15:02 ?404次閱讀
    蘇州吳中區多色PCB板元器件<b class='flag-5'>3D</b><b class='flag-5'>視覺</b>檢測技術

    3D視覺引導方案解決工廠產線上下料難題

    3D視覺引導方案,下料器的擺放精度直接關系到產品的最終質量和生產效率。如何在繁忙的生產線上,確保下料器能夠精準無誤地將工件放置在指定位置,成為了擺在我們面前的一大挑戰。今天,我們就來揭秘我們的
    的頭像 發表于 05-27 15:47 ?406次閱讀
    <b class='flag-5'>3D</b><b class='flag-5'>視覺</b>引導方案解決工廠產線上下料難題

    機器人3D視覺引導系統框架介紹

    通過自主開發的3D掃描儀可獲準確并且快速地獲取場景的點云圖像,通過3D識別算法,可實現在對點云圖中的多種目標物體進行識別和位姿估計。
    發表于 04-29 09:31 ?333次閱讀
    機器人<b class='flag-5'>3D</b><b class='flag-5'>視覺</b>引導系統框架介紹

    解決方案|基于3D視覺技術的鋁合金板件刷油烘干自動化上下料

    針對鋁合金板件刷油烘干上下料過程中的自動化需求,我們提出了一套基于3D視覺引導的解決方案。該方案通過引入先進的3D視覺技術,實現了對板件的高精度識別和
    的頭像 發表于 04-20 17:45 ?321次閱讀
    解決方案|基于<b class='flag-5'>3D</b><b class='flag-5'>視覺</b>技術的鋁合金板件刷油烘干自動化上下料

    包含具有多種類型信息3D模型

    的文件格式流程,其中包含具有多種類型信息3D模型,例如時間、成本、材料屬性、幾何形狀、施工進度、熱屬性等。 BIM在AEC領域中發揮著重要作用。BIM文件允許AE提供項目中所有信息
    發表于 03-28 17:18

    工業自動化,3D視覺在五金件上下料中的應用

    3D視覺引導五金件上下料是一種先進的自動化解決方案,結合了3D視覺技術和機器人技術,實現對五金件的高效、準確上下料操作。以下是關于3D
    的頭像 發表于 02-21 11:38 ?487次閱讀
    工業自動化,<b class='flag-5'>3D</b><b class='flag-5'>視覺</b>在五金件上下料中的應用

    技術基因+自主創新,光鑒科技塑造3D視覺感知新范式

    電子發燒友網報道(文/吳子鵬)根據高工機器人產業研究所(GGII)的統計數據,預計到2027年我國機器視覺市場規模將超過560億元,其中3D視覺市場規模將接近160億元,占比接近三成。目前,3
    的頭像 發表于 01-16 00:22 ?1306次閱讀
    技術基因+自主創新,光鑒科技塑造<b class='flag-5'>3D</b><b class='flag-5'>視覺</b>感知新范式

    一種用于2D/3D圖像處理算法的指令集架構以及對應的算法部署方法

    二維(2D)和三維(3D)雙模視覺信息在自動駕駛、工業機器人、人機交互等前沿領域具有廣泛的應用前景。
    的頭像 發表于 01-05 10:35 ?458次閱讀
    一種用于2<b class='flag-5'>D</b>/<b class='flag-5'>3D</b>圖像處理<b class='flag-5'>算法</b>的指令集架構以及對應的<b class='flag-5'>算法</b>部署方法

    ad中3d封裝放到哪個層

    在廣告中,3D封裝通常放置在視覺設計層。視覺設計是廣告中至關重要的一個層面,通過圖像、顏色和排版等視覺元素來引起目標受眾的注意,并傳達廣告的信息
    的頭像 發表于 01-04 15:05 ?1029次閱讀

    基于3D點云的多任務模型在板端實現高效部署

    對于自動駕駛應用來說,3D 場景感知至關重要。3D點云數據就是具有3D特征的數據。一方面,3D 點云可以直接用來獲取障礙物的距離和大小,以及
    的頭像 發表于 12-28 16:35 ?1457次閱讀
    基于<b class='flag-5'>3D</b>點云的多任務模型在板端實現高效部署

    一文了解3D視覺和2D視覺的區別

    一文了解3D視覺和2D視覺的區別 3D視覺和2D
    的頭像 發表于 12-25 11:15 ?3017次閱讀
    主站蜘蛛池模板: 亚洲国产在线99视频| 国模精品一区二区三区视频| 嫩B人妻精品一区二区三区 | 欧美视频 亚洲视频| 国产亚洲欧美在线中文BT天堂网| 91日本在线观看亚洲精品| 天美传媒 免费观看| 麻豆人妻换人妻X99| 韩国黄色影院| 俄罗斯aaaa一级毛片| 69国产精品人妻无码免费| 亚洲精品国产精品精| 色www精品视频在线观看| 米奇影视999| 精品久久久99大香线蕉| 观赏女性排尿| 666永久视频在线| 亚洲在线2018最新无码| 午夜精品久久久久久99热蜜桃| 青青久久久| 免费麻豆国产黄网站在线观看| 精品手机在线1卡二卡3卡四卡| 国产A级毛片久久久久久久| A片毛片免费视频在线看| 欲插爽乱浪伦骨| 亚洲人成7777| 午夜国产理论| 熟女人妻AV五十路六十路| 牛牛在线国产精品| 老师掀开短裙让我挺进动态| 精品久久久久久久久免费影院| 国产欧美另类久久久精品免费 | 亚洲haose在线观看| 三级aa久久| 日本最新在线不卡免费视频| 欧美丰满熟妇无码XOXOXO| 免费的av不用播放器的| 麻豆国产精品AV色拍综合| 久久精品一本到99热| 黑丝袜论坛| 娇女的呻吟亲女禁忌h16|