色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

預(yù)訓(xùn)練擴(kuò)散大模型取得點(diǎn)云-圖像配準(zhǔn)SoTA!

CVer ? 來源:CVer ? 2023-10-29 17:14 ? 次閱讀

介紹一下我們最新開源的工作:FreeReg: Image-to-Point Cloud Registration Leveraging Pretrained Diffusion Models and Monocular Depth Estimators. 給定部分重疊的圖像和點(diǎn)云,F(xiàn)reeReg能夠估計(jì)可靠的像素-三維點(diǎn)同名關(guān)系并解算圖像-點(diǎn)云相對(duì)位姿關(guān)系。值得注意的是,F(xiàn)reeReg不需要任何訓(xùn)練/微調(diào)!

基于FreeReg估計(jì)的準(zhǔn)確的同名關(guān)系,我們可以把圖像patch投影到點(diǎn)云的對(duì)應(yīng)位置:

fb813244-7632-11ee-939d-92fbcf53809c.png

fba58694-7632-11ee-939d-92fbcf53809c.png

主頁:https://whu-usi3dv.github.io/FreeReg/

代碼:github.com/WHU-USI3DV/FreeReg

論文:https://arxiv.org/abs/2310.03420

太長不看(TL,DR):

區(qū)別于現(xiàn)有方法利用Metric Learning直接學(xué)習(xí)跨模態(tài)(圖像和點(diǎn)云)一直特征,F(xiàn)reeReg提出首先進(jìn)行基于預(yù)訓(xùn)練大模型的模態(tài)對(duì)齊,隨后進(jìn)行同模態(tài)同名估計(jì):

  • Diffusion大模型實(shí)現(xiàn)點(diǎn)云到圖像模態(tài)的統(tǒng)一并構(gòu)建跨模態(tài)數(shù)據(jù)的粗粒度魯棒語義特征,

  • 單目深度估計(jì)大模型實(shí)現(xiàn)圖像到點(diǎn)云模態(tài)的統(tǒng)一并刻畫跨模態(tài)數(shù)據(jù)的細(xì)粒度顯著幾何特征,

  • FreeReg通過融合兩種特征,無需任何針對(duì)圖像-點(diǎn)云配準(zhǔn)任務(wù)的訓(xùn)練,實(shí)現(xiàn)室內(nèi)外圖像-點(diǎn)云配準(zhǔn)SoTA表現(xiàn)。

任務(wù)概述:圖像-點(diǎn)云(Image-to-point cloud, I2P)配準(zhǔn)

fbcd02aa-7632-11ee-939d-92fbcf53809c.jpg
  • 輸入:部分重疊的圖像和點(diǎn)云

  • 輸出:圖像相機(jī)相對(duì)于點(diǎn)云的位置姿態(tài)

  • 典型框架:

    • Step I (關(guān)鍵) : 構(gòu)建圖像-點(diǎn)云跨模態(tài)一致特征

    • Step II: 基于特征一致性的 pixel(from 圖像)-point(from 點(diǎn)云) 同名估計(jì)

    • Step III: 基于所構(gòu)建同名匹配的相對(duì)姿態(tài)估計(jì) (PnP+RANSAC)

FreeReg和現(xiàn)有方法的比較?
  • 現(xiàn)有方法往往是:用一個(gè)2D特征提取網(wǎng)絡(luò)提取圖像特征;用一個(gè)3D特征提取網(wǎng)絡(luò)提取點(diǎn)云特征;然后根據(jù)pixel-to-point對(duì)應(yīng)關(guān)系真值通過Metric Learning (Triplet/Batch hard/Circle loss/InfoCE...)的方式訓(xùn)練網(wǎng)絡(luò)去提取跨模態(tài)一致的特征,這存在幾個(gè)問題:

  • 圖像和點(diǎn)云存在故有的模態(tài)差異:圖像-紋理、點(diǎn)云-幾何,這給網(wǎng)絡(luò)可靠收斂帶來了困難,而影響特征的魯棒性(Wang et al, 2021);

  • 需要長時(shí)間的訓(xùn)練 (Pham,2020);

  • 場景間泛化能力弱 (Li,2023)。

  • FreeReg:

  • 通過預(yù)訓(xùn)練大模型實(shí)現(xiàn)模態(tài)對(duì)齊,消除模態(tài)差異,顯著提升特征魯棒性;

  • 不需要任何針對(duì)I2P配準(zhǔn)任務(wù)的訓(xùn)練/微調(diào);

  • 能夠處理室內(nèi)外等多類型場景。

FreeReg pipeline:

fbdb41bc-7632-11ee-939d-92fbcf53809c.jpg

Section I: FreeReg-D

在這一部分,我們首先利用Diffusion大模型將點(diǎn)云對(duì)齊到圖像模態(tài),然后基于圖像模態(tài)下的特征進(jìn)行同名估計(jì)。Naive Solution:利用現(xiàn)在圖像生成大殺器的ControlNet (Zhang et al, 2023; depth-to-image diffusion model)實(shí)現(xiàn)從點(diǎn)云(深度圖)中渲染出一個(gè)圖像,然后和query圖像做match不就行了?不行!如下圖,一個(gè)depth map可能對(duì)應(yīng)各種各樣的RGB圖像,ControlNet基于點(diǎn)云渲染出來的圖像合理,但是和query input image差異忒大,match不起來。

fbea54e0-7632-11ee-939d-92fbcf53809c.jpg

但是,我們注意到,ControlNet雖然生成的紋理和query差異很大,但是語義很正確而且和query RGB是對(duì)應(yīng)的,那么我們?cè)趺刺崛∵@種跨模態(tài)一致的語義特征呢?受到相關(guān)研究的啟發(fā)(Mingi et al, 2022)一種基于Diffusion大模型的多模特Diffusion Feature

fbf93d98-7632-11ee-939d-92fbcf53809c.jpg

Diffusion Feature提取
  • RGB image diffusion feature:預(yù)訓(xùn)練圖像生成大模型Stable Diffusion (SD,Dhariwal et al,2022)能夠通過迭代T步去噪的方式從純?cè)肼暽梢粡埛夏撤Ntext-prompt(包含一些代表語義的名詞)的圖像,證明它能認(rèn)識(shí)、區(qū)分和表征這些語義。而我們就把圖像加上一些噪聲讓SD去處理,然后看看哪些SD深層特征具有語義性。

  • Depth diffusion feature:我們用預(yù)訓(xùn)練的ControlNet處理來自點(diǎn)云投影的深度圖,并基于其引導(dǎo)SD的圖像生成(迭代去噪)過程使生成的圖像符合深度圖,當(dāng)去噪到某種程度時(shí)候我們把SD的中間層特征拿出來,看看哪些特征保證了生成圖像不僅符合深度圖而且語義性也是對(duì)的。

  • 如上圖的c,我們發(fā)現(xiàn),SD的0-6層輸出特征具有可靠的語義性和跨模態(tài)一致性!后面的特征才關(guān)注紋理。所以我們之用0-6層的特征(我們最終選擇concate0,4,6層的特征)作為我們的語義特征就好了,叫做Diffusion Feature!

Section II: FreeReg-G

在這一部分,我們利預(yù)訓(xùn)練的單目深度估計(jì)網(wǎng)絡(luò)Zoe-Depth (Bhat et al, 2023)去恢復(fù)input RGB的深度,并將其恢復(fù)到3D點(diǎn)云分布,然后對(duì)RGB恢復(fù)的點(diǎn)云和input點(diǎn)云分別提取幾何特征(Geometric feature, Choy et al, 2019)用于match。此外,由于match得到的同名關(guān)系存在于點(diǎn)云空間,我們的變換估計(jì)可以采用Kabsch算法而非PnP方法,Kabsch利用Zoe-depth預(yù)測深度的約束可以僅使用3對(duì)同名關(guān)系就實(shí)現(xiàn)變換解算,更高效、更可靠,但是受到Zoe的影響不太精準(zhǔn)(具體可以間我們的原文)。

Section III: FreeReg = FreeReg-D + FreeReg-G

在這一部分,我們?nèi)诤锨懊嬖诓煌B(tài)空間中提取的Diffusion Feature和Geometric Feature,作為我們最終的跨模特特征。如下圖所示:

fc0a6c1c-7632-11ee-939d-92fbcf53809c.jpg
  • Diffusion Feature具有很強(qiáng)的語義相關(guān)性和跨模特一致的可靠性,但是因?yàn)檎Z義信息關(guān)聯(lián)自圖像的比較大的區(qū)域,這種大感受野使得基于特征相似性和雙向最近鄰篩選得到的pixel-to-point同名對(duì)準(zhǔn)確但是稀疏。

  • Geometric Feature能夠關(guān)注幾何細(xì)節(jié)構(gòu)建更加dense的pixel-to-point correspondences,但是很容易受到zoe-depth預(yù)測誤差和噪聲的影響,導(dǎo)致得到的pixel-to-point同名對(duì)存在大量的outliers。

  • 通過Fuse兩種特征(L2 normalization + weighted concatenate, Zhang et al, 2023),F(xiàn)reeReg特征兼具語義可靠性和幾何顯著性,得到了更加可靠且dense的pixel-to-point correspondences!

實(shí)驗(yàn)結(jié)果:

定性評(píng)價(jià):得益于大模型模態(tài)對(duì)齊,F(xiàn)reeReg-D/G在沒有任何訓(xùn)練和微調(diào)的情況下,就在室內(nèi)外三個(gè)數(shù)據(jù)集上取得了SoTA表現(xiàn),而FreeReg進(jìn)一步提升算法表現(xiàn),取得了平均20%的內(nèi)點(diǎn)比例提升和48.6%的配準(zhǔn)成功率提升!

fc2d10f0-7632-11ee-939d-92fbcf53809c.jpg

定量評(píng)價(jià):

fc420f50-7632-11ee-939d-92fbcf53809c.jpg

更多的結(jié)果:實(shí)現(xiàn)細(xì)節(jié)、消融實(shí)驗(yàn)、精度評(píng)價(jià)、同模態(tài)配準(zhǔn)表現(xiàn)(也是SoTA?。?、和同期工作的比較(FreeReg更優(yōu))、尚存問題請(qǐng)見我們的論文!


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1085

    瀏覽量

    40477
  • 點(diǎn)云
    +關(guān)注

    關(guān)注

    0

    文章

    58

    瀏覽量

    3799
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2465

    瀏覽量

    2750

原文標(biāo)題:武大&港大提出FreeReg:預(yù)訓(xùn)練擴(kuò)散大模型取得點(diǎn)云-圖像配準(zhǔn)SoTA!

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于擴(kuò)散模型圖像生成過程

    等很難用文本指定。 ? 最近,谷歌發(fā)布了MediaPipe Diffusion插件,可以在移動(dòng)設(shè)備上運(yùn)行「可控文本到圖像生成」的低成本解決方案,支持現(xiàn)有的預(yù)訓(xùn)練擴(kuò)散
    的頭像 發(fā)表于 07-17 11:00 ?2744次閱讀
    基于<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>的<b class='flag-5'>圖像</b>生成過程

    如何在PyTorch中使用擴(kuò)散模型生成圖像

    除了頂尖的圖像質(zhì)量,擴(kuò)散模型還帶來了許多其他好處,包括不需要對(duì)抗性訓(xùn)練。對(duì)抗訓(xùn)練的困難是有據(jù)可查的。在訓(xùn)
    發(fā)表于 11-22 15:51 ?514次閱讀
    如何在PyTorch中使用<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>生成<b class='flag-5'>圖像</b>

    【大語言模型:原理與工程實(shí)踐】大語言模型預(yù)訓(xùn)練

    大語言模型的核心特點(diǎn)在于其龐大的參數(shù)量,這賦予了模型強(qiáng)大的學(xué)習(xí)容量,使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學(xué)習(xí)容量的增加,對(duì)預(yù)訓(xùn)練數(shù)據(jù)的需求也相
    發(fā)表于 05-07 17:10

    基于角點(diǎn)的紅外與可見光圖像自動(dòng)準(zhǔn)方法

    基于角點(diǎn)的紅外與可見光圖像自動(dòng)準(zhǔn)方法摘要:針對(duì)紅外圖像與可見光圖像的自動(dòng)
    發(fā)表于 05-12 09:11 ?29次下載

    SAR圖像自動(dòng)準(zhǔn)性能分析

    合成孔徑雷達(dá)(SAR)圖像的自動(dòng)準(zhǔn)長期以來都未能很好的解決,特別是高分辨率SAR圖像準(zhǔn)的關(guān)
    發(fā)表于 04-28 15:04 ?26次下載

    基于多模型表示的高分辨率遙感圖像準(zhǔn)方法_項(xiàng)盛文

    基于多模型表示的高分辨率遙感圖像準(zhǔn)方法_項(xiàng)盛文
    發(fā)表于 03-19 19:19 ?0次下載

    基于GPU加速的醫(yī)學(xué)圖像準(zhǔn)技術(shù)

    針對(duì)目前醫(yī)學(xué)圖像準(zhǔn)技術(shù)無法滿足臨床實(shí)時(shí)性需求問題,對(duì)基于圖形處理器( GPU)加速的醫(yī)學(xué)圖像準(zhǔn)
    發(fā)表于 01-03 11:08 ?1次下載
    基于GPU加速的醫(yī)學(xué)<b class='flag-5'>圖像</b><b class='flag-5'>配</b><b class='flag-5'>準(zhǔn)</b>技術(shù)

    基于SIFT特征的圖像準(zhǔn)圖像匹配)

     SIFT圖像處理代碼,必須和三個(gè)文件一起下載使用:基于SIFT特征的圖像準(zhǔn)(Matlab源代碼)、基于SIFT特征的圖像
    發(fā)表于 08-06 08:00 ?3次下載

    基于SIFT特征的圖像準(zhǔn)(仿真圖片)

    SIFT圖像處理代碼,必須和三個(gè)文件一起下載使用:基于SIFT特征的圖像準(zhǔn)(Matlab源代碼)、基于SIFT特征的圖像
    發(fā)表于 08-06 08:00 ?3次下載

    基于U-net分割的遙感圖像準(zhǔn)方法

    在利用航拍遙感圖像進(jìn)行土地測量與變化檢測時(shí),需要對(duì)圖像進(jìn)行準(zhǔn)處理。為實(shí)現(xiàn)目標(biāo)區(qū)域的高精度匹配,提出一種遙感圖像
    發(fā)表于 05-28 14:41 ?2次下載

    預(yù)訓(xùn)練數(shù)據(jù)大小對(duì)于預(yù)訓(xùn)練模型的影響

    BERT類模型的工作模式簡單,但取得的效果也是極佳的,其在各項(xiàng)任務(wù)上的良好表現(xiàn)主要得益于其在大量無監(jiān)督文本上學(xué)習(xí)到的文本表征能力。那么如何從語言學(xué)的特征角度來衡量一個(gè)預(yù)訓(xùn)練
    的頭像 發(fā)表于 03-03 11:20 ?1444次閱讀

    什么是預(yù)訓(xùn)練 AI 模型

    該向孩子展示這種生物的圖像并描述其獨(dú)有特征。 那么,如果要教一臺(tái)人工智能(AI)機(jī)器什么是獨(dú)角獸,該從什么地方做起呢? 預(yù)訓(xùn)練 AI 模型提供了解決方案。
    的頭像 發(fā)表于 04-04 01:45 ?1454次閱讀

    什么是預(yù)訓(xùn)練AI模型?

    預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用,
    的頭像 發(fā)表于 05-25 17:10 ?1045次閱讀

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要概念,尤其是在自然語言處理(NLP)和計(jì)算機(jī)視覺(CV)等領(lǐng)域中得到了廣泛應(yīng)用。預(yù)
    的頭像 發(fā)表于 07-03 18:20 ?2870次閱讀

    大語言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語言模型預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過在海量無標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使模型學(xué)習(xí)到語言的通用知識(shí)
    的頭像 發(fā)表于 07-11 10:11 ?438次閱讀
    主站蜘蛛池模板: 精品视频在线播放| 欧美另类摘花hd| 中文字幕 亚洲 有码 在线| wwwzzz日本| 龙广在线收听| 午夜精品久久久久久久爽牛战| YELLOW视频在线观看大全| 毛片在线播放网址| 真实国产乱子伦精品一区二区三区 | 野花韩国中文版免费观看| 国产人妻人伦精品1国产| 天天狠狠色噜噜| 国产69精品久久久久APP下载| 日本精品久久久久中文字幕2| 97午夜伦伦电影理论片| 兰桂坊人成社区亚洲精品 | 69精品国产人妻蜜桃国产毛片 | 在线欧美 精品 第1页| 精品久久久麻豆国产精品| 亚洲欧美成人无码久久久| 极品美女穴| 中文字幕日本久久2019| 老太婆风流特黄一级| 91天堂国产在线 在线播放| 美美哒免费影视8| DASD-700美谷朱里| 青青草原在线新免费| 岛国电影网址| 午夜在线播放免费人成无| 国产亚洲欧洲日韩在线观看| 亚洲精品资源网在线观看| 极品虎白在线观看| 中文字幕日本一区| 欧美群交XXXCOM| 丰满少妇被猛烈进出69影院| 亚州三级久久电影| 久久免费高清| xxxx老妇性hdbbbb| 性欧美videos俄罗斯| 久久伊人男人的天堂网站| 99久久免费精品国产免费|