本文摘自于:鄭太雄, 黃帥, 李永福, 馮明馳. 基于視覺的三維重建關(guān)鍵技術(shù)研究綜述. 自動化學報, 2020, 46(4): 631-652. doi:?10.16383/j.aas.2017.c170502 ?
三維重建經(jīng)過數(shù)十年的發(fā)展, 已經(jīng)取得巨大的成功。基于視覺的三維重建在計算機領(lǐng)域是一個重要的研究內(nèi)容, 主要通過使用相關(guān)儀器來獲取物體的二維圖像數(shù)據(jù)信息, 然后, 再對獲取的數(shù)據(jù)信息進行分析處理, 最后, 利用三維重建的相關(guān)理論重建出真實環(huán)境中物體表面的輪廓信息。
基于視覺的三維重建具有速度快、實時性好等優(yōu)點, 能夠廣泛應用于人工智能、機器人、無人駕駛、SLAM (Simultaneous localization and mapping)、虛擬現(xiàn)實和3D打印等領(lǐng)域。三維重建技術(shù)的分類方法如下圖所示:
基于主動視覺的三維重建技術(shù)主要包括激光掃描法、結(jié)構(gòu)光法、陰影法和TOF技術(shù)、雷達技術(shù)、Kinect技術(shù)等。 ?
1? 激光掃描法
激光掃描法其實就是利用激光測距儀來進行真實場景的測量。
首先, 激光測距儀發(fā)射光束到物體的表面, 然后, 根據(jù)接收信號和發(fā)送信號的時間差確定物體離激光測距儀的距離, 從而獲得測量物體的大小和形狀。
2?? 結(jié)構(gòu)光法
結(jié)構(gòu)光法的原理是首先按照標定準則將投影設(shè)備、圖像采集設(shè)備和待測物體組成一個三維重建系統(tǒng); 其次, 在測量物體表面和參考平面分別投影具有某種規(guī)律的結(jié)構(gòu)光圖; 然后再使用視覺傳感器進行圖像采集, 從而獲得待測物體表面以及物體的參考平面的結(jié)構(gòu)光圖像投影信息; 最后, 利用三角測量原理、圖像處理等技術(shù)對獲取到的圖像數(shù)據(jù)進行處理, 計算出物體表面的深度信息, 從而實現(xiàn)二維圖像到三維圖像的轉(zhuǎn)換。按照投影圖像的不同, 結(jié)構(gòu)光法可分為:點結(jié)構(gòu)光法、線結(jié)構(gòu)光法、面結(jié)構(gòu)光法、網(wǎng)絡結(jié)構(gòu)光和彩色結(jié)構(gòu)光。
3?? 陰影法
陰影法是一種簡單、可靠、低功耗的重建物體三維模型的方法。這是一種基于弱結(jié)構(gòu)光的方法, 與傳統(tǒng)的結(jié)構(gòu)光法相比, 這種方法要求非常低, 只需要將一臺相機面向被燈光照射的物體, 通過移動光源前面的物體來捕獲移動的陰影, 再觀察陰影的空間位置, 從而重建出物體的三維結(jié)構(gòu)模型。
4?? TOF技術(shù)
TOF (Time of flight)法是主動測距技術(shù)的一種, 可從發(fā)射極向物體發(fā)射脈沖光, 遇到物體反射后, 接收器收到反射光時停止計時, 由于光和聲在空氣中的傳播速度是不變的, 從而通過發(fā)射到接收的時間差來確定物體的距離, 進而確定產(chǎn)生的深度信息, 其原理如下式所示: 其中,?λ表示脈沖的波長;?表示波長的個數(shù);?表示脈沖返回時的相位;?表示物體離發(fā)射之間的距離。 ? 5?? 雷達技術(shù) 雷達作為一種很常見的主動視覺傳感器, 可以通過發(fā)射和接收的光束之間的時間差來計算物體的距離、深度等信息。原理如下式所示: 式中,?c為光速;?Δt為發(fā)射與接受的時間間隔;?表示雷達到物體之間的距離。 ?
6?? Kinect技術(shù)
Kinect傳感器是最近幾年發(fā)展比較迅速的一種消費級的3D攝像機, 它是直接利用鐳射光散斑測距的方法獲取場景的深度信息,Kinect傳感器如下圖所示.Kinect傳感器中間的鏡頭為攝像機, 左右兩端的鏡頭被稱為3D深度感應器, 具有追焦的功能, 可以同時獲取深度信息、彩色信息、以及其他信息等。Kinect在使用前需要進行提前標定, 大多數(shù)標定都采用張正友標定法。?
基于被動視覺的三維重建技術(shù)
1?? 根據(jù)相機數(shù)目分類
基于被動視覺的三維重建技術(shù)是通過視覺傳感器(一臺或多臺相機)獲取圖像序列, 進而進行三維重建的一種技術(shù)。這種技術(shù)首先通過視覺傳感器(一臺或多臺相機)獲取圖像序列, 然后提取其中有用的信息, 最后, 對這些信息進行逆向工程的建模, 從而重建出物體的三維結(jié)構(gòu)模型。 ?
1.1? ?單目視覺法
單目視覺是僅使用一臺相機進行三維重建的方法,為了進一步表示空間中任意一個三維點P在世界坐標系轉(zhuǎn)換到二維圖像坐標系之間的關(guān)系, 關(guān)系坐標可以表示為:
其中,?(XW,YW,ZW)為空間中的三維點;?(R??t)稱為旋轉(zhuǎn)矩陣和平移向量;?fx和fy是攝像機在兩個方向上的焦距;?(u0,v0)是攝像頭主點在圖像坐標系下的坐標;?(u,v)是圖像坐標系下的坐標; 從而通過上式可以求解出任意空間一點的三維坐標.基于單目視覺的三維重建流程如下圖所示。
1.2?? 雙目視覺法
雙目視覺的工作原理來源于人類的雙目視覺系統(tǒng), 也就是說從不同的視角通過兩個相同的相機捕獲同一個位置下的左右兩側(cè)圖像, 然后再利用三角測量原理獲取物體的深度信息, 通過這些深度信息重建出物體的三維模型。目前, 基于雙目視覺的三維重建方法是三維重建技術(shù)中的熱點和難點。
1)?平行式光軸雙目視覺系統(tǒng)是比較理想的一種系統(tǒng).在平行式光軸視覺系統(tǒng)中, 左右相機互相對齊, 它們的光軸也要互相平行, 形成一個共面的成像平面.由于左右相機只在軸上的位置不同, 而焦距等其他參數(shù)是相同的, 因此, 左右相機拍攝的同一物點所成的像分別在左右兩圖像上對應的對集線上, 可以較好的實現(xiàn)立體匹配。
2)?匯聚式光軸雙目視覺系統(tǒng)是將平行式光軸雙目視覺系統(tǒng)中的左右相機分別繞光心順時針和逆時針旋轉(zhuǎn)一定角度, 從而形成匯聚式雙目視覺系統(tǒng)。
1.3?? 多目視覺法
多目視覺是雙目視覺的一種延伸, 它是在雙目視覺的基礎(chǔ)上, 增加一臺或者多臺攝像機作為輔助進行測量, 從而獲得不同角度下同一物體的多對圖像。多目視覺法大多數(shù)的理論與雙目視覺法是相同的, 唯一不同的是, 多目視覺采用了三個或三個以上的攝像頭進行環(huán)境中目標物體的獲取.多目視覺的優(yōu)點是當測量物體的表面傾斜的角度太大導致其中的一個或兩個CCD攝像機不能接收到漫反射光時, 其他的攝像機可繼續(xù)工作。
2? ?根據(jù)匹配方法分類
三維環(huán)境重建技術(shù)一直是機器視覺和數(shù)字圖像處理領(lǐng)域的重點研究對象, 眾多學者針對三維環(huán)境重建提出了很多不同的算法。而圖像特征信息匹配的質(zhì)量在三維環(huán)境重建過程中起著十分關(guān)鍵的作用。圖像特征信息的匹配首先提取待重建圖像的匹配信息, 并使用相應的算法在提取出的匹配信息集中尋找最佳匹配集, 根據(jù)最佳匹配集求解變換模型。根據(jù)匹配的方法不同可以分為區(qū)域視覺法和特征視覺法。
2.1?? 區(qū)域視覺法
區(qū)域視覺法就是基于區(qū)域立體匹配算法的三維重建技術(shù)。該算法利用對極幾何約束和連續(xù)性, 提高了稠密匹配的效率和三維重建的質(zhì)量。 ?
2.2?? 特征視覺法
基于特征視覺的三維重建技術(shù)其實就是通過相機獲取二維圖像, 然后提取圖像中的角點作為特征點,?以雙目立體視覺理論為基礎(chǔ), 利用匹配算法, 獲得特征點匹配對, 再通過三角測量原理獲取深度值, 從而獲得物體表面的三維模型。
3?? 根據(jù)應用方法分類
基于被動視覺的三維重建技術(shù)根據(jù)所選取方法不同, 所重建的效果有明顯差別, 但每種方法都有不同的優(yōu)點和缺點。因此, 根據(jù)應用方法可以分為運動恢復結(jié)構(gòu)法和機器學習法。 ?
3.1?? 運動恢復結(jié)構(gòu)法
如果獲取的圖像是從多個視點捕獲的多張圖像, 可以通過匹配算法獲得圖像中相同像素點的對應關(guān)系, 再利用匹配約束關(guān)系, 結(jié)合三角測量原理, 獲得空間點的三維坐標信息, 進而重建出物體的三維模型。這個過程被稱為運動恢復結(jié)構(gòu)法, 即SfM (Structure from motion)。運動恢復結(jié)構(gòu)法是通過三角測量原理來恢復場景的三維結(jié)構(gòu).這種方法不僅是三維重建的一種重要手段, 而且也是一種結(jié)構(gòu)測量的方法, 能夠廣泛地應用在測繪、軍事偵查等領(lǐng)域.目前SfM主要分為兩類:增量式SfM 和全局式SfM 。 ?
3.2?? 機器學習法
機器學習其實就是使機器具有學習的能力, 從而不斷獲得新知識以及新技能得到有效提升.機器學習在三維環(huán)境重建中一直是重點研究對象, 因此, 根據(jù)機器學習可以分為常用的三種方法, 分別是統(tǒng)計學習法、神經(jīng)網(wǎng)絡法和深度學習與語義法。
1)?統(tǒng)計學習法:就是需要通過不斷地學習再學習的過程.該方法是以大型數(shù)據(jù)庫為基礎(chǔ), 例如, 人臉數(shù)據(jù)庫、場景數(shù)據(jù)庫等.首先, 這種方法需要對數(shù)據(jù)庫中的每一個目標進行特征統(tǒng)計, 這些特征主要包括亮度、紋理、幾何形狀、深度等, 然后, 再對重建目標的各種特征建立概率函數(shù), 最后, 計算重建目標與數(shù)據(jù)庫中相似目標的概率大小, 取概率最大的目標深度為重建目標的深度, 再使用差值計算和紋理映射進行目標的三維重建。
2) 神經(jīng)網(wǎng)絡法:基于神經(jīng)網(wǎng)絡法的三維重建是利用神經(jīng)網(wǎng)絡具有較好的泛函逼近能力, 能夠以任意的精度逼近任何非線性關(guān)系的優(yōu)點來進行三維重建。
3) 深度學習與語義法:基于深度學習的三維重建最近幾年取得了非常大進展, 是當前計算機視覺領(lǐng)域比較流行的方法之一。學習系統(tǒng)是由多層卷積層和多層全連接層組成的卷積神經(jīng)網(wǎng)絡(CNN)進行學習圖像的層次化特征表示, 這種方法能夠精確地重建出物體的幾何形狀。基于語義的三維重建可以運用在移動的行人或車輛等大的場景, 這種方法能夠精確地對環(huán)境中的目標物體進行識別, 而深度學習技術(shù)也是最近幾年剛剛興起的比較有優(yōu)勢的識別方法, 因此, 深度學習和語義相結(jié)合的三維重建是未來幾年的研究趨勢, 也會受到該領(lǐng)域的研究者們廣泛關(guān)注。
編輯:黃飛
?
評論
查看更多