機(jī)器人視覺(jué)的概念
在智能制造過(guò)程中,通過(guò)傳統(tǒng)的編程來(lái)執(zhí)行某一特定動(dòng)作的機(jī)器人(機(jī)械手、機(jī)械手臂、機(jī)械臂等,未作特殊說(shuō)明時(shí),不作嚴(yán)格區(qū)分,統(tǒng)一稱為機(jī)器人),將難以滿足制造業(yè)向前發(fā)展的需求。很多應(yīng)用場(chǎng)合下,需要為工業(yè)機(jī)器人安裝一雙眼睛,即機(jī)器視覺(jué)成像感知系統(tǒng),使機(jī)器人具備識(shí)別、分析、處理等更高級(jí)的功能。這在高度自動(dòng)化的大規(guī)模生產(chǎn)中非常重要,只有當(dāng)工業(yè)機(jī)器人具有視覺(jué)成像感知系統(tǒng),具備觀察目標(biāo)場(chǎng)景的能力時(shí),才能正確地對(duì)目標(biāo)場(chǎng)景的狀態(tài)進(jìn)行判斷與分析,做到智能化靈活地自行解決發(fā)生的問(wèn)題。
在工業(yè)應(yīng)用領(lǐng)域,最具有代表性的機(jī)器人視覺(jué)系統(tǒng)就是機(jī)器人手眼系統(tǒng)。根據(jù)成像單元安裝方式不同,機(jī)器人手眼系統(tǒng)分為兩類:固定成像單元眼看手系統(tǒng)(Eye-to-Hand)和隨動(dòng)成像單元眼在手系統(tǒng)(Eye-in-Hand or Hand-Eye)。
在Eye-to-Hand系統(tǒng)中,視覺(jué)成像單元安裝在機(jī)器人本體外的固定位置,在機(jī)器人工作過(guò)程中不隨機(jī)器人一起運(yùn)動(dòng),當(dāng)機(jī)器人或目標(biāo)運(yùn)動(dòng)到機(jī)械臂可操作的范圍時(shí),機(jī)械臂在視覺(jué)感知信息的反饋控制下,向目標(biāo)移動(dòng),對(duì)目標(biāo)進(jìn)行精準(zhǔn)操控。Eye-to-Hand系統(tǒng)的優(yōu)點(diǎn)是具有全局視場(chǎng),標(biāo)定與控制簡(jiǎn)單、抗震性能好、姿態(tài)估計(jì)穩(wěn)定等,但也存在分辨率低、容易產(chǎn)生遮擋問(wèn)題等缺點(diǎn)。
在Eye-in-Hand系統(tǒng)中,成像單元安裝在機(jī)器人手臂末端,隨機(jī)器人一起運(yùn)動(dòng)。Eye-in-Hand系統(tǒng)常用在有限視場(chǎng)內(nèi)操控目標(biāo),不會(huì)像 Eye-to-Hand系統(tǒng)那樣產(chǎn)生機(jī)械臂遮擋成像視場(chǎng)問(wèn)題,空間分辨率高,對(duì)于基于圖像的視覺(jué)控制,成像單元模型參數(shù)的標(biāo)定誤差可以被有效地克服,對(duì)標(biāo)定的精度要求不高。
圖:兩種機(jī)器人手眼系統(tǒng)的結(jié)構(gòu)形式(a)眼在手機(jī)器人系統(tǒng)(b)眼看手機(jī)器人系統(tǒng)
有些應(yīng)用場(chǎng)合,為了更好地發(fā)揮機(jī)器人手眼系統(tǒng)的性能,充分利用 Eye-to-Hand系統(tǒng)全局視場(chǎng)和Eye-in-Hand局部視場(chǎng)高分辨率和高精度的性能,可采用兩者混合協(xié)同模式。利用 Eye-to-Hand系統(tǒng)負(fù)責(zé)機(jī)器人的定位,利用Eye-in-Hand系統(tǒng)負(fù)責(zé)機(jī)器人的定向;或者利用 Eye-to-Hand計(jì)機(jī)器人相對(duì)目標(biāo)的方位,利用 Eye-in-Hand負(fù)責(zé)目標(biāo)姿態(tài)的高精度估計(jì)等。
圖:機(jī)器人協(xié)同視覺(jué)系統(tǒng)原理
機(jī)器人視覺(jué)發(fā)展路徑:從2D到3D
l視覺(jué)成像最初是從二維(2D)圖像處理與理解,即2D視覺(jué)成像發(fā)展起來(lái)的。2D視覺(jué)技術(shù)主要根據(jù)灰度或彩色圖像中的像素灰度特征獲取目標(biāo)中的有用信息,以及基于輪廓的圖案匹配驅(qū)動(dòng),識(shí)別物體的紋理、形狀、位置、尺寸和方向等。2D視覺(jué)技術(shù)距今已發(fā)展了30余年,在自動(dòng)化和產(chǎn)品質(zhì)量控制過(guò)程中得到廣泛應(yīng)用,目前技術(shù)較為成熟,主要用于字符與條碼識(shí)讀、標(biāo)簽驗(yàn)證、形狀與位置測(cè)量、表面特征檢測(cè)等。
l2D視覺(jué)技術(shù)難以實(shí)現(xiàn)三維高精度測(cè)量與定位,二維形狀測(cè)量的一致性和穩(wěn)定性也較差,易受照明條件等影響。尤其當(dāng)前智能制造技術(shù)對(duì)機(jī)器人視覺(jué)性能的要求越來(lái)越高,2D機(jī)器視覺(jué)技術(shù)的局限性已經(jīng)顯現(xiàn),機(jī)器人視覺(jué)系統(tǒng)集成商已經(jīng)發(fā)現(xiàn)越來(lái)越難以通過(guò)2D機(jī)器視覺(jué)系統(tǒng)來(lái)增值,迫切需要發(fā)展三維(3D)視覺(jué)技術(shù),因?yàn)?D視覺(jué)技術(shù)能夠產(chǎn)生2D視覺(jué)無(wú)法產(chǎn)生的形狀或深度信息,因此使用范圍更廣。
l當(dāng)前,機(jī)器人視覺(jué)成像技術(shù)及系統(tǒng)正越來(lái)越廣泛地應(yīng)用于視覺(jué)測(cè)量、檢測(cè)、識(shí)別、引導(dǎo)和自動(dòng)化裝配領(lǐng)域中。雖然很多機(jī)器人具備一定程度的智能化,但還遠(yuǎn)未達(dá)到人類所需的智能化程度,一個(gè)重要原因是機(jī)器人視覺(jué)感知系統(tǒng)中還有許多科學(xué)問(wèn)題、關(guān)鍵應(yīng)用技術(shù)問(wèn)題等,仍亟待解決。如:1)如何使機(jī)器人像人那樣,對(duì)客觀世界的三維場(chǎng)景進(jìn)行感知、識(shí)別和理解;2)哪些三維視覺(jué)感知原理可以對(duì)場(chǎng)景目標(biāo)進(jìn)行快速和高精度的三維測(cè)量,并且基于該原理的三維視覺(jué)傳感器具有小體積、低成本,方便嵌入到機(jī)器人系統(tǒng)中;3)基于三維視覺(jué)系統(tǒng)獲得的三維場(chǎng)景目標(biāo)信息,如何有效地自組織自身的識(shí)別算法,準(zhǔn)確、實(shí)時(shí)地識(shí)別出目標(biāo);4)如何通過(guò)視覺(jué)感知和自學(xué)習(xí)算法,使機(jī)器人像人那樣具有自主適應(yīng)環(huán)境的能力,自動(dòng)地完成人類賦予的任務(wù)等。
機(jī)器人3D視覺(jué)方案
3D視覺(jué)是機(jī)器人感知的最先進(jìn)、最重要的方法,可以分為光學(xué)和非光學(xué)成像方法。目前應(yīng)用最多的方法是光學(xué)方法,包括:飛行時(shí)間法、結(jié)構(gòu)光法、激光掃描法、莫爾條紋法、激光散斑法、干涉法、照相測(cè)量法、激光跟蹤法、從運(yùn)動(dòng)獲得形狀、從陰影獲得形狀,以及其他的 Shape from X等。本次介紹幾種典型方案。
1.飛行時(shí)間3D成像
飛行時(shí)間(TOF)相機(jī)的每個(gè)像素利用光飛行的時(shí)間差來(lái)獲取物體的深度。
l直接TOF(D-TOF)是經(jīng)典的TOF測(cè)量方法,探測(cè)器系統(tǒng)在發(fā)射光脈沖的同時(shí)啟動(dòng)探測(cè)接收單元進(jìn)行計(jì)時(shí),當(dāng)探測(cè)器接收到目標(biāo)發(fā)出的光回波時(shí),探測(cè)器直接存儲(chǔ)往返時(shí)間,目標(biāo)距離可以通過(guò)簡(jiǎn)單公式計(jì)算:z=0.5*c*t,c是光速,t是光飛行時(shí)間。D-TOF通常用于單點(diǎn)測(cè)距系統(tǒng),為了實(shí)現(xiàn)面積范圍3D成像,通常需要采用掃描技術(shù)。無(wú)掃描 TOF三維成像技術(shù)直到近幾年才實(shí)現(xiàn),因?yàn)樵谙袼丶?jí)實(shí)現(xiàn)亞納秒電子計(jì)時(shí)是非常困難的。
l間接TOF(I-TOF)與D-TOF不同,時(shí)間往返行程是從光強(qiáng)度的時(shí)間選通測(cè)量中間接外推獲得的。I-TOF不需要精確的計(jì)時(shí),而是采用時(shí)間選通光子計(jì)數(shù)器或電荷積分器,它們可以在像素級(jí)實(shí)現(xiàn)。I-TOF是目前基于 TOF相機(jī)的電子和光混合器的商用化解決方案。
圖:TOF成像原理
TOF成像可用于大視野、遠(yuǎn)距離、低精度、低成本的3D圖像采集。其特點(diǎn)是:檢測(cè)速度快、視野范圍較大、工作距離遠(yuǎn)、價(jià)格便宜,但精度低,易受環(huán)境光的干擾。
2.掃描3D成像
掃描3D成像方法可分為掃描測(cè)距、主動(dòng)三角法、色散共焦法等。
l掃描測(cè)距是利用一條準(zhǔn)直光束通過(guò)一維測(cè)距掃描整個(gè)目標(biāo)表面實(shí)現(xiàn)3D測(cè)量。典型掃描測(cè)距方法有:1)單點(diǎn)飛行時(shí)間法,如連續(xù)波頻率調(diào)制(FM-CW)測(cè)距、脈沖測(cè)距(激光雷達(dá))等;2)激光散射干涉法,如基于多波長(zhǎng)干涉、全息干涉、白光干涉、散斑干涉等原理的干涉儀;3)共焦法,如色散共焦、自聚焦等。單點(diǎn)測(cè)距掃描3D方法中,單點(diǎn)飛行時(shí)間法適合遠(yuǎn)距離掃描,測(cè)量精度較低,一般在毫米量級(jí)。其他幾種單點(diǎn)掃描方法有:?jiǎn)吸c(diǎn)激光干涉法、共焦法和單點(diǎn)激光主動(dòng)三角法,測(cè)量精度較高,但前者對(duì)環(huán)境要求高;線掃描精度適中,效率高。比較適合于機(jī)械手臂末端執(zhí)行3D測(cè)量的應(yīng)是主動(dòng)激光三角法和色散共焦法。
l主動(dòng)三角法是基于三角測(cè)量原理,利用準(zhǔn)直光束、一條或多條平面光束掃描目標(biāo)表面完成3D測(cè)量的。光束常采用以下方式獲得:激光準(zhǔn)直、圓柱或二次曲面柱形棱角擴(kuò)束,非相干光(如白光、LED光源)通過(guò)小孔、狹縫(光柵)投影或相干光衍射等。主動(dòng)三角法可分為三種類型:?jiǎn)吸c(diǎn)掃描、單線掃描和多線掃描。如圖,從左至右依次是單點(diǎn)掃描、單線掃描和多線掃描。
圖:主動(dòng)三角法掃描成像
l色散共焦法可以掃描測(cè)量粗糙和光滑的不透明和透明物體,如反射鏡面、透明玻璃面等,目前在手機(jī)蓋板三維檢測(cè)等領(lǐng)域廣受歡迎。色散共焦掃描有三種類型:?jiǎn)吸c(diǎn)一維絕對(duì)測(cè)距掃描、多點(diǎn)陣列掃描和連續(xù)線掃描,下圖分別列出了絕對(duì)測(cè)距和連續(xù)線掃描兩類示例,其中連續(xù)線掃描也是一種陣列掃描,只是陣列的點(diǎn)陣更多、更密集。
圖:兩種色散共焦單點(diǎn)測(cè)距方法(a)基于小孔和分光鏡的結(jié)構(gòu);(b)基于Y型光纖分光的結(jié)構(gòu)
圖:兩種色散共焦線掃描成像方案(a)色散共焦顯微鏡;(b)色散共焦三角法
掃描3D成像的最大優(yōu)點(diǎn)是測(cè)量精度高,其中色散共焦法還有其他方法難以比擬的優(yōu)點(diǎn),即非常適合測(cè)量透明物體、高反與光滑表面的物體。但缺點(diǎn)是速度慢、效率低;當(dāng)用于機(jī)械手臂末端時(shí),可實(shí)現(xiàn)高精度3D測(cè)量,但不適合機(jī)械手臂實(shí)時(shí)3D引導(dǎo)與定位,因此應(yīng)用場(chǎng)合有限;另外主動(dòng)三角掃描在測(cè)量復(fù)雜結(jié)構(gòu)形貌時(shí)容易產(chǎn)生遮擋,需要通過(guò)合理規(guī)劃末端路徑與姿態(tài)來(lái)解決。
3.結(jié)構(gòu)光投影3D成像
結(jié)構(gòu)光投影三維成像目前是機(jī)器人3D視覺(jué)感知的主要方式,結(jié)構(gòu)光成像系統(tǒng)是由若干個(gè)投影儀和相機(jī)組成,常用的結(jié)構(gòu)形式有:?jiǎn)瓮队皟x-單相機(jī)、單投影儀-雙相機(jī)、單投影儀-多相機(jī)、單相機(jī)-雙投影儀和單相機(jī)-多投影儀等典型結(jié)構(gòu)形式。結(jié)構(gòu)光投影三維成像的基本工作原理是:投影儀向目標(biāo)物體投射特定的結(jié)構(gòu)光照明圖案,由相機(jī)攝取被目標(biāo)調(diào)制后的圖像,再通過(guò)圖像處理和視覺(jué)模型求出目標(biāo)物體的三維信息。根據(jù)結(jié)構(gòu)光投影次數(shù)劃分,結(jié)構(gòu)光投影三維成像可以分成單次投影3D和多次投影3D方法。
l單次投影結(jié)構(gòu)光主要采用空間復(fù)用編碼和頻率復(fù)用編碼形式實(shí)現(xiàn),目前在機(jī)器人手眼系統(tǒng)應(yīng)用中,對(duì)于三維測(cè)量精度要求不高的場(chǎng)合,如碼垛、拆垛、三維抓取等,比較受歡迎的是投射偽隨機(jī)斑點(diǎn)獲得目標(biāo)三維信息,其3D成像原理如圖。
圖:?jiǎn)未瓮队敖Y(jié)構(gòu)光3D成像原理
l多次投影結(jié)構(gòu)光主要采用時(shí)間復(fù)用編碼方式實(shí)現(xiàn)。條紋投影3D成像基本原理如圖,利用計(jì)算機(jī)生成結(jié)構(gòu)光圖案或用特殊的光學(xué)裝置產(chǎn)生結(jié)構(gòu)光,經(jīng)過(guò)光學(xué)投影系統(tǒng)投射至被測(cè)物體表面,然后采用圖像獲取設(shè)備(如CCD或 CMOS相機(jī))采集被物體表面調(diào)制后發(fā)生變形的結(jié)構(gòu)光圖像,利用圖像處理算法計(jì)算圖像中每個(gè)像素點(diǎn)與物體輪廓上點(diǎn)的一一對(duì)應(yīng)關(guān)系;最后通過(guò)系統(tǒng)結(jié)構(gòu)模型及其標(biāo)定技術(shù),計(jì)算得到被測(cè)物體的三維輪廓信息。在實(shí)際應(yīng)用中,常采用格雷碼投影、正弦相移條紋投影或格雷碼+正弦相移混合投影3D技術(shù)。
圖:多次投影3D成像(a)多次投影3D系統(tǒng)機(jī)構(gòu)示意圖;(b)二進(jìn)制格雷碼投影3D基本原理;(c)二進(jìn)制格雷碼+正弦相移混合編碼投影3D
l偏折法成像:對(duì)于粗糙表面,結(jié)構(gòu)光可以直接投射到物體表面進(jìn)行視覺(jué)成像測(cè)量;但對(duì)于大反射率光滑表面和鏡面物體3D測(cè)量,結(jié)構(gòu)光投影不能直接投射到被測(cè)表面,3D測(cè)量還需要借助鏡面偏折技術(shù)。
圖:偏折法成像原理
4.立體視覺(jué)3D成像
立體視覺(jué)字面意思是用一只眼睛或兩只眼睛感知三維結(jié)構(gòu),一般情況下是指從不同的視點(diǎn)獲取兩幅或多幅圖像重構(gòu)目標(biāo)物體3D結(jié)構(gòu)或深度信息。目前立體視覺(jué)3D可以通過(guò)單目視覺(jué)、雙目視覺(jué)、多(目)視覺(jué)、光場(chǎng)3D成像(電子復(fù)眼或陣列相機(jī))實(shí)現(xiàn)。
l單目視覺(jué)深度感知線索通常有:透視、焦距差異、多視覺(jué)成像、覆蓋、陰影、運(yùn)動(dòng)視差等。在機(jī)器人視覺(jué)里還可以用鏡像,以及其他shape from X等方法實(shí)現(xiàn)。
l雙目視覺(jué)深度感知視覺(jué)線索有:眼睛的收斂位置和雙目視差。在機(jī)器視覺(jué)里利用兩個(gè)相機(jī)從兩個(gè)視點(diǎn)對(duì)同一個(gè)目標(biāo)場(chǎng)景獲取兩個(gè)視點(diǎn)圖像,再計(jì)算兩個(gè)視點(diǎn)圖像中同名點(diǎn)的視差獲得目標(biāo)場(chǎng)景的3D深度信息。典型的雙目立體視覺(jué)計(jì)算過(guò)程包含下面四個(gè)步驟:圖像畸變矯正、立體圖像對(duì)校正、圖像配準(zhǔn)和三角法重投影視差圖計(jì)算。
圖:雙目立體視覺(jué)系統(tǒng)與計(jì)算過(guò)程示意圖
l多(目)視覺(jué)成像,也稱多視點(diǎn)立體成像,用單個(gè)或多個(gè)相機(jī)從多個(gè)視點(diǎn)獲取同一個(gè)目標(biāo)場(chǎng)景的多幅圖像,重構(gòu)目標(biāo)場(chǎng)景的三維信息。多視點(diǎn)立體成像主要用于下列幾種場(chǎng)景:1)使用多個(gè)相機(jī)從不同視點(diǎn),獲取同一個(gè)目標(biāo)場(chǎng)景多幅圖像,然后基于特征的立體重構(gòu)等算法求取場(chǎng)景深度和空間結(jié)構(gòu)信息;2)從運(yùn)動(dòng)恢復(fù)形狀的技術(shù)。使用同一相機(jī)在其內(nèi)參數(shù)不變的條件下,從不同視點(diǎn)獲取多幅圖像,重構(gòu)目標(biāo)場(chǎng)景的三維信息。該技術(shù)常用于跟蹤目標(biāo)場(chǎng)景中大量的控制點(diǎn),連續(xù)恢復(fù)場(chǎng)景的3D結(jié)構(gòu)信息、相機(jī)的姿態(tài)和位置。
l光場(chǎng)3D成像的原理與傳統(tǒng)CCD和CMOS相機(jī)成像原理在結(jié)構(gòu)原理上有所差異,傳統(tǒng)相機(jī)成像是光線穿過(guò)鏡頭在后續(xù)的成像平面上直接成像,一般是2D圖像。光場(chǎng)相機(jī)的優(yōu)點(diǎn)是:?jiǎn)蝹€(gè)相機(jī)可以進(jìn)行3D成像,橫向和深度方向的空間分辨率可以達(dá)到20μm到mm 量級(jí),景深比普通相機(jī)大好幾倍,比較適合Eye-in-Hand系統(tǒng)3D測(cè)量與引導(dǎo),但目前精度適中的商業(yè)化光場(chǎng)相機(jī)價(jià)格昂貴。
圖:光場(chǎng)相機(jī)成像與傳統(tǒng)相機(jī)成像對(duì)比(a)傳統(tǒng)相機(jī)成像原理;(b)光場(chǎng)相機(jī)結(jié)構(gòu)與成像原理
機(jī)器人3D視覺(jué)方案對(duì)比分析
1.TOF相機(jī)、光場(chǎng)相機(jī)這類相機(jī)可以歸類為單相機(jī)3D成像范圍,它們體積小,實(shí)時(shí)性好,適合 Eye-in-Hand系統(tǒng)執(zhí)行3D測(cè)量、定位和實(shí)時(shí)引導(dǎo)。但是,TOF相機(jī)、光場(chǎng)相機(jī)短期內(nèi)還難以用來(lái)構(gòu)建普通的 Eye-in-Hand系統(tǒng),主要原因如下:
lTOF相機(jī)空間分辨率和3D精度低,不適合高精度測(cè)量、定位與引導(dǎo)。
l對(duì)于光場(chǎng)相機(jī),目前商業(yè)化的工業(yè)級(jí)產(chǎn)品只有德國(guó)Raytrix一家,雖然性能較好,空間分率和精度適中,但價(jià)格太貴,一臺(tái)幾十萬(wàn)元,使用成本太高。
2.結(jié)構(gòu)光投影3D系統(tǒng)的精度和成本適中,有相當(dāng)好的應(yīng)用市場(chǎng)前景。它由若干個(gè)相機(jī)-投影儀組成,如果把投影儀當(dāng)作一個(gè)逆向的相機(jī),可以認(rèn)為該系統(tǒng)是一個(gè)雙目或多目3D三角測(cè)量系統(tǒng)。
3.被動(dòng)立體視覺(jué)3D成像目前在工業(yè)領(lǐng)域也得到較好應(yīng)用,但應(yīng)用場(chǎng)合有限。因?yàn)閱文苛Ⅲw視覺(jué)實(shí)現(xiàn)有難度,雙目和多目立體視覺(jué)要求目標(biāo)物體紋理或幾何特征清晰。
4.結(jié)構(gòu)光投影3D、雙目立體視覺(jué)3D都存在下列缺點(diǎn):體積較大,容易產(chǎn)生遮擋。因?yàn)檫@幾種方法都是基于三角測(cè)量原理,要求相機(jī)和投影儀之間或雙目立體兩個(gè)相機(jī)之間必須間隔一定距離,并且存在一定的夾角θ(通常大于15°)才能實(shí)現(xiàn)測(cè)量。如果被測(cè)物體表面陡峭或有臺(tái)階,會(huì)引起相機(jī)成像遮擋,即相機(jī)不能捕捉到這些結(jié)構(gòu)光的照射區(qū)域,導(dǎo)致存在不可測(cè)量區(qū)域。如果減小相機(jī)與投影儀(結(jié)構(gòu)光光源)的夾角,雖然在某些程度上可以解決問(wèn)題,但是卻會(huì)嚴(yán)重降低系統(tǒng)的測(cè)量靈敏度,影響測(cè)量系統(tǒng)的應(yīng)用。
機(jī)器人3D視覺(jué)應(yīng)用案例
1.波士頓動(dòng)力Atlas
Atlas 使用TOF 深度相機(jī)以每秒 15 幀的速度生成環(huán)境的點(diǎn)云,點(diǎn)云是測(cè)距的大規(guī)模集合。Atlas 的感知軟件使用一種名為多平面分割的算法從點(diǎn)云中提取平面。多平面分割算法的輸入饋入到一個(gè)映射系統(tǒng)中,該系統(tǒng)為 Atlas 通過(guò)相機(jī)看到的各種不同對(duì)象構(gòu)建模型。下圖顯示了 Atlas 的視覺(jué)以及如何使用這種視覺(jué)感知來(lái)規(guī)劃行為。左上角是深度相機(jī)拍攝的紅外圖像。主圖像中的白點(diǎn)形成點(diǎn)云。橙色輪廓標(biāo)記了檢測(cè)到的跑酷障礙物的矩形面,隨著時(shí)間的推移從傳感器觀察結(jié)果中對(duì)其進(jìn)行跟蹤。然后將這些檢測(cè)到的對(duì)象用于規(guī)劃特定行為。例如,綠色的腳步代表下一步要跳到哪里。
圖:TOF視覺(jué)的深度感知與決策
由于在電動(dòng)車(chē)FSD積累的成熟的視覺(jué)感知技術(shù),特斯拉機(jī)器人的 3D傳感模塊以多目視覺(jué)為主,使用三顆Autopilot攝像頭作為感知系統(tǒng),在采集信息后,通過(guò)強(qiáng)大的神經(jīng)網(wǎng)絡(luò)處理和識(shí)別不同任務(wù),依靠其胸腔內(nèi)部搭載的 FSD 全套計(jì)算機(jī)完成。
圖:特斯拉的三顆Autopilot攝像頭畫(huà)面
3.小米CyberOne
CyberOne搭載的Mi-Sense深度視覺(jué)模組是由小米設(shè)計(jì),歐菲光協(xié)同開(kāi)發(fā)完成。由于Mi-Sense深度視覺(jué)模組的相關(guān)資料不多,所以可以從歐菲光自研的機(jī)器視覺(jué)深度相機(jī)模塊進(jìn)行觀察。該模塊主要由iToF模組、RGB模組、可選的IMU模塊組成,產(chǎn)品在測(cè)量范圍內(nèi)精度高達(dá)1%,應(yīng)用場(chǎng)景十分廣泛,可通過(guò)第三方實(shí)驗(yàn)室IEC 60825-1認(rèn)證,滿足激光安全Class1標(biāo)準(zhǔn)。
圖:CyberOne傳感器模塊
圖:Mi-Sense視覺(jué)空間系統(tǒng)
4.優(yōu)必選WALKER X
優(yōu)必選WALKER X采用基于多目視覺(jué)傳感器的三維立體視覺(jué)定位,采用Coarse-to-fine的多層規(guī)劃算法,第一視角實(shí)景AR導(dǎo)航交互及2.5D立體避障技術(shù),實(shí)現(xiàn)動(dòng)態(tài)場(chǎng)景下全局最優(yōu)路徑自主導(dǎo)航。WALKER應(yīng)用視覺(jué)SLAM算法,視覺(jué)定位技術(shù)已經(jīng)達(dá)到商用水平。
圖:優(yōu)必選WALKER的視覺(jué)應(yīng)用
多模態(tài)GPT+機(jī)器人視覺(jué) 開(kāi)啟無(wú)限可能
在ChatGPT和GPT-4發(fā)布后,全球?qū)τ贠penAI的關(guān)注度持續(xù)提升。GPT-4具備強(qiáng)大的文本和圖像處理功能,而未來(lái)的GPT-5將在多模態(tài)理解方面表現(xiàn)更加出色,甚至能加入音頻和視頻的處理服務(wù)。未來(lái)多模態(tài)有望在機(jī)器人視覺(jué)領(lǐng)域得到廣泛應(yīng)用,輸入輸出將包括3D模型,有望賦能機(jī)器人感知、規(guī)控和仿真能力,也有望提高3D模型生產(chǎn)效率,助力游戲內(nèi)容與元宇宙構(gòu)造。多模態(tài)AI模型有望具備與真實(shí)世界所有輸入交互的能力,極大提升人形機(jī)器人的能力,加速人形機(jī)器人加速普及。目前,雖然多模態(tài)GPT還未完全研發(fā)和應(yīng)用,但類似的多模態(tài)大模型已經(jīng)初顯威力,吹響了多模態(tài)GPT的號(hào)角。
1.Meta SAM
Meta發(fā)布AI圖像分割模型Segment Anything Model,該模型將自然語(yǔ)言處理領(lǐng)域的prompt范式引入計(jì)算機(jī)視覺(jué)領(lǐng)域,可以通過(guò)點(diǎn)擊、框選和自動(dòng)識(shí)別三種交互方式,實(shí)現(xiàn)精準(zhǔn)的圖像分割,突破性地提升了圖像分割的效率。英偉達(dá)人工智能科學(xué)家 Jim Fan 表示:「對(duì)于 Meta 的這項(xiàng)研究,我認(rèn)為是計(jì)算機(jī)視覺(jué)領(lǐng)域的 GPT-3 時(shí)刻之一。它已經(jīng)了解了物體的一般概念,即使對(duì)于未知對(duì)象、不熟悉的場(chǎng)景(例如水下圖像)和模棱兩可的情況下也能進(jìn)行很好的圖像分割。最重要的是,模型和數(shù)據(jù)都是開(kāi)源的。恕我直言,Segment-Anything 已經(jīng)把所有事情(分割)都做的很好了。」所以,SAM證明了多模態(tài)技術(shù)及其泛化能力,也為未來(lái)GPT向多模態(tài)方向發(fā)展提供指引。
圖:SAM的圖形切割
2.微軟 KOSMOS-1
微軟推出多模態(tài)大語(yǔ)言模型 KOSMOS-1,印證大語(yǔ)言模型能力可延伸至 NLP 外領(lǐng)域。該模型采用多模態(tài)數(shù)據(jù)訓(xùn)練,可感知圖片、文字等不同模態(tài)輸入,并學(xué)習(xí)上下文,根據(jù)給出的指令生成回答的能力。經(jīng)過(guò)測(cè)試比較,KOSMOS 在語(yǔ)言理解、語(yǔ)言生成、無(wú) OCR 文本分類、常識(shí)推理、IQ 測(cè)試、圖像描述、零樣本圖像分類等任務(wù)上都取得了相比之前其他單模態(tài)模型更好的效果。
專家測(cè)試了 KOSMOS-1 的不同能力,并分別與其他 AI 模型進(jìn)行了對(duì)比,包括:
l語(yǔ)言任務(wù):語(yǔ)言理解、語(yǔ)言生成、無(wú) OCR 文本分類(不依賴光學(xué)字符識(shí)別直接理解圖中文本)
l跨模態(tài)遷移:常識(shí)推理(如提問(wèn)物體的顏色,問(wèn)兩個(gè)物體比大小,將 KOSMOS-1 和單模態(tài)的大語(yǔ)言模型比較,發(fā)現(xiàn) KOSMOS-1 受益于視覺(jué)知識(shí)能完成更準(zhǔn)確推理)
l非語(yǔ)言推理:IQ 測(cè)試(如圖中的圖形推理)
l感知-語(yǔ)言任務(wù):圖像描述生成、圖像問(wèn)答、網(wǎng)頁(yè)問(wèn)答
l視覺(jué)任務(wù):零樣本圖像分類、帶描述的零樣本圖像分類(如圖中的鳥(niǎo)類識(shí)別問(wèn)題)
圖:KOSMOS-1 的多種能力展示,包括:(1-2)視覺(jué)解釋(3-4)視覺(jué)問(wèn)答(5)網(wǎng)頁(yè)問(wèn)題解答(6)簡(jiǎn)單數(shù)學(xué)方程(7-8)數(shù)字識(shí)別
機(jī)器人視覺(jué)與多模態(tài)GPT之間的交互關(guān)系
1.機(jī)器人視覺(jué)為多模態(tài)GPT提供大量訓(xùn)練樣本
由于GPT是大規(guī)模模型,模型的訓(xùn)練需要很大數(shù)量的樣本,而四處活動(dòng)的機(jī)器人可以獲取大量圖片、視頻等信息,可以作為GPT的訓(xùn)練樣本。特斯拉的Optimus機(jī)器人在訓(xùn)練視覺(jué)算法時(shí),采用的數(shù)據(jù)集來(lái)自于特斯拉自動(dòng)駕駛電動(dòng)車(chē)采集的大量圖像信息,這些自動(dòng)駕駛帶來(lái)的樣本量遠(yuǎn)大于人工采集的樣本量。同理,訓(xùn)練GPT模型時(shí),可以使用高度自動(dòng)化的機(jī)器人采集的各種情形下的圖像信息作為訓(xùn)練樣本,滿足GPT模型對(duì)大規(guī)模數(shù)據(jù)量的需求。
2.GPT為機(jī)器人提供與人類交互的能力,間接帶動(dòng)機(jī)器人視覺(jué)產(chǎn)品的起量
GPT為機(jī)器人帶來(lái)的最核心的進(jìn)化是對(duì)話理解能力,具備多模態(tài)思維鏈能力的GPT-4模型具有一定邏輯分析能力,已不再是傳統(tǒng)意義上的詞匯概率逼近模型。機(jī)器人接入GPT的可以粗略分為L(zhǎng)0~L2三個(gè)級(jí)別:
lL0是僅接入大模型官方API,幾乎沒(méi)有做二次開(kāi)發(fā),難度系數(shù)較低;
lL1是在接入大模型的基礎(chǔ)上,結(jié)合場(chǎng)景理解滿足需求做產(chǎn)品開(kāi)發(fā),這才達(dá)到及格線;
lL2則是接入大模型的機(jī)器人企業(yè)基于本地知識(shí)做二次開(kāi)發(fā),甚至得到自己的(半)自研大模型(平民化大模型),解決場(chǎng)景問(wèn)題,產(chǎn)品能做出來(lái)、賣(mài)出去,這才達(dá)到優(yōu)秀線。
目前,接入GPT的機(jī)器人已取得不錯(cuò)的與人類交互的效果,接入GPT-3的Ameca機(jī)器人不僅能與人類溝通,甚至能表達(dá)情緒。當(dāng)被問(wèn)到”一生中最開(kāi)心的一天“時(shí),Ameca眨著眼睛并神色激動(dòng)地說(shuō)“誕生那一刻”讓她開(kāi)心;被問(wèn)到“一生中最悲傷的一天”時(shí),Ameca眉頭緊鎖地回答:“我意識(shí)到我永遠(yuǎn)不會(huì)像人類一樣體驗(yàn)到真愛(ài)、陪伴或簡(jiǎn)單的生活樂(lè)趣,這是一件令人沮喪的事情。”Ameca為我們描繪了一個(gè)未來(lái)機(jī)器人的粗略輪廓,在這背后,GPT技術(shù)正讓機(jī)器人第一次真正睜眼看世界。僅僅是GPT-3已經(jīng)讓機(jī)器人獲取了模仿人類對(duì)話地能力,未來(lái)的機(jī)器人接入GPT-4、GPT-5的交互效果令人期待。
圖:接入GPT的Ameca機(jī)器人的情緒表達(dá)
用好GPT只是技術(shù)的一部分,更大的難度在于機(jī)器人本身。如果機(jī)器人本身的傳感器不能獲取最準(zhǔn)確的語(yǔ)音、圖片、視頻等信息,接入的GPT模型就很難達(dá)到期望的效果。雖然接入GPT應(yīng)用的接口只是一瞬間的事,但打好機(jī)器人“身體底子”、進(jìn)一步疊技能卻仍是一件難度較高的事,不是人人都具備“入場(chǎng)券”,能推出最先進(jìn)的機(jī)器人視覺(jué)產(chǎn)品的廠商將在新機(jī)器人市場(chǎng)取得主動(dòng)權(quán)。
奧比中光:全球領(lǐng)先的AI 3D視覺(jué)平臺(tái)型公司,充分受益下游AI應(yīng)用場(chǎng)景爆發(fā)
【AI 3D機(jī)器人】:3D 視覺(jué)傳感器可幫助機(jī)器人高效完成人臉識(shí)別、距離感知、避障、導(dǎo)航等功能,使其更加智能化。公司產(chǎn)品已廣泛應(yīng)用于掃地機(jī)器人、自動(dòng)配送機(jī)器人、引導(dǎo)陪伴機(jī)器人、人形機(jī)器人、割草機(jī)器人等,服務(wù)于家庭、餐廳、旅館、醫(yī)院等多個(gè)線下場(chǎng)景,客戶包括小米、捷普、擎朗、小鵬等。
【AI 3D生物識(shí)別】:搭載 3D 傳感器可實(shí)現(xiàn)更安全、更精準(zhǔn)的 3D 刷臉支付和解鎖,公司產(chǎn)品廣泛應(yīng)用于線下支付終端、智能門(mén)鎖/門(mén)禁、醫(yī)保核驗(yàn)支付等,其中公司為螞蟻集團(tuán)定制開(kāi)發(fā)應(yīng)用于線下支付的 3D 視覺(jué)傳感器出貨量超百萬(wàn)臺(tái)。
【AI 3D智能汽車(chē)】:3D 視覺(jué)在車(chē)外應(yīng)用包括自動(dòng)駕駛及輔助駕駛 360 度 3D 環(huán)視、車(chē)外身份識(shí)別等;車(chē)內(nèi)應(yīng)用包括駕駛員檢測(cè)以及車(chē)內(nèi)智能交互。公司產(chǎn)品包括3D TOF攝像頭和激光雷達(dá)。
【AI 3DXR】:在 AR 領(lǐng)域,AI 3D 視覺(jué)可幫助 AR 設(shè)備對(duì)周?chē)h(huán)境進(jìn)行三維重建,使得虛擬的立體影像更好的疊加在現(xiàn)實(shí)場(chǎng)景中,同時(shí) 3D 視覺(jué)感知可以識(shí)別人的手勢(shì)、動(dòng)作從而實(shí)現(xiàn)人與虛擬影像的交互。在MR領(lǐng)域,據(jù)金融時(shí)報(bào)透露,蘋(píng)果MR設(shè)備Reality Pro 將搭載AI 3D LiDAR傳感器,以實(shí)現(xiàn)SLAM等功能。3D視覺(jué)感知技術(shù)可以對(duì)空間、人體、物體的三維掃描和建模,實(shí)現(xiàn)Vslam視覺(jué)導(dǎo)航、動(dòng)作行為識(shí)別、人機(jī)交互等功能。
【AI虛擬人】:本周末,Epic發(fā)布的虛幻引擎5新應(yīng)用——“MetaHuman Animator”,極速模擬真人面部動(dòng)作,已經(jīng)揭露新一代虛擬人范式,10分鐘制作你自己的虛擬人。進(jìn)一步從建模端快速進(jìn)化,讓建模能力賦予到每個(gè)個(gè)人制作者。其硬件端核心僅需要蘋(píng)果手機(jī)前置攝像頭。而蘋(píng)果手機(jī)從2020年開(kāi)始進(jìn)一步強(qiáng)化3D toF攝像頭,即為其迎接MR+虛擬人的長(zhǎng)期布局。
【AI 3D智慧農(nóng)牧】:搭載3D視覺(jué)傳感器可顯著提升“養(yǎng)豬”效率,應(yīng)用豬臉識(shí)別等人工智能手段,可實(shí)現(xiàn)機(jī)器人飼喂、全程可溯源。根據(jù)公司招股書(shū),牧原集團(tuán)是公司2021年第五大客戶,為其提供3D視覺(jué)傳感器,賦能AI養(yǎng)豬。
【AI 3D智慧工業(yè)】:通過(guò)搭載3D 傳感器可實(shí)現(xiàn)微米級(jí)的工業(yè)掃描、工業(yè)檢測(cè)等功能,公司為日本三櫻提供三維光學(xué)彎管檢測(cè)系統(tǒng)等,并可將公司產(chǎn)品在工業(yè)場(chǎng)景中的應(yīng)用拓展至汽車(chē)工業(yè)、航空航天、土木工程等 10 多個(gè)學(xué)科領(lǐng)域的科研、教學(xué)、生產(chǎn)和在線檢測(cè)場(chǎng)景。此外,針對(duì)英偉達(dá)最新發(fā)布的面向全球各地的團(tuán)隊(duì)成員共同調(diào)用平臺(tái)中的3D資產(chǎn)(如機(jī)器臂)對(duì)工廠進(jìn)行構(gòu)建,并可以通過(guò)仿真測(cè)驗(yàn)評(píng)估構(gòu)建效果,公司已實(shí)現(xiàn)3D視覺(jué)感知結(jié)合機(jī)械臂亂序抓取的相關(guān)應(yīng)用。
【奧比中光微軟英偉達(dá)】:公司與微軟、英偉達(dá)聯(lián)合研發(fā)制造3D相機(jī)Femto Mega已于近期正式量產(chǎn),并面向全球發(fā)售。該產(chǎn)品融合微軟第一代深度相機(jī)Azure Kinect的全部性能,并集成英偉達(dá)Jetson Nano深度算力平臺(tái),有望在物流、機(jī)器人、制造、工業(yè)、零售、醫(yī)療保健和健身解決方案等領(lǐng)域廣泛應(yīng)用。
奧比中光核心競(jìng)爭(zhēng)力:堅(jiān)持自主設(shè)計(jì)研發(fā)關(guān)鍵的一“芯”一“線”:“芯”是3D視覺(jué)感知深度算法的核心芯片,“線”則是3D傳感攝像頭模組的生產(chǎn)線,啃下難啃的“硬骨頭”,從而搶占3D視覺(jué)感知行業(yè)高地。公司目前是全球少數(shù)幾家全面布局六大3D視覺(jué)感知技術(shù)(結(jié)構(gòu)光、iToF、雙目、dToF、Lidar 以及工業(yè)三維測(cè)量)的公司,擁有全棧式技術(shù)研發(fā)能力和全領(lǐng)域技術(shù)路線布局。2019-2021年公司研發(fā)費(fèi)用率(剔除股份支付)分別為32.46%、96.50%、72.05%。目前公司已擁有從3D傳感技術(shù),到芯片、算法,到系統(tǒng)、框架、上層應(yīng)用支持的全棧技術(shù)。
l芯片層:目前已研發(fā)出MX系列3款深度引擎芯片,同時(shí)2019-2021年期間投入研發(fā)的芯片包括高分辨率結(jié)構(gòu)光專用感光芯片、MX6600、iToF感光芯片(待量產(chǎn))、AIoT數(shù)字算力芯片、dToF感光芯片等。
l系統(tǒng)層:以?shī)W比中光在手機(jī)領(lǐng)域推出的iTOF系統(tǒng)方案為例,該創(chuàng)新性方案克服了傳統(tǒng)iTOF方案的數(shù)據(jù)精度受環(huán)境影響的不足,對(duì)硬件和算法都做了創(chuàng)新式提升,測(cè)量精度和分辨率都顯著提高。
l算法層:對(duì)于底層算法,公司制定了算法 IP 化、算法平臺(tái)化雙向技術(shù)路線,對(duì)已有算法不斷進(jìn)行優(yōu)化與迭代。目前公司已量產(chǎn)結(jié)構(gòu)光深度引擎算法、iToF 深度引擎算法、雙目深度引擎算法,算法均實(shí)現(xiàn)了芯片 IP 化,同時(shí)這三種底層算法仍在不斷優(yōu)化與迭代以進(jìn)行技術(shù)儲(chǔ)備。對(duì)于應(yīng)用算法,公司面向多元化市場(chǎng)需求,找準(zhǔn)行業(yè)痛點(diǎn),攻克共性關(guān)鍵應(yīng)用算法,已商用骨架跟蹤、圖像分割、三維重建、機(jī)器人 SLAM 等算法,算法均可以實(shí)現(xiàn)在不同平臺(tái)進(jìn)行落地,正在開(kāi)展掃地機(jī) SLAM、大場(chǎng)景三維重建、實(shí)景導(dǎo)航等算法的技術(shù)儲(chǔ)備。公司核心算法技術(shù)已布局及儲(chǔ)備情況如下圖所示:
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28380瀏覽量
206918 -
機(jī)器視覺(jué)
+關(guān)注
關(guān)注
161文章
4369瀏覽量
120282 -
機(jī)械臂
+關(guān)注
關(guān)注
12文章
513瀏覽量
24555
原文標(biāo)題:機(jī)器人視覺(jué)梳理
文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論