從本科到研究生階段,再到2014年出來(lái)創(chuàng)業(yè)以后,這前后大概5年的時(shí)間里,我始終聚焦在視覺(jué)領(lǐng)域的學(xué)習(xí)。所以能夠比較清晰地看到,在這幾年時(shí)間里,以視覺(jué)為核心的,包括人臉識(shí)別、物體識(shí)別、空間定位、導(dǎo)航避障等在內(nèi)的感知層算法正在隨著底層人工智能的基礎(chǔ)型算法架構(gòu)(比如我們現(xiàn)在熟知的機(jī)器學(xué)習(xí)、深度學(xué)習(xí),以及最近很火的增強(qiáng)學(xué)習(xí))和硬件傳感器的發(fā)展產(chǎn)生著日新月異的變化。
在實(shí)驗(yàn)室的時(shí)候,我的主要研究方向是為特種機(jī)器,包括微小型的無(wú)人機(jī)、功能性的機(jī)器人構(gòu)建一套以視覺(jué)感知為主的機(jī)器人視覺(jué)系統(tǒng),而在2011年后發(fā)展起來(lái)的這一波感知層算法的進(jìn)步與傳感器硬件上面的推陳出新恰恰為這樣的研究提供了有利的支持,以至于到今天推動(dòng)了整個(gè)資本市場(chǎng)上對(duì)于人工智能項(xiàng)目的大熱與追捧。
下面,我將從機(jī)器人視覺(jué)系統(tǒng)、視覺(jué)技術(shù)原理和未來(lái)發(fā)展趨勢(shì)三個(gè)方面,為大家講述我們是如何為機(jī)器人構(gòu)建起一個(gè)“三維世界”的。
機(jī)器人視覺(jué)系統(tǒng)發(fā)展與三維視覺(jué)的興起
我們知道“機(jī)器人”這一名詞是1920年一位捷克作家在一本科幻劇中提出的,到了1950年前后,另一位美國(guó)作家阿西莫夫才系統(tǒng)性的提出了“機(jī)器人學(xué)”這一概念,并給出了著名的機(jī)器人三定律。在那之后,從1970年,隨著計(jì)算機(jī)的興起,現(xiàn)代控制技術(shù)、傳感器技術(shù)的發(fā)展,機(jī)器人開(kāi)始了真正的產(chǎn)品化的進(jìn)程。也正是從那個(gè)時(shí)候開(kāi)始,搭載一顆基于CCD芯片攝像頭的機(jī)器人,可以為人們提供某一時(shí)刻的光學(xué)影像信息記錄,而這也形成了最早期的機(jī)器人視覺(jué)系統(tǒng)。值得一提的是,1969年美國(guó)的阿波羅登月飛船上搭載的正是基于CCD感光芯片的照相機(jī),為機(jī)器人視覺(jué)系統(tǒng)的硬件架構(gòu)提供了系統(tǒng)性的參照。由于具備一定的簡(jiǎn)單的記憶存儲(chǔ)能力,那個(gè)時(shí)候的機(jī)器人可以進(jìn)行簡(jiǎn)單的重復(fù)作業(yè),但是對(duì)周圍環(huán)境沒(méi)有任何感知與反饋控制能力,我們稱當(dāng)時(shí)的機(jī)器人為第一代機(jī)器人。
時(shí)間推進(jìn)到80年代,視覺(jué)傳感器、力觸覺(jué)傳感器、接近傳感器和計(jì)算機(jī)在這一時(shí)期進(jìn)入到了快速發(fā)展期,特別是摩爾定律的發(fā)現(xiàn)代表著信息技術(shù)的發(fā)展速度在這一時(shí)期確確實(shí)實(shí)到了頂峰。這一時(shí)期的機(jī)器人已經(jīng)具備了一定的感知能力,能夠獲取作業(yè)環(huán)境與作業(yè)對(duì)象的部分信息,并進(jìn)行一定的實(shí)時(shí)處理,引導(dǎo)機(jī)器人進(jìn)行作業(yè)。比如下圖我們看到的當(dāng)時(shí)美國(guó)斯坦福研究所開(kāi)發(fā)實(shí)現(xiàn)的Shakey移動(dòng)機(jī)器人,擁有電子攝像頭、測(cè)距儀等感知設(shè)備,建立了一套底層到頂層的分層控制機(jī)制和當(dāng)時(shí)最先進(jìn)的視覺(jué)系統(tǒng),用來(lái)幫助機(jī)器人在非結(jié)構(gòu)化的環(huán)境中進(jìn)行獨(dú)立的推理、運(yùn)動(dòng)規(guī)劃與實(shí)時(shí)控制。這是當(dāng)時(shí)人工智能技術(shù)應(yīng)用于移動(dòng)機(jī)器人最為成熟的成果之一,Shakey的誕生自此也揭開(kāi)了智能移動(dòng)機(jī)器人研究的大幕。
自此以后,世界各國(guó)都開(kāi)始投入到了對(duì)移動(dòng)機(jī)器人的研究上,而在這之中,視覺(jué)系統(tǒng)更是被公認(rèn)為是機(jī)器人走向智能的核心入口。因?yàn)樵谘芯康耐七M(jìn)中,人們需要機(jī)器人對(duì)環(huán)境擁有更完善的感知能力、邏輯思維能力、判斷決策能力,甚至是根據(jù)作業(yè)要求與環(huán)境信息進(jìn)行自主的工作。比如美國(guó)DARPA在90年代研究的ALV自主車可以選擇路標(biāo)識(shí)別實(shí)現(xiàn)導(dǎo)航,達(dá)到10km/h的移動(dòng)虛度,還采用了立體視覺(jué)、衛(wèi)星導(dǎo)航等當(dāng)時(shí)的先進(jìn)技術(shù)。2004年NASA研制的火星探測(cè)器機(jī)遇號(hào)與勇氣號(hào)成功在火星表面登陸,搭載當(dāng)時(shí)最為先進(jìn)的圖像采集與立體視覺(jué)技術(shù),幫助探測(cè)器在復(fù)雜的星球表面完成各項(xiàng)未知任務(wù)。而也正是在這樣一個(gè)時(shí)期,三維視覺(jué)系統(tǒng)在移動(dòng)機(jī)器人上的重要性被首次提出。
通過(guò)上面的介紹,不難發(fā)現(xiàn),從上個(gè)世紀(jì)六七十年代發(fā)展起來(lái)的機(jī)器人視覺(jué)系統(tǒng),到今天,實(shí)際上是建立在不同時(shí)期最先進(jìn)的算法技術(shù)和硬件傳感器的基礎(chǔ)之上的。在視覺(jué)系統(tǒng)的算法技術(shù)上,通過(guò)幾十年的發(fā)展,形成了用戶交互、識(shí)別感知、運(yùn)動(dòng)決策和數(shù)據(jù)優(yōu)化4個(gè)層級(jí),分別對(duì)應(yīng)實(shí)現(xiàn)體感識(shí)別、目標(biāo)跟隨、人眼跟隨;地圖構(gòu)建、場(chǎng)景理解、物體識(shí)別;定位定姿、自主導(dǎo)航、路徑規(guī)劃;圖像優(yōu)化、深度優(yōu)化、其他數(shù)據(jù)優(yōu)化等諸多今天大家耳熟能詳?shù)乃惴āT谟布鞲衅魃?,也主要分為前端傳感器表現(xiàn),集成處理芯片和嵌入式算法三個(gè)層級(jí)。在今天的鈦坦白分享課上,我會(huì)主要介紹一下三維視覺(jué)的主要實(shí)現(xiàn)原理。
在前面的介紹中,我們看到,機(jī)器人視覺(jué)系統(tǒng)一路走來(lái),和光學(xué)傳感器的演進(jìn)密不可分。可以說(shuō)視覺(jué)系統(tǒng)幾十年的發(fā)展史,就是光學(xué)傳感器的演進(jìn)史。今天,我們大體將機(jī)器人視覺(jué)系統(tǒng)中搭載的視覺(jué)傳感器分為三類:以單線激光雷達(dá)為代表的一維線陣傳感器,以嵌入式攝像頭為代表的二維面陣傳感器和以特殊光源為代表的三維深度傳感器。其中,以特殊光源為代表的三維深度傳感器是實(shí)現(xiàn)機(jī)器人三維視覺(jué)系統(tǒng)的最主要也是最關(guān)鍵的傳感器,三維數(shù)據(jù)的獲取質(zhì)量直接影響了移動(dòng)機(jī)器人后端的算法結(jié)果與決策控制。
目前實(shí)現(xiàn)三維深度傳感器的主流技術(shù)大體在2010年后發(fā)展起來(lái),路線有以下幾類:基于單目結(jié)構(gòu)光技術(shù)路線、基于雙目結(jié)構(gòu)光技術(shù)路線以及基于飛行時(shí)間法技術(shù)路線。速感科技在今年的11月份,面向服務(wù)機(jī)器人廠商推出的M-32三維傳感器就是基于其中的雙目結(jié)構(gòu)光原理實(shí)現(xiàn)的,且集成嵌入式視覺(jué)算法的視覺(jué)傳感器。結(jié)構(gòu)光的原理是利用激光的光學(xué)衍射原理,通過(guò)傳感器投射出特定的圖案,用以加速或輔助深度圖的獲取。其中特定的圖案可以分為規(guī)則、偽隨機(jī)或隨機(jī)點(diǎn)狀散斑和特殊圖形斑幾類,其優(yōu)勢(shì)在于精度高,刷新率快,但缺點(diǎn)是不適合在戶外強(qiáng)光下的環(huán)境進(jìn)行使用。飛行時(shí)間的原理也稱TOF原理,是利用調(diào)制光源在不同距離接收到的相位不同從而根據(jù)光的傳播速度反算距離這一原理實(shí)現(xiàn)的深度獲取,這一原理的優(yōu)勢(shì)測(cè)量精度不會(huì)隨著距離遞減,但劣勢(shì)是分辨率低且環(huán)境擾動(dòng)大。
基于視覺(jué)的機(jī)器人感知技術(shù)SLAM
講到基于視覺(jué)的機(jī)器人感知算法原理,就不得不提到這兩年大火的SLAM技術(shù)。 SLAM (simultaneous localization and mapping,即時(shí)定位與地圖構(gòu)建。由于其重要的理論與應(yīng)用價(jià)值,被很多學(xué)者認(rèn)為是實(shí)現(xiàn)真正全自主移動(dòng)機(jī)器人的關(guān)鍵。
我和我的合伙人2012年開(kāi)始接觸這一技術(shù),到2014年創(chuàng)業(yè)的時(shí)候,除了國(guó)內(nèi)一些研究機(jī)器人自動(dòng)化技術(shù)的實(shí)驗(yàn)室和老師,幾乎做圖形圖像的學(xué)術(shù)圈都沒(méi)怎么聽(tīng)說(shuō)過(guò)SLAM,更不用說(shuō)當(dāng)時(shí)的創(chuàng)業(yè)公司和資本市場(chǎng)。而今天,幾乎整個(gè)人工智能領(lǐng)域似乎都對(duì)SLAM這一技術(shù)報(bào)以了極大的關(guān)注度與期望,這實(shí)際上是和這一技術(shù)在今天對(duì)于機(jī)器人和人工智能的重要地位以及代表性產(chǎn)品的推出是分不開(kāi)的。我認(rèn)為SLAM技術(shù)在資本市場(chǎng)上獲得極大的關(guān)注度有很大一部分原因是去年美國(guó)明星創(chuàng)業(yè)團(tuán)隊(duì)Magic Leap在AR領(lǐng)域的技術(shù)探索,微軟公司在去年推出的Hololens以及今年10月份Google開(kāi)源了一套SLAM算法密不可分的。由于在這之前,大家都沒(méi)有聽(tīng)說(shuō)過(guò)SLAM這一技術(shù),更不必說(shuō)意識(shí)到這一技術(shù)在2010年后在機(jī)器人領(lǐng)域取得突飛猛進(jìn)的進(jìn)步。當(dāng)有代表性的產(chǎn)品或者公司將這一技術(shù)運(yùn)用起來(lái),便一下子引起了大家的關(guān)注。
今天我和大家介紹一些2010年后隨著三維視覺(jué)傳感器的興起,SLAM的進(jìn)一步演進(jìn),也就是今天我們應(yīng)用在各種移動(dòng)機(jī)器人上的vSLAM(基于視覺(jué)的同時(shí)定位與構(gòu)圖技術(shù)),是如何建立起來(lái)并且被應(yīng)用在機(jī)器人的自主導(dǎo)航、路徑規(guī)劃等方案中的。
從2012年開(kāi)始在實(shí)驗(yàn)室的接觸研究,再到后來(lái)成立速感和同事們推進(jìn)技術(shù)的迭代中,我覺(jué)得對(duì)于SLAM到今天為止,有三個(gè)里程碑式的事件:
2000年左右的國(guó)際機(jī)器人研討會(huì)上,首次給出了SLAM這一基本框架和收斂性的驗(yàn)證結(jié)果,并針對(duì)這一理論給出了具體的證明和結(jié)論,自此,以MIT、悉尼大學(xué)為代表的研究移動(dòng)機(jī)器人地圖構(gòu)建和定位的學(xué)術(shù)圈前輩才正式開(kāi)始致力于SLAM技術(shù)的研究,補(bǔ)充并完善的給出了SLAM的技術(shù)可行性依據(jù)。在這之前盡管SLAM這一理論被提出有10年之久,但學(xué)術(shù)圈普遍認(rèn)為這一理論得到的地圖估計(jì)誤差是不收斂的,因此不能通過(guò)處理一個(gè)同時(shí)包含機(jī)器人定位與特征路標(biāo)位置的聯(lián)合狀態(tài)對(duì)模型進(jìn)行求解從而得到結(jié)果;
2011年前后,正好是我進(jìn)入到實(shí)驗(yàn)室,和實(shí)驗(yàn)室的師兄師弟開(kāi)始對(duì)無(wú)人機(jī)視覺(jué)系統(tǒng)的定位定姿與地圖構(gòu)建進(jìn)行系統(tǒng)性的學(xué)習(xí)與開(kāi)發(fā)的階段,以Kinect 1為代表的視覺(jué)傳感器開(kāi)始在SLAM研究領(lǐng)域興起,為SLAM的大踏步發(fā)展奠定了底層硬件上的基礎(chǔ)契機(jī)。從整個(gè)機(jī)器人視覺(jué)系統(tǒng)的發(fā)展歷程來(lái)看,任何一個(gè)關(guān)鍵技術(shù)的應(yīng)用需要一個(gè)較長(zhǎng)時(shí)間的技術(shù)轉(zhuǎn)化周期,而突破性的進(jìn)展離不開(kāi)底層關(guān)鍵元器件、計(jì)算芯片或傳感器的支持。而我認(rèn)為,三維視覺(jué)傳感器的興起正是為SLAM的發(fā)展提供了這樣的關(guān)鍵一步;
從去年開(kāi)始到今年的這一波世界范圍內(nèi)的人工智能浪潮。誠(chéng)然我們需要看清楚的是,在這一次人工智能復(fù)興的浪潮中,存在很多被稱為“偽命題”的黑科技,但是也要清楚的看到隨著深度學(xué)習(xí)、增強(qiáng)學(xué)習(xí)以及遷移學(xué)習(xí)這樣基礎(chǔ)性的數(shù)據(jù)訓(xùn)練與學(xué)習(xí)方式的變革,帶動(dòng)了一批過(guò)去我們看來(lái)在實(shí)際商業(yè)化與產(chǎn)品化并不成熟的行業(yè)。比如VR/AR,比如無(wú)人駕駛,再比如機(jī)器人、無(wú)人機(jī)。很幸運(yùn)的是,在目前最熱的人工智能涉及到的這三個(gè)行業(yè)中,我們都看到了SLAM的影子,并且看到了這一技術(shù)在這其中所發(fā)揮出的巨大價(jià)值。
今天廣泛被人們討論和學(xué)習(xí)的vSLAM,簡(jiǎn)單來(lái)說(shuō),是SLAM技術(shù)發(fā)展到今天結(jié)合目前的底層技術(shù)實(shí)現(xiàn)與硬件,離產(chǎn)品化最近的一種表現(xiàn)形式。針對(duì)不同端的應(yīng)用需求,被分為了sparse(稀疏)和dense(稠密)兩大類,前者側(cè)重空間中對(duì)位置的感知與描述,后者側(cè)重空間中對(duì)環(huán)境的構(gòu)建與理解,但無(wú)論是哪一類,其基礎(chǔ)性的構(gòu)造框架對(duì)于數(shù)據(jù)的處理一定是分為前端和后端兩部分的。其中前端用來(lái)對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)的特征提取、剔除噪聲、幀匹配得到位置轉(zhuǎn)移向量,這一部分又可以單獨(dú)作為輕量級(jí)的視覺(jué)定位定姿算法,成為VO,常見(jiàn)的優(yōu)化包括加入IMU慣性測(cè)量單元數(shù)據(jù)進(jìn)行計(jì)算,也叫VIO。后端主要從全局的角度出發(fā),通過(guò)濾波算法、圖優(yōu)化、樹(shù)優(yōu)化等方法對(duì)前端得到的結(jié)果進(jìn)行閉環(huán)檢測(cè)、循環(huán)迭代等方法的二次優(yōu)化,最終得到最優(yōu)的計(jì)算結(jié)果。
對(duì)于SLAM算法,很多人覺(jué)得掌握了SLAM算法就解決了機(jī)器人移動(dòng)這樣關(guān)鍵性的基本問(wèn)題,事實(shí)上并非如此。SLAM在今天之于人工智能機(jī)器人等領(lǐng)域的發(fā)展上,已經(jīng)越來(lái)越像深度神經(jīng)網(wǎng)絡(luò)一樣,成為一項(xiàng)基礎(chǔ)性的工具。一個(gè)表現(xiàn)好的SLAM框架可以幫助我們得到一個(gè)魯棒性高的空間運(yùn)動(dòng)模型和空間環(huán)境模型,但是只是讓機(jī)器人看到了世界,并不能真正指導(dǎo)機(jī)器人的決策,因此我們需要利用這樣的模型,回到具體環(huán)境中有針對(duì)性的進(jìn)行接下來(lái)的自主導(dǎo)航與路徑規(guī)劃等方案的開(kāi)發(fā)。目前我們基于vSLAM算法,針對(duì)機(jī)器人在環(huán)境中的全局路徑規(guī)劃和局部路徑規(guī)劃,我們開(kāi)發(fā)了一套魯棒性高,可以實(shí)時(shí)決策的路徑規(guī)劃與導(dǎo)航算法框架,可以有針對(duì)性的結(jié)合vSLAM得到的最優(yōu)計(jì)算結(jié)果,進(jìn)行有效的多傳感器融合與前端處理器的嵌入式集成,使其可以在不同復(fù)雜的環(huán)境中獲得良好的表現(xiàn)結(jié)果。
在這一點(diǎn)上,我覺(jué)得過(guò)去這幾年,人工智能的研究始終停留在對(duì)于感知算法的迭代優(yōu)化上,包括人臉識(shí)別、 語(yǔ)義分析等等,我們追求更高的測(cè)試與跑分結(jié)果,反倒是忽略了這樣的技術(shù)應(yīng)該如何更好地在商業(yè)領(lǐng)域、工業(yè)領(lǐng)域產(chǎn)生更多的價(jià)值。因此我們也發(fā)現(xiàn),從去年開(kāi)始的這一波人工智能浪潮,正在推動(dòng)學(xué)術(shù)界在人工智能的研究從感知向真正的決策與使用轉(zhuǎn)移。比如今天我們看到的VR/AR設(shè)備、無(wú)人駕駛汽車等等都是將這樣的技術(shù)在一個(gè)具體細(xì)分的行業(yè)里面加以實(shí)踐,實(shí)踐中遇到了棘手的問(wèn)題,然后尋找解決辦法,指導(dǎo)底層硬件進(jìn)行決策。我覺(jué)得這是真正的進(jìn)步,而在接下來(lái)的幾年,人工智能最大的增長(zhǎng)點(diǎn)應(yīng)該是如何幫助人們?nèi)?yōu)化地進(jìn)行決策。
三維視覺(jué)在機(jī)器人上的發(fā)展方向
機(jī)器人自誕生之日起,視覺(jué)功能就是其最核心的功能與智能化的入口,三維視覺(jué)已經(jīng)在近10年的發(fā)展中逐漸成為機(jī)器人的主流與標(biāo)準(zhǔn)配置,用以解決以往移動(dòng)機(jī)器人“看不見(jiàn)”這一難題。但是由于從目前的硬件發(fā)展局限性而言,依然存在計(jì)算量大、使用環(huán)境受限等問(wèn)題。針對(duì)更細(xì)分的應(yīng)用場(chǎng)景,設(shè)計(jì)實(shí)現(xiàn)三維視覺(jué)技術(shù)的小型化、模塊化、前端化將會(huì)成為今后兩到三年業(yè)內(nèi)主流的發(fā)展方向。
小型化:從CCD、CMOS芯片的相機(jī),再到一維、二維激光雷達(dá)及三維視覺(jué)傳感器,數(shù)據(jù)量在增加的同時(shí),小型化的體積更加利于系統(tǒng)的集成;
模塊化:機(jī)器人視覺(jué)系統(tǒng)功能與定位越來(lái)越明確,通用性的接口與標(biāo)準(zhǔn)正在逐步形成,行業(yè)進(jìn)入方向明確化發(fā)展階段;
前端化:GPU、FPGA、DSP等專用處理器飛速發(fā)展,通用處理器的計(jì)算資源需求正在被簡(jiǎn)化,將更側(cè)重于交互功能的實(shí)現(xiàn)。
在這條道路上,整個(gè)機(jī)器人行業(yè)正在興起,行業(yè)格局也越發(fā)清晰,產(chǎn)業(yè)鏈的上下游已經(jīng)初見(jiàn)成熟,希望速感科技目前在做的事情,能夠通過(guò)自身在發(fā)展中的不斷積累,真正的,實(shí)實(shí)在在的推動(dòng)正在興起的機(jī)器人產(chǎn)業(yè)的進(jìn)步與發(fā)展。(本文獨(dú)家首發(fā)鈦媒體,根據(jù)速感科技創(chuàng)始人、CEO陳震在鈦坦白上的分享整理)
陳震畢業(yè)于清華大學(xué)信息交叉學(xué)科(計(jì)算機(jī)方向)信息科學(xué)國(guó)家實(shí)驗(yàn)室,主攻機(jī)器人交互技術(shù)。是中關(guān)村雙創(chuàng)服務(wù)機(jī)器人產(chǎn)業(yè)聯(lián)盟(RFC)成員、2016中關(guān)村U30成員、北京市海淀區(qū)青年英才、“雛鷹計(jì)劃”成員、多所國(guó)際頂尖學(xué)術(shù)機(jī)構(gòu)訪問(wèn)學(xué)者。曾擔(dān)任國(guó)家重點(diǎn)科研項(xiàng)目負(fù)責(zé)人,獲全國(guó)大學(xué)生挑戰(zhàn)杯金獎(jiǎng),參與多項(xiàng)機(jī)器人研究項(xiàng)目合作,個(gè)人擁有多項(xiàng)國(guó)家科技發(fā)明專利及學(xué)術(shù)論文。速感科技是一家以機(jī)器視覺(jué)為核心的人工智能創(chuàng)業(yè)公司,目前已完成三輪融資。
評(píng)論
查看更多