在科幻小說中,機器人要么是與人類對立,要么是變異成壞人。但如今現實生活中機器人的應用大為不同。機器正代替人眼來看世界并加以行動,它們所到之處讓生活變得智慧化。
通過攝取圖像模擬人眼的視覺功能,提取信息然后加以分析處理,機器視覺已成為智慧城市過程中不可或缺的“第三只眼睛”,其應用領域也從食品生產流程管理、農業種植控制、醫學檢測等方面的個體需求到交通及安防等公共項目。其中我司深圳朗銳智科實業有限公司研發的雞蛋收集線計數器,就被投放到家禽養殖場使用,在使用過程中可以提高效率和降低成本。
隨著機器視覺的發展與進步,3D機器視覺迎來了自動化行業的巨大機遇,主要用于質量保證和檢測。據數據預測,2017年到2022年期間的復合年增長率將達到11.07%,2022年全球3D機器視覺市場規模有望達到21.3億美元。
在機器視覺頂會中,差不多會有半壁江山那么多的論文都是跟3D有關。前沿探索可謂瘋狂進行,那么有哪些三維圖像+機器視覺的新技術趨勢,今天正隱藏在未知迷霧中眺望這個世界?今天我們來說幾種很有科幻感的技術突破點。說不定這些能力明年就會出現在你的手機、VR設備和無人機中,又或許即將成為某個被資本瘋狂親吻的創業熱潮。
超大場景的3D數據感知
3D機器視覺包括很多方面,既有讓智能體去理解3D數據,也包括如何通過機器視覺的解決方案,去獲取3D模型數據。
傳統意義上的3D數據獲取,或者稱其為3D感知技術,一般來說可以利用多角度拍照或者深度傳感器的方式實現3D數據收集。這種技術的局限在于,收集的3D數據不能太大。
然而在3D資料要求不斷升級的今天,對于超大場景的3D數據感知,正在成為一個熱門議題。比如無人駕駛中使用的城市高精地圖,就可以看做一個個超大3D場景的拼接。智能城市領域運用到的很多城市數據推演,也要根植于對城市3D場景的收集。
機器視覺正在為超大場景的3D數據感知提供很多新的方法。比如自動化的成像方法,像視覺SLAM在線處理連續幀的圖像,實現實時重建巨大3D場景。再比如說對航拍數據進行點云分割和點云數據的語義理解,幫助快速低成本獲取城市3D數據。
總體來看,今天超大場景的3D數據感知,有三個主要應用方向,很可能分別成為各自技術領域中新的投資和創業熱點:
1、建筑物的3D高精度模型,運用在工程監理、智能設計、物流和智能城市領域。
2、高精地圖與3D數據感知的結合,這是無人駕駛的重要一環。
3、室內外一體的3D建模,這對于智能家居設計、環境監控、VR/AR體驗來說都有重要幫助。
手機與3D視覺進入蜜月期
目前,智能手機已經成為AR/AR以及計算視覺等先進技術發展的最大載體,人臉識別、AR功能成為當前智能手機發展的熱點,其實無論是在AR/VR領域還是識別技術,都離不開計算視覺。計算視覺領域其實就是運用計算機技術對生物視覺的一種模擬,其中深度識別和多維成像使其核心技術。
深度識別是計算視覺的關鍵前提,能夠對生物視覺進行識別,其中包括當前流行的蘋果人臉識別技術,多維成像將包括目前的3D顯示結局即對圖片以及視頻等進行3D畫面的再現。利用深度識別和多維成像技術,除了還原我們肉眼所能看到的畫面,未來隨著技術的不斷融合,深度識別技術還能是立體的展示我們肉眼所看不到的東西。例如,未來的智能手機可以在陽光下利用深度識別技術和人工智能技術的分析,識別紫外線的強度,提醒我們的防曬護膚。
AR/VR中的眼球追蹤技術
隨著技術的進步,我們現在已經能夠利用人類眼睛進行虹膜識別,虹膜識別相較面部識別、指紋識別都更加有效和安全,很多手機廠商開始開發使用虹膜識別功能。
除了虹膜識別之外,還有眼球追蹤技術。所謂眼球追蹤,是指一項技術能夠追蹤眼球的運動,并利用這種眼球運動來增強某個產品或服務的體驗。
眼球追蹤技術曾經在智能手機領域火了一陣,這可能要追溯到2013年Galaxy S4手機率先搭載了眼球追蹤功能,這項功能主要應用在視頻播放上面。舉個例子,如果你正在觀看一個視頻,然后你身后的同學拍了一下你肩膀,在你轉過頭的時候,由于你的眼睛已經不再看著屏幕,視頻會自動暫停,而當你回過頭來,視頻會自動繼續播放。不需要你用手去點擊暫停和播放;或者你在手機上看網頁,當你眼睛看到屏幕底部的時候,網頁會自動翻頁。同年,LG也推出了一款擁有眼球追蹤功能的LG Optimus G Pro手機。
可惜,眼球追蹤未能在手機領域掀起大風大浪,原因大概有兩點。首先用戶沒有需求,一款智能手機的平均尺寸大約只有5英寸,在這么一丁點兒大的地方,人們更喜歡直接用手指進行交互,何況手機絕大部分功能都是使用手指進行交互,所以也不多播放/暫停這個環節;第二個原因就是,當時技術不太成熟,分辨率低,識別不夠精準,導致有用戶覺得眼睛累。
3D視覺助力機器人產業智能化轉型
3D視覺作為一項激動人心的新技術,早已經出現在微軟Kinect、英特爾RealSense等消費級產品中。近幾年,隨著硬件端技術的不斷進步,算法與軟件層面的不斷優化,3D深度視覺的精度和實用性得到大幅提升,使得“3D深度相機+手勢/人臉識別”具備了大規模進入移動智能終端的基礎。作為全球手機當之無愧的龍頭,蘋果率先大規模采用3D視覺技術,將徹底激活3D視覺市場,開啟全新時代。
3D視覺技術不僅僅在識別精度方面大幅提升,更重要的是打開了更加廣闊的人工智能應用空間。隨著機器視覺、人工智能、人機交互等科學技術的發展,各種高智能機器人開始走進現實,3D視覺技術成為助力制造業實現“智能化”轉型的好幫手。
大家耳熟能詳的深度攝像頭技術和應用有英特爾的RealSense、微軟的?Kinect、蘋果的?PrimeSense、以及谷歌的Project Tango等。不過可以看到這一技術的研究和開發多為國外公司,國內計算視覺方面的公司或創業團隊屈指可數,技術上的壁壘依舊較大。
關于目前市場上的深度相機的技術方案主要有以下三種:?雙目被動視覺、結構光、TOF。雙目被動視覺主要是利用兩個光學攝像頭,通過左右立體像對匹配后,再經過三角測量法來得到深度信息。此算法復雜度高,難度很大,處理芯片需要很高的計算性能,同時它也繼承了普通RGB攝像頭的缺點:在昏暗環境下以及特征不明顯的情況下并不適用。
結構光的原理是通過紅外激光發射相對隨機但又固定的斑點圖案,這些光斑打在物體上后,因為與攝像頭距離不同,被攝像頭捕捉到的位置也不盡相同。然后先計算拍到的圖的斑點與標定的標準圖案在不同位置的位移,引入攝像頭位置、傳感器大小等參數計算出物體與攝像頭的距離。
微軟在Kinect二代采用的是ToF的技術。ToF是Time of flight的簡寫,直譯為飛行時間的意思。所謂飛行時間法3D成像,是通過給目標連續發送光脈沖,然后用傳感器接收從物體返回的光,通過探測光脈沖的飛行(往返)時間來得到目標物距離。相比之下,結構光技術的優勢是比ToF更加成熟,成本更低,更加適合用在手機等移動設備上。
深度攝像頭是所有需要三維視覺設備的必需模塊,有了它,設備就能夠實時獲取周圍環境物體三維尺寸和深度信息,更全面的讀懂世界。深度攝像頭給室內導航與定位、避障、動作捕捉、三維掃描建模等應用提供了基礎的技術支持,成為現今行業研究熱點。如今iPhone X搭載3D深度攝像頭勢必會大力推動機器視覺領域的發展,助力機器人產業實現完美“智能化轉型”。
更好的深度傳感器解決方案
還有一個機器視覺技術和3D的交匯,主要發生在無人機領域。
無人機今天進行測繪和航拍時,必須附帶對空間的理解能力,否則拍照不準事小,撞了南墻事大。而這個能力主要來自于攝像頭和傳感器進行空間閱讀。
隨著消費級無人機的不斷升級,人們對無人機拍攝效果要求也不斷升高。無人機必須不斷在更遠的距離、更極端的天氣、更復雜的運動中拍攝畫面。然而傳統的傳感系統解決方案已經快要跟不上用戶的期許。
今天的消費級無人機,一般采取兩種感知解決方案,一種是雙目視覺技術,比如大疆的某些產品;一種是結構光傳感器,比如微軟的Kinect。而這兩種主流方案都是有一定局限的,比如感知范圍都有限,難以完成遠距離作業。再比如雙目視覺技術在黑夜中會失靈,所以無人機夜拍一直是個大坑,然而結構光技術應對不來強光,一到中午無人機就石樂志也是很心塞的。
更好的解決方案,在于將傳感器與智能攝像頭結合起來,達成可以適應不同天候與天氣,并且可以長距離感知的新型傳感系統解決方案。
今天,用機器視覺技術中的很多算法,協調不同的傳感設備工作,讓無人機變成“多眼無人機”,正在成為流行的解決方案。機器視覺算法大量加入無人機傳感器,還可能帶來軌跡拍攝能力提升,讓無人機獲得拍攝整體環境,或者精準捕捉動態物體,比如說運動中的動物和車輛的能力。
以上幾個技術趨勢,都可能成為機器視覺和圖形學應用的下一步熱點。這個領域看似偏門,事實上卻能影響今天科技市場中的風吹草動。
讓機器看到立體世界的游戲才剛剛開始,機器與人類在某一天可以用同樣的視角相互凝視,或許才是這個故事的終點。
編輯:黃飛
?
評論
查看更多