本文討論了推動視覺應用快速發展和影響行業未來的關鍵趨勢,解釋了這些趨勢背后的推動因素,并強調了對技術供應商、解決方案開發者和最終用戶的關鍵影響。
早在2011年嵌入式視覺聯盟(EVA)成立時,其創始公司就認為,在廣泛的市場范圍內,在實用計算機視覺技術和解決方案領域的投資、創新和部署,將很快出現前所未有的增長。在不到十年后,這一預測就真正實現了。在過去的六年中,美國和中國在計算機視覺公司領域的投資都在加速,過去六年的投資額增長了100倍,并且增長速度沒有任何放緩的跡象(見圖1a)。
圖1a:全球在計算機視覺公司領域的投資顯著增加,并且沒有放緩跡象。(來源:Woodside Capital/Crunchbase)
這些投資正在刺激這些公司及其合作伙伴和客戶加速在視覺領域的研究、開發和部署活動。EVA會定期對視覺開發者社區就各種主題開展調查,最新調查結果表明,93%的被調查組織表示,未來一年中在視覺領域的投入會增加(其中61%表示會大幅增加)(見圖1b)。
圖1b:2019年,開發者在視覺領域的投入將顯著增加。(來源:EVA)
預計這些增加的活動將轉化為收入的增加;例如,Tractica最近發布的一份市場研究報告預測,從現在到2025年,計算機視覺市場(包括硬件、軟件和服務,見圖1c)的收入將增加25倍,到2025年將超過260億美元。
圖1c:全球范圍內對計算機視覺相關公司的投資,將驅動這些公司未來的收入大幅增長。
(來源:Tractica)
其中,有四大關鍵趨勢正在驅動這些增長,它們分別是:(1)深度學習;(2)3D傳感;(3)快速、便宜、節能的處理器;(4)硬件和軟件的普及化。
趨勢一、深度學習
傳統上,計算機視覺應用依賴于專用的算法,這些算法經過精心設計以識別特定的特征(如邊緣、角落、物體)。然而最近,卷積神經網絡(CNN)和其他深度學習方法已經在各種圖像理解任務上,表現得優于傳統算法。與傳統算法相比,深度學習方法是通過實例訓練的通用學習算法,來識別特定的特征,包括物體類型和位置。深度神經網絡(DNN)已經改變了計算機視覺領域,其在識別物體、在一幀圖像內定位物體以及確定哪個像素屬于哪個物體等功能上,都提供了優越的結果。即使是像光流和立體匹配這樣的已經用傳統技術能很好地解決的問題,現在也可以用深度學習技術找到更好的解決方案。
此外,基于深度學習的視覺處理方法,在解決許多問題上都優于傳統的計算機視覺算法。ImageNet圖像識別挑戰賽獲獎者的結果表明,從幾年前開始,在相同的任務和相同的數據集中,深度學習在識別物體方面的準確性開始超過典型的人類功能(見圖2a)。深度神經網絡也被訓練、以填補照片中缺失的補丁,與能夠熟練處理圖片的操作員的技能相匹配,同時能夠比人更快地提供處理結果。而且,訓練有素的神經網絡甚至開始產生遠超越技術嫻熟的人類所能做出的成就,例如從非常差的曝光照片中產生可接受的圖像(見圖2b)。
圖2a:現在深度學習算法在圖像中精確識別物體的能力,已經能夠與人類的能力相匹配。(來源:www.eff.org/ai/metrics)
圖2b:在某些情況下,深度學習算法可以產生超出人類能力的結果。(來源:Learning to See in the Dark, Chen Chen, Qifeng Chen, Jia Xu and Vladlen Koltun, CVPR 2018)
因此,不出所料,計算機視覺開發人員正越來越多地將深度學習技術添加到他們的工具箱中(見圖3)。EVA最近的調查結果顯示,59%的視覺系統和解決方案開發者已經在使用DNN,比兩年前的34%大幅增加。28%的人計劃在不久的將來使用DNN用于視覺智能。總體來看,87%的開發者已經使用或計劃使用神經網絡來執行計算機視覺功能。
圖3:87%的開發者已經使用或計劃在不久的將來使用神經網絡來執行計算機視覺功能。(來源:EVA)
趨勢二、3D傳感
2D圖像傳感器能夠在許多嵌入式視覺系統設計中,實現巨大的視覺能力。然而,它們無法辨別物體與傳感器之間的距離,這將導致某些視覺功能的實現非常困難或是無法實現。例如,手勢接口實現。識別運動的能力,包括上下、左右和前后,能夠大大擴展系統能夠解讀的手勢的多樣性、豐富性和精確性?;蛘呤侨四樧R別情況(見圖4):深度傳感在“確定被識別的物體是真實的人臉而非人臉的照片”方面,也很有價值。
圖4:人臉識別(上圖)和視覺同步定位和映射(下圖)是3D圖像傳感所實現的眾多功能中的兩個。(來源:appleinsider.com/pcc.disam.etsii.upm.es)
ADAS(汽車高級駕駛輔助系統)和其他受益于3D傳感器的半自動和全自動設備應用也非常豐富。例如,你可以很容易地想象,在公路上,你不僅能夠確定另一輛車或物體在你的前方或后方,而且還能準確地辨別它與你之間的距離。準確地確定車輛與限速標志之間的距離,對于確定多久必須把車速降下來、進而避免罰單同樣非常有用。
同樣,用于3D打印的3D物體掃描也是一個重要的應用案例。幸運的是,最近將3D光學傳感器引入手機和汽車等大批量生產應用中,不但加速了創新,而且使尺寸、成本和3D傳感的復雜性都有所降低(見圖5)。3D相機模塊通常包括某種形式的紅外照明,其同樣得益于最近顯著的成本降低趨勢,它在低光環境中以及在監控戴太陽鏡的車輛駕駛員的注意力方面,非常有用。
圖5:最新一代小型、低成本、低功耗3D相機實現了強大的視覺部署(上圖);它們的紅外照明模塊同樣越來越具有成本效益(下圖)。(來源:Microsoft/Intel/Occipital/Yole Développement)
在微軟Kinect游戲機外設首次亮相8年后,現在3D相機模塊已經準備好部署在成本和功率敏感的應用中。計算機視覺開發者正在對3D傳感采取積極行動和積極預測。EVA最近的調查顯示,近30%的開發者已經在使用3D傳感,26%的開發者計劃近期內在其項目中采用3D傳感功能(見圖6)。
圖6:55%的受訪開發者表示,他們已經開始使用或計劃近期在他們的計算機視覺項目中加入3D傳感技術,該比例比去年增加了4%。(來源:EVA)
趨勢三、更好的處理器
推動強大而廣泛的視覺感知可部署性的最重要因素,是更好的處理器。“更好”是指更高的性能、更低的成本、更低的功耗,以及其他關鍵因素的改進。視覺算法對計算性能要求很高,各種嵌入式系統通常需要滿足低成本和低功耗的要求。在數字無線通信和以壓縮為中心的消費視頻設備等其他應用領域,芯片設計人員通過使用專用協處理器和加速器,獲得高性能、低成本和低功耗的極具挑戰性的組合,從而實現應用中最苛刻的處理任務。然而,這些協處理器和加速器通常不能由芯片用戶編程。
在很多標準應用中,這種權衡通常是可以接受的,因為在這些應用中,不同設計者使用的算法具有很強的通用性。然而,在視覺應用中,并沒有標準來約束算法的選擇。此外,視覺算法發展迅速,并且變化頻繁。
因此,實現高性能、低成本、低功耗和可編程性的結合,是一項非常具有挑戰性的工作,通常需要在異構計算體系結構中通過組合多種類型的處理器(CPU、GPU、FPGA、DSP等)來實現。
基于機器學習的視覺處理,無論對于預先培訓還是隨后的推理任務而言,從計算和存儲需求來看,都是資源密集型的工作。幸運的是,視覺處理器正在以驚人的速度發展,一方面開發速度非??欤硪环矫鎭碜詳盗魁嫶笄胰栽谠鲩L的技術供應商方面的競爭壓力。例如,現在有50多家公司同時在為深度學習推理和/或訓練開發處理器。在過去的幾年中,深度學習加速的處理能力,已經有了兩個數量級的提升,這些性能的提升與多方技術進步相結合,將使處理器的處理能力呈指數級增長。
EVA最近在開發者調查中收集的數據顯示,深度學習專用處理器的采用顯著增加;近1/3的受訪者表示現在正在使用深度學習專用處理器,而兩年前這一比例只有19%(見圖7,由于調查對象要求標記所有他們的項目使用的處理器,所以總數超過100%)。這種趨勢尤其令人震驚,因為在幾年前,深度學習專用處理器還根本不存在。同樣需要注意的是,其他處理架構通常用于各種視覺任務。
圖7:被調查的開發者在他們的計算機視覺設計中使用的多種處理結構。(來源:EVA)
趨勢四、軟件和硬件的普及化
“普及化”意味著開發有效的計算機視覺系統和應用、以及大規模部署這些解決方案,正在快速變得越來越容易。為什么?主要有以下三大原因:
第一、深度學習使非專家能夠使用樣本圖像數據(與手工設計的代碼相比)更容易地創建功能性視覺系統。
第二、有了更高性能、更低成本的處理器和有效的開發工具。
第三、作為邊緣處理的輔助或替代,云計算越來越普遍。
前兩點已經討論過,但第三點值得注意。云計算作為基于邊緣視覺處理方法的輔助(如果不是替代的話),正變得越來越普遍。
“云vs邊緣計算vs兩者混合”的拓撲決策通常并不簡單,“正確”的答案因應用和公司的不同而不同,甚至同一公司內的不同項目之間也不同(見圖8)。
圖8:邊緣計算和云計算的性能比較。星星越多,優勢越大。
云計算的有利因素包括:
上市時間:云計算的軟件開發通常比嵌入式平臺的軟件開發更快捷、更容易。
可升級性:在限制范圍內,用戶可以輕松升級到更高性能的處理器、更大的內存容量、更多的硬盤存儲、更新的操作系統和中間件版本等。當然用戶也不能在云中升級所有東西,例如不能升級圖像傳感器。
準確性:用戶可以在云中獲得巨大的計算能力,因此可以運行更大的神經網絡,也就是運行更復雜的算法,包括能夠根據需要利用突發的額外處理能力。
分布式設備之間的協作:例如,如果你正在跟蹤城市中行駛的車輛,那么就有必要在一個地理區域內收集信息。雖然云并不是實現這一點的唯一途徑,但它能很方便地將來自許多分散邊緣節點的信息結合起來。
設備成本:更低的物料清單成本、更小的電池等。當然以邊緣為中心的方法有其自身優勢。
無需經常性成本:不必為每次使用云計算處理、內存和存儲資源支付費用。
網絡連接性:通常根本不需要,或是不會經常需要。
帶寬和延遲:當需要網絡連接時,帶寬和延遲要求會降低,因為在進入云傳輸之前,很大一部分數據處理已經在邊緣設備上完成了。
隱私和安全:原始數據在邊緣設備上處理,通常會立即丟棄。唯一能進入云端的信息是元數據,而且通常是匿名的。
EVA最新的開發者調查結果不出所料地顯示,大多數受訪者至少在邊緣設備上做了一些神經網絡推理(見圖9,由于調查對象要求標記所有他們的項目使用的處理器,所以總數超過100%)。然而,近一半的受訪者也在云中進行部分或全部推理。
圖9:多數受訪者至少在邊緣設備上做了一些神經網絡推理,近一半的受訪者也在云中進行部分或全部推理。(來源:EVA)
聲明:部分內容來源于網絡,僅供讀者學術交流之目的。文章版權歸原作者所有。如有不妥,請聯系刪除。
責任編輯:PSY
原文標題:推動機器視覺應用發展的四個關鍵趨勢
文章出處:【微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
-
處理器
+關注
關注
68文章
19293瀏覽量
229938 -
云計算
+關注
關注
39文章
7824瀏覽量
137450 -
機器視覺
+關注
關注
162文章
4375瀏覽量
120357 -
3D傳感
+關注
關注
2文章
123瀏覽量
14122
原文標題:推動機器視覺應用發展的四個關鍵趨勢
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論