這是一篇計算機(jī)視覺入門指南,從概念、原理、用例等角度介紹了計算機(jī)視覺。
「機(jī)器能夠模擬人類視覺系統(tǒng)」的幻想已經(jīng)過時了。自 1960 年代第一批學(xué)術(shù)論文出現(xiàn)以來,計算機(jī)視覺已經(jīng)走了很遠(yuǎn),現(xiàn)代系統(tǒng)已經(jīng)出現(xiàn),且它們可以集成到移動應(yīng)用中。
今天,由于其廣泛應(yīng)用和巨大潛力,計算機(jī)視覺成為最熱的人工智能和機(jī)器學(xué)習(xí)子領(lǐng)域之一。其目標(biāo)是:復(fù)制人類視覺的強(qiáng)大能力。
但是,到底什么是計算機(jī)視覺?它在不同行業(yè)中的應(yīng)用現(xiàn)狀如何?知名的商業(yè)用例有哪些?典型的計算機(jī)視覺任務(wù)是什么?
本文將介紹計算機(jī)視覺的基礎(chǔ)概念和現(xiàn)實應(yīng)用,對任何聽說過計算機(jī)視覺但不確定它是什么以及如何應(yīng)用的人,本文是了解計算機(jī)視覺這一復(fù)雜問題的便捷途徑。
什么是計算機(jī)視覺?
計算機(jī)視覺解決什么問題
人類能夠理解和描述圖像中的場景。以下圖為例,人類能做到的不僅僅是檢測到圖像前景中有四個人、一條街道和幾輛車。
除了這些基本信息,人類還能夠看出圖像前景中的人正在走路,其中一人赤腳,我們甚至知道他們是誰。我們可以理性地推斷出圖中人物沒有被車撞擊的危險,白色的大眾汽車沒有停好。人類還可以描述圖中人物的穿著,不止是衣服顏色,還有材質(zhì)與紋理。
這也是計算機(jī)視覺系統(tǒng)需要的技能。簡單來說,計算機(jī)視覺解決的主要問題是:
給出一張二維圖像,計算機(jī)視覺系統(tǒng)必須識別出圖像中的對象及其特征,如形狀、紋理、顏色、大小、空間排列等,從而盡可能完整地描述該圖像。
區(qū)分計算機(jī)視覺與其相關(guān)領(lǐng)域
計算機(jī)視覺完成的任務(wù)遠(yuǎn)超其他領(lǐng)域,如圖像處理、機(jī)器視覺,盡管它們存在一些共同點。接下來,我們就來了解一下這些領(lǐng)域之間的差異。
圖像處理
圖像處理旨在處理原始圖像以應(yīng)用某種變換。其目標(biāo)通常是改進(jìn)圖像或?qū)⑵渥鳛槟稠椞囟ㄈ蝿?wù)的輸入,而計算機(jī)視覺的目標(biāo)是描述和解釋圖像。例如,降噪、對比度或旋轉(zhuǎn)操作這些典型的圖像處理組件可以在像素層面執(zhí)行,無需對圖像整體具備全面的了解。
機(jī)器視覺
機(jī)器視覺是計算機(jī)視覺用于執(zhí)行某些(生產(chǎn)線)動作的特例。在化工行業(yè)中,機(jī)器視覺系統(tǒng)可以檢查生產(chǎn)線上的容器(是否干凈、空置、無損)或檢查成品是否恰當(dāng)封裝,從而幫助產(chǎn)品制造。
計算機(jī)視覺
計算機(jī)視覺可以解決更復(fù)雜的問題,如人臉識別、詳細(xì)的圖像分析(可幫助實現(xiàn)視覺搜索,如 Google Images),或者生物識別方法。
行業(yè)應(yīng)用
人類不僅能夠理解圖像中的場景,稍加訓(xùn)練,還能解釋書法、印象派畫家、抽象畫,以及胎兒的二維超聲圖像。
從這個角度來看,計算機(jī)視覺領(lǐng)域尤其復(fù)雜,它擁有大量的實際應(yīng)用。
從電商到傳統(tǒng)行業(yè),各種類型和規(guī)模的公司現(xiàn)在都可以利用計算機(jī)視覺的強(qiáng)大能力,這是依賴于人工智能和機(jī)器學(xué)習(xí)(更具體地說是計算機(jī)視覺)的創(chuàng)新所帶來的利好。
下面我們就來看看,近年來受計算機(jī)視覺影響最大的行業(yè)應(yīng)用。
零售業(yè)
近年來,計算機(jī)視覺在零售業(yè)的應(yīng)用已成為最重要的技術(shù)趨勢之一。下文將介紹一些常見的用例。如果你想對計算機(jī)視覺在零售業(yè)的潛在應(yīng)用有更詳細(xì)的了解,請參考:https://tryolabs.com/resources/retail-innovations-machine-learning/。
行為追蹤
實體零售店利用計算機(jī)視覺算法和攝像頭,了解顧客及其行為。
計算機(jī)視覺算法能夠識別人臉,確定人物特征,如性別或年齡范圍。此外,零售店還可以利用計算機(jī)視覺技術(shù)追蹤顧客在店內(nèi)的移動軌跡,分析其移動路線,檢測行走模式,并統(tǒng)計零售店店面受到行人注意的次數(shù)。
添加視線方向檢測后,零售店能夠回答這一重要問題:將店內(nèi)商品放在哪個位置可以提升消費(fèi)者體驗,最大化銷售額。
計算機(jī)視覺還是開發(fā)防盜竊機(jī)制的強(qiáng)大工具。人臉識別算法可用于識別已知的商店扒手,或檢測出某位顧客將商品放入自己的背包。
庫存管理
計算機(jī)視覺在庫存管理方面有兩個主要的應(yīng)用。
通過安防攝像頭圖像分析,計算機(jī)視覺算法可以對店內(nèi)剩余商品生成非常準(zhǔn)確的估計。對于店鋪管理者來說,這是非常寶貴的信息,它可以幫助管理者立即察覺不尋常的貨物需求,并及早作出反應(yīng)。
另一個常見應(yīng)用是:分析貨架空間利用情況,識別次優(yōu)配置。除了發(fā)現(xiàn)被浪費(fèi)的空間以外,此類算法還可以提供更好的貨品擺放方案。
制造業(yè)
生產(chǎn)線上的主要問題是機(jī)器中斷或殘次品,這些問題會導(dǎo)致生產(chǎn)延遲和利潤損失。
計算機(jī)視覺算法被證實是實施預(yù)測性維護(hù)的好方法。算法通過分析(來自機(jī)器人身上攝像頭等的)視覺信息,預(yù)先發(fā)現(xiàn)機(jī)器的潛在問題。此類系統(tǒng)可以預(yù)測包裝或汽車裝配機(jī)器人是否會中斷,這是一項巨大的貢獻(xiàn)。
這同樣可用于降低不良率,系統(tǒng)可以檢測出整個生產(chǎn)線上各個組件中的缺陷。這使得制造商實時響應(yīng),采取解決辦法。缺陷可能不那么嚴(yán)重,生產(chǎn)流程可以繼續(xù),但是產(chǎn)品以某種方式被標(biāo)記,或者被指向特定的生產(chǎn)路徑。但是,有時停止生產(chǎn)線是必要的。為了進(jìn)一步的利益,此類系統(tǒng)可以針對每個用例進(jìn)行訓(xùn)練,按類型和嚴(yán)重程度對缺陷進(jìn)行分類。
醫(yī)療行業(yè)
在醫(yī)療行業(yè)中,現(xiàn)有計算機(jī)視覺應(yīng)用的數(shù)量非常龐大。
毫無疑問,醫(yī)療圖像分析是最著名的例子,它可以顯著提升醫(yī)療診斷流程。此類系統(tǒng)對 MRI 圖像、CT 掃描圖像和 X 光圖像進(jìn)行分析,找出腫瘤等異常,或者搜索神經(jīng)系統(tǒng)疾病的癥狀。
在很多情況下,圖像分析技術(shù)從圖像中提取特征,從而訓(xùn)練能夠檢測異常的分類器。但是,一些特定應(yīng)用需要更細(xì)化的圖像處理。例如,對結(jié)腸鏡檢查圖像進(jìn)行分析時,分割圖像是必要的,這樣才能找出腸息肉,防止結(jié)直腸癌。
上圖是觀察胸腔元素所需的圖像分割結(jié)果。該系統(tǒng)分割每個重要部分并著色:肺動脈(藍(lán)色)、肺靜脈(紅色)、縱膈(黃色)和橫膈(紫色)。
目前大量此類應(yīng)用已經(jīng)投入使用,如估計產(chǎn)后出血量、量化冠狀動脈鈣化情況、在沒有 MRI 的情況下測定人體內(nèi)的血流量。
但是,醫(yī)療圖像并非計算機(jī)視覺在醫(yī)療行業(yè)中唯一的用武之地。比如,計算機(jī)視覺技術(shù)為視障人士提供室內(nèi)導(dǎo)航幫助。這些系統(tǒng)可以在樓層平面圖中定位行人和周圍事物等,以便實時提供視覺體驗。視線追蹤和眼部分析可用于檢測早期認(rèn)知障礙,如兒童自閉癥或閱讀障礙,這些疾病與異常注視行為高度相關(guān)。
你是否思考過,自動駕駛汽車如何「看」路?計算機(jī)視覺在其中扮演核心角色,它幫助自動駕駛汽車感知和了解周圍環(huán)境,進(jìn)而恰當(dāng)運(yùn)行。
計算機(jī)視覺最令人興奮的挑戰(zhàn)之一是圖像和視頻目標(biāo)檢測。這包括對不同數(shù)量的對象進(jìn)行定位和分類,以便區(qū)分某個對象是交通信號燈、汽車還是行人,如下圖所示:
自動駕駛汽車目標(biāo)檢測。(圖源:https://cdn-images-1.medium.com/max/1600/1*q1uVc-MU-tC-WwFp2yXJow.gif)
此類技術(shù),加上對來自傳感器和/或雷達(dá)等來源的數(shù)據(jù)進(jìn)行分析,使得汽車能夠「看見」。
圖像目標(biāo)檢測是一項復(fù)雜的強(qiáng)大任務(wù),之前我們曾經(jīng)討論過,參見:https://tryolabs.com/blog/2017/08/30/object-detection-an-overview-in-the-age-of-deep-learning/。
另一篇文章從人類-圖像交互的角度探討這一主題,參見:https://tryolabs.com/blog/2018/03/01/introduction-to-visual-question-answering/。
保險業(yè)
計算機(jī)視覺在保險業(yè)中的應(yīng)用影響很大,尤其是在理賠處理中。
計算機(jī)視覺應(yīng)用可以指導(dǎo)客戶以視覺形式進(jìn)行理賠文件處理。它可以實時分析圖像并發(fā)送至適合的保險經(jīng)紀(jì)人。同時,它可以估計和調(diào)整維護(hù)費(fèi)用,確定是否在保險覆蓋范圍內(nèi),甚至檢測是否存在保險欺詐。所有這些最大程度上縮短了索賠流程,為客戶提供更好的體驗。
從預(yù)防的角度來看,計算機(jī)視覺在避免意外事故方面用處極大。大量可用于阻止碰撞的計算機(jī)視覺應(yīng)用被整合到工業(yè)機(jī)械、汽車和無人機(jī)中。這是風(fēng)險管理的新時代,可能改變整個保險業(yè)。
農(nóng)業(yè)
計算機(jī)視覺對農(nóng)業(yè)有極大影響,尤其是精準(zhǔn)農(nóng)業(yè)。
在糧食生產(chǎn)這一全球經(jīng)濟(jì)活動中,存在一系列寶貴的計算機(jī)視覺應(yīng)用。糧食生產(chǎn)面臨一些反復(fù)出現(xiàn)的問題,之前這些問題通常由人類監(jiān)控。而現(xiàn)在,計算機(jī)視覺算法可以檢測或合理預(yù)測病蟲害。此類早期診斷可幫助農(nóng)民快速采取合適措施,減少損失,保證生產(chǎn)質(zhì)量。
另一項長期挑戰(zhàn)是除草,因為雜草對除草劑產(chǎn)生抗藥性,可能給農(nóng)民帶來嚴(yán)重?fù)p失。現(xiàn)在出現(xiàn)了配備有計算機(jī)視覺技術(shù)的機(jī)器人,它們可以監(jiān)控整片農(nóng)田,精準(zhǔn)噴灑除草劑。這極大地節(jié)約了使用農(nóng)藥量,為地球環(huán)境和生產(chǎn)成本均帶來了極大的益處。
土壤質(zhì)量也是農(nóng)業(yè)中的一大主要因素。一些計算機(jī)視覺應(yīng)用可以從手機(jī)拍攝的照片中識別出土壤的潛在缺陷和營養(yǎng)缺乏問題。分析之后,這些應(yīng)用會針對檢測出的土壤問題,提供土壤恢復(fù)技術(shù)和可能的解決方案。
計算機(jī)視覺還可用于分類。一些算法通過識別水果、蔬菜甚至花卉的主要特性(如大小、質(zhì)量、重量、顏色、紋理等),對其進(jìn)行分類。這些算法還能夠檢測缺陷,估計出哪些農(nóng)產(chǎn)品保鮮期較長、哪些應(yīng)該放置在本地市場售賣。這極大延長了農(nóng)產(chǎn)品的保鮮期,減少了農(nóng)產(chǎn)品上市前所需時間。
安防
與零售業(yè)類似,對安全具備高要求的企業(yè)(如銀行或賭場)可從計算機(jī)視覺應(yīng)用中獲益,這些應(yīng)用對安防攝像頭拍攝的圖像進(jìn)行分析,從而識別顧客。
而從另一個層面上來講,計算機(jī)視覺是國土安全任務(wù)中的強(qiáng)大工具。它可用于改進(jìn)港口貨物檢驗,或者監(jiān)控敏感場所,如大使館、發(fā)電站、醫(yī)院、鐵路和體育場。這里,計算機(jī)視覺不僅能夠分析和分類圖像,還能對場景提供詳細(xì)且有意義的描述,為決策實時提供關(guān)鍵因素。
通常,計算機(jī)視覺廣泛應(yīng)用于國防任務(wù),如偵察敵軍地形、自動確認(rèn)圖像中的敵軍、自動化車輛和機(jī)器移動,以及搜索援救。
典型的計算機(jī)視覺任務(wù)
高度復(fù)制人類視覺系統(tǒng),這是如何做到的呢?
計算機(jī)視覺基于大量不同任務(wù),并組合在一起實現(xiàn)高度復(fù)雜的應(yīng)用。計算機(jī)視覺中最常見的任務(wù)是圖像和視頻識別,涉及確定圖像包含的不同對象。
圖像分類
計算機(jī)視覺中最知名的任務(wù)可能就是圖像分類了,它對給定圖像進(jìn)行分類。我們看一個簡單的二分類例子:我們想根據(jù)圖像是否包含旅游景點對其進(jìn)行分類。假設(shè)我們?yōu)榇巳蝿?wù)構(gòu)建了一個分類器,并提供了一張圖像(見下圖)。
該分類器認(rèn)為上述圖像屬于包含旅游景點的圖像類別。但這并不意味著分類器認(rèn)出埃菲爾鐵塔了,它可能只是曾經(jīng)見過這座塔的照片,并且當(dāng)時被告知圖像中包含旅游景點。
該分類器的更強(qiáng)大版本可以處理不止兩個類別。例如,分類器將圖像分類為旅游景點的特定類型,如埃菲爾鐵塔、凱旋門、圣心大教堂等。那么在此類場景中,每個圖像輸入可能有多個答案,就像上面那張明信片一樣。
定位
假設(shè),現(xiàn)在我們不僅想知道圖像中出現(xiàn)的旅游景點名稱,還對其在圖像中的位置感興趣。定位的目標(biāo)就是找出圖像中單個對象的位置。例如,下圖中埃菲爾鐵塔的位置就被標(biāo)記出來了。
被紅色邊界框標(biāo)記出的埃菲爾鐵塔。(圖源:https://cdn.pariscityvision.com/media/wysiwyg/tour-eiffel.jpg)
執(zhí)行定位的標(biāo)準(zhǔn)方式是,在圖像中定義一個將對象圍住的邊界框。
定位是一個很有用的任務(wù)。比如,它可以對大量圖像執(zhí)行自動對象剪裁。將定位與分類任務(wù)結(jié)合起來,就可以快速構(gòu)建著名旅游景點(剪裁)圖像數(shù)據(jù)集。
目標(biāo)檢測
我們想象一個同時包含定位和分類的動作,對一張圖像中的所有感興趣對象重復(fù)執(zhí)行該動作,這就是目標(biāo)檢測。該場景中,圖像中的對象數(shù)量是未知的。因此,目標(biāo)檢測的目標(biāo)是找出圖像中的對象,并進(jìn)行分類。
目標(biāo)檢測結(jié)果(圖源:http://research.ibm.com/artificial-intelligence/computer-vision/images/cv-research-areas-object-detection.jpg)
在這個密集圖像中,我們可以看到計算機(jī)視覺系統(tǒng)識別出大量不同對象:汽車、人、自行車,甚至包含文本的標(biāo)志牌。
這個問題對人類來說都算困難的。一些對象只顯示出一部分,因為它們有一部分在圖像外,或者彼此重疊。此外,相似對象的大小差別極大。
目標(biāo)檢測的一個直接應(yīng)用是計數(shù),它在現(xiàn)實生活中應(yīng)用廣泛,從計算收獲水果的種類到計算公眾集會或足球賽等活動的人數(shù),不一而足。
目標(biāo)識別
目標(biāo)識別與目標(biāo)檢測略有不同,盡管它們使用類似的技術(shù)。給出一個特定對象,目標(biāo)識別的目標(biāo)是在圖像中找出該對象的實例。這并不是分類,而是確定該對象是否出現(xiàn)在圖像中,如果出現(xiàn),則執(zhí)行定位。搜索包含某公司 logo 的圖像就是一個例子。另一個例子是監(jiān)控安防攝像頭拍攝的實時圖像以識別某個人的面部。
實例分割
我們可以把實例分割看作是目標(biāo)檢測的下一步。它不僅涉及從圖像中找出對象,還需要為檢測到的每個對象創(chuàng)建一個盡可能準(zhǔn)確的掩碼。
(圖注)實例分割結(jié)果。
你可以從上圖中看到,實例分割算法為四位披頭士成員和一些汽車創(chuàng)建掩碼(不過該結(jié)果并不完整,尤其是列儂)。
人工執(zhí)行此類任務(wù)的成本很高,而實例分割技術(shù)使得此類任務(wù)的實現(xiàn)變得簡單。在法國,法律禁止媒體在未經(jīng)監(jiān)護(hù)人明確同意的情況下暴露兒童形象。使用實例分割技術(shù),可以模糊電視或電影中的兒童面部。
目標(biāo)追蹤
目標(biāo)追蹤旨在追蹤隨著時間不斷移動的對象,它使用連續(xù)視頻幀作為輸入。該功能對于機(jī)器人來說是必要的,以守門員機(jī)器人舉例,它們需要執(zhí)行從追球到擋球等各種任務(wù)。目標(biāo)追蹤對于自動駕駛汽車而言同樣重要,它可以實現(xiàn)高級空間推理和路徑規(guī)劃。類似地,目標(biāo)追蹤在多人追蹤系統(tǒng)中也很有用,包括用于理解用戶行為的系統(tǒng)(如零售店的計算機(jī)視覺系統(tǒng)),以及在游戲中監(jiān)控足球或籃球運(yùn)動員的系統(tǒng)。
執(zhí)行目標(biāo)追蹤的一種相對直接的方式是,對視頻序列中的每張圖像執(zhí)行目標(biāo)追蹤并對比每個對象實例,以確定它們的移動軌跡。該方法的缺陷是為每張圖像執(zhí)行目標(biāo)檢測通常成本高昂。另一種替換方式僅需捕捉被追蹤對象一次(通常是該對象出現(xiàn)的第一次),然后在不明確識別該對象的情況下在后續(xù)圖像中辨別它的移動軌跡。最后,目標(biāo)追蹤方法未必就能檢測出對象,它可以在不知道追蹤對象是什么的情況下,僅查看目標(biāo)的移動軌跡。
計算機(jī)視覺運(yùn)行原理
如前所示,計算機(jī)視覺的目標(biāo)是模仿人類視覺系統(tǒng)的工作方式。算法如何實現(xiàn)這一目標(biāo)呢?本文將介紹其中最重要的幾個概念。
通用策略
深度學(xué)習(xí)方法和技術(shù)深刻改變了計算機(jī)視覺以及其他人工智能領(lǐng)域,對于很多任務(wù)而言,使用深度學(xué)習(xí)方法已經(jīng)成為標(biāo)準(zhǔn)操作。尤其是,卷積神經(jīng)網(wǎng)絡(luò)(CNN)的性能超過了使用傳統(tǒng)計算機(jī)視覺技術(shù)所能達(dá)到的最優(yōu)結(jié)果。
以下四步展示了利用 CNN 構(gòu)建計算機(jī)視覺模型的通用方法:
創(chuàng)建一個包含標(biāo)注圖像的數(shù)據(jù)集或者使用現(xiàn)有的數(shù)據(jù)集。標(biāo)注可以是圖像類別(適用于分類任務(wù))、邊界框和類別對(適用于目標(biāo)檢測問題),或者對圖像中每個感興趣對象進(jìn)行像素級分割(適用于實例分割問題)。
從每張圖像中提取與待處理任務(wù)相關(guān)的特征,這是建模的重點。例如,用來識別人臉的特征、基于人臉標(biāo)準(zhǔn)的特征與用來識別旅游景點或人體器官的特征存在顯著區(qū)別。
基于特征訓(xùn)練深度學(xué)習(xí)模型。訓(xùn)練意味著向機(jī)器學(xué)習(xí)模型輸入很多圖像,然后模型基于特征學(xué)習(xí)如何解決任務(wù)。
使用不同于訓(xùn)練所用數(shù)據(jù)的圖像評估模型,從而測試訓(xùn)練模型的準(zhǔn)確率。
該策略非常基礎(chǔ),但效果不錯。這類方法叫做監(jiān)督機(jī)器學(xué)習(xí),它需要包含模型待學(xué)習(xí)現(xiàn)象的數(shù)據(jù)集。
現(xiàn)有數(shù)據(jù)集
構(gòu)建數(shù)據(jù)集通常成本高昂,但是它們對于開發(fā)計算機(jī)視覺應(yīng)用至關(guān)重要。幸運(yùn)的是,目前有一些現(xiàn)成的數(shù)據(jù)集。其中規(guī)模最大、最著名的是 ImageNet,該數(shù)據(jù)集包含 1400 萬人工標(biāo)注圖像。該數(shù)據(jù)集包含 100 萬張具備邊界框標(biāo)注的圖像。
帶有邊界框的 ImageNet 圖像(圖源:http://www.image-net.org/bbox_fig/kit_fox.JPG)
具備對象屬性標(biāo)注的 ImageNet 圖像(圖源:http://www.image-net.org/attribute_fig/pullfigure.jpg)
另一個著名數(shù)據(jù)集是 Microsoft Common Objects in Context (COCO) 數(shù)據(jù)集,它包含 328,000 張圖像、91 個對象類別(這些類別很容易識別,4 歲孩童也可以輕松識別出來),以及 250 萬標(biāo)注實例。
COCO 數(shù)據(jù)集中的標(biāo)注圖像示例。(圖源:https://arxiv.org/abs/1405.0312)
盡管該領(lǐng)域可用數(shù)據(jù)集并不是特別多,但仍然有一些適合不同的任務(wù),如 CelebFaces Attributes Dataset(CelebA 數(shù)據(jù)集,該人臉屬性數(shù)據(jù)集包含超過 20 萬張名人圖像)、Indoor Scene Recognition 數(shù)據(jù)集(包含 15,620 張室內(nèi)場景圖像)、Plant Image Analysis 數(shù)據(jù)集(包括屬于 11 個不同類別的 100 萬張植物圖像)。
訓(xùn)練目標(biāo)檢測模型
Viola–Jones 方法
有很多種方法可以解決目標(biāo)檢測問題。很多年來,Paul Viola 和 Michael Jones 在論文《Robust Real-time Object Detection》中提出的方法成為流行的方法。
盡管該方法可用來檢測大量對象類別,但它最初是受人臉檢測目標(biāo)的啟發(fā)。該方法快速、直接,是傻瓜相機(jī)中所使用的算法,它可以在幾乎不浪費(fèi)處理能力的情況下執(zhí)行實時人臉檢測。
該方法的核心特征是:基于哈爾特征與大量二分類器一起訓(xùn)練。哈爾特征表示邊和線,計算簡單。
哈爾特征(圖源:https://docs.opencv.org/3.4.3/haar_features.jpg)
盡管比較基礎(chǔ),但在人臉檢測這一特定案例下,這些特征可以捕捉到重要元素,如鼻子、嘴或眉間距。該監(jiān)督方法需要很多正類和負(fù)類樣本。
檢測蒙娜麗莎的面部。
本文暫不討論算法細(xì)節(jié)。不過,上圖展示了該算法檢測蒙娜麗莎面部的過程。
基于 CNN 的方法
深度學(xué)習(xí)變革了機(jī)器學(xué)習(xí),尤其是計算機(jī)視覺。目前基于深度學(xué)習(xí)的方法已經(jīng)成為很多計算機(jī)視覺任務(wù)的前沿技術(shù)。
其中,R-CNN 易于理解,其作者提出了一個包含三個階段的流程:
利用區(qū)域候選(region proposal)方法提取可能的對象。
使用 CNN 識別每個區(qū)域中的特征。
利用支持向量機(jī)(SVM)對每個區(qū)域進(jìn)行分類。
R-CNN 架構(gòu)(圖源:https://arxiv.org/abs/1311.2524)
該區(qū)域候選方法最初由論文《Selective Search for Object Recognition》提出,盡管 R-CNN 算法并不在意使用哪種區(qū)域候選方法。步驟 3 非常重要,因為它減少了候選對象的數(shù)量,降低了計算成本。
這里提取的特征沒有哈爾特征那么直觀。總之,CNN 可用于從每個區(qū)域候選中提取 4096 維的特征向量。鑒于 CNN 的本質(zhì),輸入應(yīng)該具備同樣的維度。這也是 CNN 的弱點之一,很多方法解決了這個問題。回到 R-CNN 方法,訓(xùn)練好的 CNN 架構(gòu)要求輸入為 227 × 227 像素的固定區(qū)域。由于候選區(qū)域的大小各有不同,R-CNN 作者通過扭曲圖像的方式使其維度滿足要求。
滿足 CNN 輸入維度要求的扭曲圖像示例。
盡管該方法取得了很好的結(jié)果,但訓(xùn)練過程中存在一些困難,并且該方法最終被其他方法超越。其中一些方法在這篇文章中有深入介紹:https://tryolabs.com/blog/2017/08/30/object-detection-an-overview-in-the-age-of-deep-learning/。
商業(yè)用例
計算機(jī)視覺應(yīng)用被越來越多的公司部署,用于回答業(yè)務(wù)問題或提升產(chǎn)品性能。它們或許已經(jīng)成為人們?nèi)粘I畹囊徊糠郑闵踔炼紱]有注意到它。以下是一些常見的使用案例。
視覺搜索引擎
2001 年,Google Images 的出現(xiàn)意味著視覺搜索技術(shù)可被大眾使用。視覺搜索引擎能夠基于特定內(nèi)容標(biāo)準(zhǔn)檢索圖像。常見用例是搜索關(guān)鍵詞,不過有時候我們會提供源圖像,要求引擎找出相似圖像。在某些案例中,可以指定更詳細(xì)的搜索條件,如沙灘的圖像、夏天拍攝、至少包含 10 個人。
現(xiàn)在有很多視覺搜索引擎,有的可以網(wǎng)站形式直接使用,有的需要通過 API 調(diào)用,有的則是移動應(yīng)用。
最著名的視覺搜索網(wǎng)站無疑是 Google Images、Bing 和 Yahoo。前兩個網(wǎng)站均可使用多個關(guān)鍵詞或者單張圖像作為搜索輸入,以圖像作為搜索輸入又名「反向圖像搜索」(以圖搜圖)。Yahoo 僅支持關(guān)鍵詞搜索,搜索結(jié)果同樣不錯,如下圖所示。
Yahoo 圖像搜索。
還有一些視覺搜索網(wǎng)站同樣值得關(guān)注,如僅支持反向圖像搜索的 TinEye,以及僅支持文本搜索但覆蓋范圍極大的 Picsearch。
在移動應(yīng)用方面,由于視覺搜索技術(shù)逐漸成為標(biāo)準(zhǔn)特征,此類應(yīng)用之間的區(qū)別較大。
此類實現(xiàn)包括 Google Goggles(后被 Google Lens 取代),它可從圖像中獲取詳細(xì)信息。例如,從一張貓照片中得到其品種信息,或者提供博物館中藝術(shù)作品的信息。
在電商市場中,Pinterest 開發(fā)了 Pinterest Lens。如果你需要現(xiàn)有衣物的新穿搭想法,你可以為這件衣服拍張照,之后 Pinterest Lens 會返回穿搭建議,該建議包括你可以購買的搭配單品。近年來,針對網(wǎng)購的視覺搜索成為增長最快的趨勢之一。
最后,視覺搜索的更高階案例是視覺問答系統(tǒng),參見:https://tryolabs.com/blog/2018/03/01/introduction-to-visual-question-answering/。
Facebook 人臉識別
盡管早在 2000 年代中期,出于自動對焦目的而使用人臉檢測技術(shù)的相機(jī)已經(jīng)普遍,但近年來人臉識別領(lǐng)域出現(xiàn)了很多更優(yōu)秀的成績。最常見(也最具爭議)的應(yīng)用或許就是識別圖像或視頻中的人物。這通常用于安防系統(tǒng),但也出現(xiàn)在社交媒體中:人臉管理系統(tǒng)為人臉添加過濾器,以便按人臉執(zhí)行搜索,甚至在選舉過程中阻止選民多次投票。人臉識別還可用到更復(fù)雜的場景,如識別面部表情中的情緒。
其中同時引發(fā)了興趣和擔(dān)憂的用例是 Facebook 的人臉識別系統(tǒng)。開發(fā)團(tuán)隊的一個主要目標(biāo)是阻止陌生人使用出現(xiàn)用戶人臉的圖像(見下圖的示例),或者向視障用戶告知圖像或視頻中出現(xiàn)的人物。
Facebook 人臉識別。(圖源:https://cdn0.tnwcdn.com/wp-content/blogs.dir/1/files/2017/12/Facebook-Tagging-796x428.jpg)
除了那些令人擔(dān)憂的部分以外,這項技術(shù)在很多場景中是有益的,比如對抗網(wǎng)絡(luò)騷擾。
Amazon Go
厭倦了超市和雜貨店的排隊等待?Amazon Go 商店提供別樣的體驗。在計算機(jī)視覺的幫助下,這里不用排隊,也沒有包裝箱。
其思路很簡單:顧客進(jìn)入商店,選擇所需商品,離開商店,不用排隊結(jié)賬。
這是如何實現(xiàn)的呢?多虧了 Amazon 的「Just Walk Out」技術(shù)。顧客必須下載一個移動 app,該 app 可以幫助 Amazon 識別他們的身份。當(dāng)他們想進(jìn)入 Amazon Go 商店時,該 app 提供一個二維碼。商店入口處有一些閘機(jī)供顧客出入商店,顧客進(jìn)入商店時,閘機(jī)讀取顧客的二維碼。一個有趣的功能是,其他人可以陪伴該顧客一起進(jìn)入商店,且陪伴者無需安裝該應(yīng)用程序。
顧客可以在商店內(nèi)自由移動,而這也是計算機(jī)視覺發(fā)揮作用之處。商店內(nèi)安裝有一系列傳感器,包括攝像頭、運(yùn)動傳感器和商品上的重量傳感器。這些設(shè)備收集了每個人的行為信息。它們實時檢測顧客從貨架上拿取的貨品。顧客可以取下某個貨品,改變主意的話再放回去。系統(tǒng)最終會向第一個拿起它的顧客收費(fèi),即使它被遞給另一位想要購買的顧客,第一位拿起它的顧客仍然需要支付費(fèi)用。于是系統(tǒng)創(chuàng)建了一個包含所有拿起貨品的虛擬購物車,并進(jìn)行實時維護(hù)。這使得顧客的購物流程非常順利。
當(dāng)顧客完成購物,即可走出商店。當(dāng)他們經(jīng)過閘機(jī)時,系統(tǒng)不會讓顧客掃描貨品或二維碼,而是記錄交易額并向顧客發(fā)送確認(rèn)通知。
Amazon Go 是計算機(jī)視覺對現(xiàn)實世界和人類日常生活產(chǎn)生積極影響的一個案例。
特斯拉 Autopilot
讓汽車自動行駛不只是一個遙遠(yuǎn)的夢。特斯拉 Autopilot 技術(shù)提供非常方便的自動駕駛功能。這并不是全自動駕駛系統(tǒng),而是可在特定路段上駕駛汽車的駕駛助手。這是特斯拉強(qiáng)調(diào)的重點:在所有情況下,控制汽車都是駕駛員的責(zé)任。
自動駕駛通過目標(biāo)檢測和追蹤技術(shù)實現(xiàn)。
要想使 Autopilot 工作,特斯拉汽車必須「高度武裝」:八個全景攝像頭提供 250 米范圍內(nèi)的 360 度圖像、超聲波傳感器用于檢測對象、雷達(dá)用來處理周圍環(huán)境信息。這樣,特斯拉汽車才能夠根據(jù)交通條件調(diào)整行駛速度,在遇到障礙物時及時剎車,保持或變換車道,拐彎以及流暢地停車。
特斯拉 Autopilot 技術(shù)是計算機(jī)視覺對人類日常活動帶來積極影響的另一個精彩案例。
微軟 InnerEye
在醫(yī)療行業(yè)中,微軟的 InnerEye 是幫助放射科醫(yī)生、腫瘤專家和外科醫(yī)生處理放射圖像的寶貴工具。其主要目的是從惡性腫瘤的 3D 圖像中準(zhǔn)確識別出腫瘤。
癌性腫瘤的 3D 圖像。
基于計算機(jī)視覺和機(jī)器學(xué)習(xí)技術(shù),InnerEye 輸出非常詳細(xì)的腫瘤 3D 建模圖像。以上截圖展示了 InnerEye 創(chuàng)建的對腦部腫瘤的完整 3D 分割。從上述視頻中,你可以看到專家控制 InnerEye 工具,指引它執(zhí)行任務(wù),InnerEye 像助手一樣運(yùn)行。
在放射療法中,InnerEye 結(jié)果使得不傷害重要器官直接針對目標(biāo)腫瘤進(jìn)行放射成為可能。
這些結(jié)果還幫助放射科醫(yī)生更好地理解圖像序列,基于腫瘤大小的變化,判斷疾病是否有進(jìn)一步發(fā)展、穩(wěn)定,或者對治療反應(yīng)良好。這樣,醫(yī)療圖像就成為一種重要的追蹤和衡量方式。
最后,InnerEye 可用于規(guī)劃精準(zhǔn)手術(shù)。
計算機(jī)視覺在小公司的應(yīng)用現(xiàn)狀
計算機(jī)視覺在大公司的實現(xiàn)常被大家談?wù)摚@不意味著所有公司必須是谷歌或亞馬遜那種量級才能從該機(jī)器學(xué)習(xí)技術(shù)中受益。任何規(guī)模的公司都可以利用數(shù)據(jù)和計算機(jī)視覺技術(shù)變得更加高效,制定更好的決策。
我們來看一些小公司的現(xiàn)實案例:
Tryolabs 曾幫助一家位于舊金山的小型風(fēng)險管理公司構(gòu)建和實現(xiàn)了一個計算機(jī)視覺系統(tǒng),用于擴(kuò)展對屋頂檢查圖像的處理。
在使用計算機(jī)視覺技術(shù)之前,公司專家人工分析無人機(jī)拍攝的照片,檢測屋頂建設(shè)中的損傷。盡管分析結(jié)果很準(zhǔn)確,但由于服務(wù)耗時且人力資源有限,該服務(wù)無法得到有效擴(kuò)展。
為了解決這個問題,我們構(gòu)建了一個能夠理解圖像并自動識別屋頂問題(如積水、電纜松散和鐵銹)的深度學(xué)習(xí)系統(tǒng)。為此,我們開發(fā)了一個能夠基于屋頂圖像檢測問題的深度神經(jīng)網(wǎng)絡(luò)、分析輸入圖像的流程,以及使檢測結(jié)果可用于外部工具的 API。
因此,這家公司的訂單量和收益都有所增長。
如何實現(xiàn)計算機(jī)視覺項目
和在組織內(nèi)值得進(jìn)行的所有創(chuàng)新一樣,你應(yīng)該選擇一種有策略的方式來實現(xiàn)計算機(jī)視覺項目。
利用計算機(jī)視覺技術(shù)實現(xiàn)成功創(chuàng)新取決于整體業(yè)務(wù)策略、資源和數(shù)據(jù)。
以下問題可以幫助你為計算機(jī)視覺項目構(gòu)建戰(zhàn)略路線圖。
1、計算機(jī)視覺解決方案應(yīng)該降低成本還是增加收益?
成功的計算機(jī)視覺項目要么降低成本要么提高收益(或者二者兼顧),你應(yīng)該定義該項目的目標(biāo)。只有這樣,它才能對組織及其發(fā)展產(chǎn)生重要影響。
2、如何衡量項目的成功?
每個計算機(jī)視覺項目都是不同的,你需要定義一個特定于該項目的成功指標(biāo)。設(shè)置好指標(biāo)后,你應(yīng)該確保它被業(yè)務(wù)人員和數(shù)據(jù)科學(xué)家等認(rèn)可。
3、能否保證信息的獲取?
開啟計算機(jī)視覺項目時,數(shù)據(jù)科學(xué)家應(yīng)該能夠輕松訪問數(shù)據(jù)。他們需要和來自不同部門(如 IT 部門)的重要同事合作。這些同事應(yīng)以其業(yè)務(wù)知識提供支持,內(nèi)部官僚主義則會成為主要約束。
4、?組織收集的數(shù)據(jù)是否合適?
計算機(jī)視覺算法并非魔法。它們需要數(shù)據(jù)才能運(yùn)作,輸入數(shù)據(jù)的質(zhì)量決定其性能。有多種不同方法和來源可供收集合適數(shù)據(jù),這取決于你的目標(biāo)。無論如何,擁有的輸入數(shù)據(jù)越多,計算機(jī)視覺模型性能優(yōu)秀的可能性越大。如果你對數(shù)據(jù)的量和質(zhì)存在疑慮,你可以請數(shù)據(jù)科學(xué)家?guī)兔υu估數(shù)據(jù)集質(zhì)量,必要情況下,找到獲取第三方數(shù)據(jù)的最優(yōu)方式。
5. 組織是否以恰當(dāng)格式收集數(shù)據(jù)?
除了擁有合適量和類型的數(shù)據(jù)以外,你還需要確保數(shù)據(jù)的格式。假設(shè)你使用數(shù)千張完美的手機(jī)照片(分辨率高,背景為白色)訓(xùn)練目標(biāo)檢測算法。然后發(fā)現(xiàn)算法無法運(yùn)行,因為實際用例是在不同光照/對比度/背景條件下檢測持有手機(jī)的人,而不是檢測手機(jī)本身。這樣你之前的數(shù)據(jù)收集努力基本上就作廢了,你還需要重頭再來。此外,你應(yīng)該了解,如果數(shù)據(jù)存在偏見,算法會學(xué)到該偏見。
希望本文能夠幫助讀者了解計算機(jī)視覺概念、運(yùn)作原理以及現(xiàn)實應(yīng)用。
編輯:黃飛
評論
查看更多