計(jì)算機(jī)視覺的幾大任務(wù):
目標(biāo)跟蹤、圖像和視頻的生成
這里有一些比較常見的計(jì)算機(jī)視覺的應(yīng)用,平時(shí)我們也會(huì)用到,包括多重的人臉識(shí)別,現(xiàn)在有些比較流行的照片應(yīng)用,不知道大家平時(shí)會(huì)不會(huì)用到,包括比如像 Google photos,基本上傳一張照片上去,它就會(huì)對(duì)同樣的照片同樣的人物進(jìn)行歸類,這個(gè)也是目前非常常見的一個(gè)應(yīng)用。
中間那個(gè)叫 OCR,就是對(duì)文本進(jìn)行掃描和識(shí)別,這個(gè)技術(shù)目前已經(jīng)比較成熟了。照片上這張是比較老的技術(shù),當(dāng)時(shí)我記得有公司做這個(gè)應(yīng)用,有個(gè)掃描筆,掃描一下就變成文字,現(xiàn)在的話,基本上已經(jīng)不需要這么近的去掃描了,大家只要拍一張照片,如果這張照片是比較清晰的,經(jīng)過一兩秒鐘,一般我們現(xiàn)在算法就可以直接把它轉(zhuǎn)換成文字,而且準(zhǔn)確率相當(dāng)高,所以圖片上的這種 OCR 是一個(gè)過時(shí)的技術(shù)。
右下角是車牌檢測(cè),開車的時(shí)候不小心壓到線了,闖紅燈了,收到一張罰單,這個(gè)怎么做到呢?也是計(jì)算機(jī)視覺的功勞,它們可以很容易的就去識(shí)別這個(gè)照片里的車牌,甚至車牌有一定的污損,經(jīng)過計(jì)算機(jī)視覺的增強(qiáng)都是可以把它給可以優(yōu)化回來的,所以這個(gè)技術(shù)也是比較實(shí)用的。
01. 圖像識(shí)別
車牌識(shí)別、人臉識(shí)別
02. 目標(biāo)檢測(cè)
行人檢測(cè)、車輛檢測(cè)
03. 圖像分割
圖像語義分割、個(gè)體分割=檢測(cè)+分割
視頻分割:
04. 目標(biāo)跟蹤
下面聊幾個(gè)比較有挑戰(zhàn)性的計(jì)算機(jī)視覺的任務(wù)。首先是目標(biāo)跟蹤,目標(biāo)跟蹤就是我們?cè)谶B續(xù)的圖片或者視頻流里面,想要去追蹤某一個(gè)指定的對(duì)象,這個(gè)聽起來對(duì)人來說是一個(gè)非常容易的任務(wù),大家只要目不轉(zhuǎn)睛盯著一個(gè)東西,沒有人能逃脫我們的視野。
實(shí)際上對(duì)機(jī)器來說,這是一個(gè)很有挑戰(zhàn)性的任務(wù),為什么呢?因?yàn)闄C(jī)器在追蹤對(duì)象的時(shí)候,大部分會(huì)使用最原始的一些方法,采取一些對(duì)目標(biāo)圖片進(jìn)行形變的匹配,就是比較早期的計(jì)算機(jī)識(shí)別的方法,而這個(gè)方法在實(shí)際應(yīng)用中間是非常難以實(shí)現(xiàn)的,為什么?因?yàn)樾枰櫟膶?duì)象,它由于角度、光照、遮擋的原因包括運(yùn)動(dòng)的時(shí)候,它會(huì)變得模糊,還有相似背景的干擾,所以我們很難利用模板匹配這種方法去追蹤這個(gè)對(duì)象。
一個(gè)人他面對(duì)你、背對(duì)你、側(cè)對(duì)你,可能景象完全不一樣,這種情況下,同樣一個(gè)模板是無法匹配的,所以說,很有潛力但也很有挑戰(zhàn)性,因?yàn)槟壳皩?duì)象追蹤的算法完全沒有達(dá)到人臉識(shí)別的準(zhǔn)確率,還有很多的人在不斷的努力去尋找新的方法去提升。
右邊也是一個(gè)例子,就是簡單的一個(gè)對(duì)我們頭部的追蹤,也是非常有挑戰(zhàn)性的,因?yàn)槲覀冾^可以旋轉(zhuǎn),尺度也可能發(fā)生變化,用手去遮擋,這都給匹配造成很大的難度。
05. 多模態(tài)問題
后面還有一些比較有挑戰(zhàn)性的計(jì)算機(jī)視覺任務(wù),我們歸類把它們叫做多模態(tài)問題,其中包括 VQA,這是什么意思?這個(gè)就是說給定一張圖片,我們可以任意的去問它一些問題,一般是比較直接的一些問題,Who、Where、How,類似這些問題,或者這個(gè)多模態(tài)的模型,要能夠根據(jù)圖片的真實(shí)信息去回答我們的問題。
舉個(gè)例子,比如底下圖片中間有兩張是小朋友的,計(jì)算機(jī)視覺看到這張圖片的時(shí)候它要把其中所有的對(duì)象全部分割出來,要了解每個(gè)對(duì)象是什么,知道它們其中的聯(lián)系。比如左邊的小朋友在喝奶,如果把他的奶瓶分出來以后,它必須要知道這個(gè)小朋友在喝奶,這個(gè)關(guān)系也是很重要的。
屏幕上的問題是“Where is the child sitting?”,這個(gè)問題的復(fù)雜度就比單純的只是解析圖像要復(fù)雜的多。他需要把里面所有信息的全部解析出來,并且能準(zhǔn)確的去關(guān)聯(lián)他們的關(guān)系,同時(shí)這個(gè)模型還要能夠理解我們問這個(gè)問題到底是個(gè)什么用意,他要知道問的是位置,而且這個(gè)對(duì)象是這個(gè)小孩,所以這個(gè)是包含著計(jì)算機(jī)視覺加上自然語言識(shí)別,兩種這種技術(shù)的相結(jié)合,所以才叫多模態(tài)問題,模態(tài)指的是像語音,文字,圖像,語音,這種幾種模態(tài)放在一起就叫多模態(tài)問題。
右邊一個(gè)例子是 Caption Generation,現(xiàn)在非常流行的研究的領(lǐng)域,給定一張圖片,然后對(duì)圖片里面的東西進(jìn)行描述。
編輯:jq
-
人臉識(shí)別
+關(guān)注
關(guān)注
76文章
4015瀏覽量
82160 -
OCR
+關(guān)注
關(guān)注
0文章
146瀏覽量
16403
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論