11月份的萬物互聯(lián)專欄討論了為可隨時隨地在線操作這樣一個時代重新思考相機(jī)的必要性。我們也有必要重新考慮這些相機(jī)“看”的方式。
如今,計(jì)算機(jī)視覺可以像大多數(shù)人所能做的那樣準(zhǔn)確地跟蹤汽車、人臉和生產(chǎn)過程。當(dāng)需要篩選大量數(shù)據(jù)時,計(jì)算機(jī)視覺模型比人做得更好。
但也存在局限性。要認(rèn)出一個人或一個動作,計(jì)算機(jī)仍比人需要更多的時間。它們無法跟隨多個攝像機(jī)之間的人或物體。它們很容易被騙。它們無法為它們所看到的內(nèi)容賦予含義。工程師們必須克服這些限制,才能使相機(jī)在制造業(yè)和智慧城市中更有用。
今天的相機(jī)通常可以執(zhí)行推斷(使用算法來將輸入的圖像與一個預(yù)定義的模型進(jìn)行匹配)。速度為每秒30幀左右,具體取決于這些計(jì)算機(jī)視覺算法的復(fù)雜性。
所有的推斷算法基本上都要在成本、速度、內(nèi)存和準(zhǔn)確性這幾個變量之間進(jìn)行權(quán)衡。可以快速推斷出某個東西是什么的相機(jī)可能就要以犧牲準(zhǔn)確性為代價,或者可能需要更多內(nèi)存而導(dǎo)致更高的設(shè)備成本。
每秒30幀的速度對于在音樂會人群中找到一張面孔來說是可以的。不過,Xnor.ai公司的運(yùn)營總監(jiān)Sophie Lebrecht表示,當(dāng)涉及到更復(fù)雜的計(jì)算機(jī)視覺任務(wù)(如確定制造過程中的錯誤)時,計(jì)算機(jī)需要提高處理能力,否則就可能需要使生產(chǎn)線減速。Xnor.ai是一家研發(fā)軟件來提高計(jì)算機(jī)視覺能力的公司,其目標(biāo)是以每秒60幀的速度進(jìn)行圖像跟蹤。
加快計(jì)算機(jī)處理圖像的幀速率只是第一步。接下來是構(gòu)建可以跟蹤網(wǎng)絡(luò)中的多個攝像機(jī)之間的對象的軟件。例如,在一個監(jiān)控?cái)z像機(jī)上找到一個人,將能讓網(wǎng)絡(luò)在這個人走在其他攝像機(jī)前面時自動實(shí)時地跟蹤他。
為此,我們需要針對復(fù)雜模型的快速圖像處理能力,以及在相機(jī)網(wǎng)絡(luò)上運(yùn)行并可以挑出圖像的軟件。我們的目標(biāo)是找到一種可以在單個網(wǎng)絡(luò)上執(zhí)行此操作而無需將數(shù)據(jù)發(fā)送到云中的方法。這將需要一種算法來識別人,并需要另一種算法來在物理空間中跟蹤那個人。它可能還需要疊加在相機(jī)上或新的通信協(xié)議上的某種軟件。
相機(jī)還需要避免“對抗性攻擊”,這是一個全新的研究領(lǐng)域。就像人可能被視錯覺所迷惑一樣,計(jì)算機(jī)的視覺也可能被各種會使正常的圖像失真的技巧所欺騙,導(dǎo)致程序識別出圖像上并不存在的東西。
也許最困難的任務(wù)是創(chuàng)造出能讓計(jì)算機(jī)將含義賦予它們所看到的內(nèi)容的軟件。識別出一個人正在爬行是一回事;相機(jī)推斷出在地板上爬行的那個人需要幫助或試圖避過探測是另外一回事。
到那時,相機(jī)及其軟件將需要決定下一步該做什么。我們還有很長一段路要走,但是Alphabet公司的研究人員已經(jīng)在試圖教會計(jì)算機(jī)視覺算法找出含義方面做了令人印象深刻的工作。在將來的某一天,計(jì)算機(jī)可能會比我們對圖像的內(nèi)容理解得更好,并且會利用它們所看到的來做對我們有益的事情。
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2912文章
44899瀏覽量
375829 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1700瀏覽量
46074
原文標(biāo)題:物聯(lián)網(wǎng)相機(jī)需要既快又聰明,且能夠理解圖像含義
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論