編者按:本文作者Pete Warden是Jetpac公司的CTO,主要研究領(lǐng)域是數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)。在本文中,他結(jié)合自己的工作經(jīng)歷,發(fā)現(xiàn)了在圖像分類(lèi)中的一個(gè)常見(jiàn)問(wèn)題,即模型的不實(shí)用性。針對(duì)該問(wèn)題他提出了自己的想法。以下是論智對(duì)原文的編譯。
幾天前,曾經(jīng)和我合作過(guò)的Plant Village團(tuán)隊(duì)在開(kāi)發(fā)一款移動(dòng)APP時(shí)發(fā)現(xiàn),這款圖像識(shí)別器可以檢測(cè)植物病害,如下圖所示,性能不錯(cuò)。
但是當(dāng)攝像頭指向電腦鍵盤(pán)時(shí),這款A(yù)PP仍然認(rèn)為它是被損壞的糧食。
對(duì)計(jì)算機(jī)視覺(jué)研究者來(lái)說(shuō),這種結(jié)果并不罕見(jiàn),但是對(duì)大多數(shù)人來(lái)說(shuō)還是有些出乎意料的。所以本文將研究這種情況為什么會(huì)發(fā)生,以及我們應(yīng)該如何應(yīng)對(duì)。
人類(lèi)可以準(zhǔn)確分辨身邊的任何物體,所以我們自然就希望機(jī)器能擁有同樣的能力。但是大多數(shù)模型都只在非常有限的目標(biāo)物體上進(jìn)行了訓(xùn)練,例如原始ImageNet競(jìng)賽中只涵蓋了1000種物品類(lèi)別。重要的是,訓(xùn)練過(guò)程中假設(shè)模型所看到的每個(gè)樣本都是目標(biāo)物體之一,而預(yù)測(cè)結(jié)果必須是已有種類(lèi)中的一種。模型不能回答:“我不知道”,并且也沒(méi)有這樣的訓(xùn)練數(shù)據(jù)讓它學(xué)會(huì)這種回答。事實(shí)上這是符合研究設(shè)置的,但是一旦應(yīng)用到現(xiàn)實(shí)中就會(huì)出現(xiàn)問(wèn)題。
當(dāng)我在Jetpac工作時(shí),想要說(shuō)服客戶(hù)我們的產(chǎn)品——AlexNet是一項(xiàng)創(chuàng)新型產(chǎn)品都非常困難,因?yàn)槊看挝覀儼袲emo給客戶(hù)看的時(shí)候,他們都會(huì)對(duì)著自己的臉,模型就會(huì)判斷這是“氧氣罩”或者“安全帶”這種奇怪的東西。這是因?yàn)樵贗mageNet競(jìng)賽類(lèi)別中沒(méi)有關(guān)于人臉的標(biāo)簽,但是大多數(shù)關(guān)于面罩或安全帶的標(biāo)簽都含有人臉。甚至當(dāng)我們將手機(jī)對(duì)著盤(pán)子時(shí),APP會(huì)將其認(rèn)成“馬桶圈”,也是非常尷尬了。這是因?yàn)樵谠镜念?lèi)別中沒(méi)有“盤(pán)子”,與圖片最相近的就是馬桶。
所以我不禁想到了“開(kāi)放的世界”和“封閉的世界”的問(wèn)題。模型在訓(xùn)練和評(píng)估的時(shí)候通常都是假設(shè)面對(duì)的物體屬于有限的類(lèi)別中,但是當(dāng)它們走出實(shí)驗(yàn)室,這種假設(shè)就不成立了,用戶(hù)們會(huì)根據(jù)隨機(jī)物體對(duì)它們的性能表現(xiàn)進(jìn)行評(píng)價(jià),不管該物體是不是訓(xùn)練集中的。
所以這一問(wèn)題應(yīng)該如何解決呢?
不幸的是,目前還沒(méi)有一種簡(jiǎn)單完美的解決方法,但是可以通過(guò)其他方案對(duì)這一問(wèn)題稍稍改進(jìn)。最直接的方法就是在訓(xùn)練數(shù)據(jù)中加入“未知”一類(lèi),或者直接對(duì)具體物體開(kāi)設(shè)新的分類(lèi)。具體來(lái)說(shuō)應(yīng)該考慮以下幾個(gè)問(wèn)題:
類(lèi)別中應(yīng)該包含怎樣的樣本?現(xiàn)實(shí)世界中有無(wú)數(shù)符合含有目標(biāo)物體的圖片,你應(yīng)該如何選擇?
在“未知”類(lèi)別中還需要設(shè)立多少不同的物體種類(lèi)?
當(dāng)“未知物品”和已有類(lèi)別很像時(shí),應(yīng)該怎么做?例如你想在ImageNet的1000個(gè)類(lèi)別中加入一個(gè)狗狗的種類(lèi),但是它看起來(lái)和未知種類(lèi)的狗狗很像。
未知種類(lèi)中,各類(lèi)樣本的訓(xùn)練數(shù)據(jù)比例應(yīng)該如何分配?
最后一點(diǎn)確實(shí)是個(gè)更重要的問(wèn)題,從圖像分類(lèi)網(wǎng)絡(luò)中得到的預(yù)測(cè)值并不是概率,它們假設(shè)看到任意特殊類(lèi)別物體的概率和訓(xùn)練數(shù)據(jù)中的類(lèi)別相同。如果你將一種含有企鵝的動(dòng)物分類(lèi)器用在亞馬遜雨林中,你也會(huì)遇到同樣的問(wèn)題。即使分類(lèi)器有美國(guó)城市中常見(jiàn)的狗狗種類(lèi),稀有品種在ImageNet訓(xùn)練數(shù)據(jù)中出現(xiàn)的次數(shù)也會(huì)比在狗狗公園中出現(xiàn)的頻率高。通常的解決方法是弄清楚你將在檢測(cè)過(guò)程中遇到的具體先驗(yàn)概率是什么,然后用它們將校準(zhǔn)值應(yīng)用于網(wǎng)絡(luò)輸出,以獲得更接近真實(shí)概率的東西。
解決實(shí)際應(yīng)用中此類(lèi)問(wèn)題的主要思想就是限制模型的使用場(chǎng)景,這樣對(duì)目標(biāo)物體的預(yù)測(cè)假設(shè)就會(huì)匹配訓(xùn)練數(shù)據(jù)。一種直接的方法是進(jìn)行產(chǎn)品設(shè)計(jì),你可以在用戶(hù)界面設(shè)計(jì)一個(gè)引導(dǎo)人們將設(shè)備對(duì)準(zhǔn)目標(biāo)物體后,再開(kāi)啟運(yùn)行分類(lèi)器。
再?gòu)?fù)雜一點(diǎn)的話,你可以設(shè)計(jì)一個(gè)單獨(dú)的圖像分類(lèi)器,試著確定主要圖像分類(lèi)器沒(méi)有關(guān)注的條件。這和創(chuàng)建一個(gè)單獨(dú)的“未知”分類(lèi)不同,因?yàn)樗淖饔弥饕?lèi)似于一個(gè)在詳細(xì)模型之前的過(guò)濾器。在開(kāi)頭的植物病害問(wèn)題上,操作環(huán)境非常明顯,可以很輕易地訓(xùn)練模型辨別枝葉和其他照片。這和門(mén)控模型能判斷出圖像是否在不支持場(chǎng)景中拍攝非常相似。這個(gè)門(mén)控模型會(huì)在完整的圖像分類(lèi)器之前運(yùn)行,如果它沒(méi)有檢測(cè)到看起來(lái)像植物的東西,就會(huì)做出錯(cuò)誤消息的提示,表明沒(méi)有找到植物。
那些讓你拍攝信用卡或者進(jìn)行光學(xué)字符識(shí)別的應(yīng)用經(jīng)常會(huì)將屏幕上方向指引和檢測(cè)是否有模糊或偏移的模型結(jié)合起來(lái),引導(dǎo)用戶(hù)拍攝能成功識(shí)別的照片,有時(shí)會(huì)在交互頁(yè)面上添加簡(jiǎn)單的問(wèn)題,例如“這里有樹(shù)葉嗎”。
也許這篇文章不能提供一個(gè)令人滿(mǎn)意的答案,但是這也反映了,機(jī)器學(xué)習(xí)一旦走出了研究問(wèn)題的限制,就很容易達(dá)不到用戶(hù)所期望的效果。人們對(duì)一個(gè)目標(biāo)物體往往存在很多常識(shí)性理解和外界知識(shí),而我們?cè)趥鹘y(tǒng)分類(lèi)任務(wù)中并不能將這些因素考慮在內(nèi)。為了達(dá)到用戶(hù)希望看到的效果,我們必須設(shè)計(jì)一款能讓模型全面地了解世界的系統(tǒng),并基于該系統(tǒng)做出正確的決策,而不僅僅是輸出一個(gè)結(jié)果。
-
分類(lèi)器
+關(guān)注
關(guān)注
0文章
152瀏覽量
13216 -
圖像分類(lèi)
+關(guān)注
關(guān)注
0文章
93瀏覽量
11945 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8438瀏覽量
132954
原文標(biāo)題:當(dāng)圖像分類(lèi)器走出實(shí)驗(yàn)室,碰到未知物體怎么辦?
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論