很多機(jī)器學(xué)習(xí)分類(lèi)器都需要對(duì)背景或其他類(lèi)別的物體進(jìn)行具體分類(lèi)。這種分類(lèi)器最大的難題就是在對(duì)背景進(jìn)行分類(lèi)時(shí)能否達(dá)到較高的準(zhǔn)確率。它沒(méi)有可辨別特征,并且可用的訓(xùn)練數(shù)據(jù)可能不會(huì)覆蓋所有的輸入分布。在這篇文章中,我們提出了幾種解決這一問(wèn)題的方法。
在這篇文章里,我們將圖像樣本分類(lèi)問(wèn)題看做“狗狗種類(lèi)的區(qū)分”問(wèn)題(總共有9種狗狗):
我們解決了三個(gè)難題:
如何讓分類(lèi)器預(yù)測(cè)目標(biāo)是否為“背景”的概率
如何得到背景訓(xùn)練數(shù)據(jù)之外的、并不符合真實(shí)背景分布的數(shù)據(jù)
如何修復(fù)背景分類(lèi)的不平衡性
使用背景類(lèi)別數(shù)據(jù)
想創(chuàng)建這個(gè)狗狗分類(lèi)器,有兩種方法可用:
得到這些狗狗圖像和背景的所有數(shù)據(jù)(將背景也看作是可識(shí)別的一類(lèi)對(duì)象),共有10類(lèi)
創(chuàng)建一個(gè)能辨別9種狗狗種類(lèi)的模型,如果模型在9個(gè)種類(lèi)上都沒(méi)有足夠高的置信度,那么就將其判定為“背景”
從我的經(jīng)驗(yàn)來(lái)看,第二種方法表現(xiàn)不佳。我發(fā)現(xiàn)這樣的模型學(xué)會(huì)了以狗狗為中心進(jìn)行嵌入(logit層和softmax之前的最后一層),并且閾值通常會(huì)將各種類(lèi)別的邊界附近的嵌入映射到“背景”一類(lèi)中:
但是事實(shí)上,狗狗們只是圖片的一個(gè)子空間,也許接近一個(gè)極值(與分類(lèi)器需要學(xué)習(xí)的毛發(fā)特征等其他特征不同):
這樣的分類(lèi)器在沒(méi)有狗狗的圖像上可以任意工作。接下來(lái),我們會(huì)介紹只能預(yù)測(cè)背景概率的分類(lèi)器。
控制背景分類(lèi)的學(xué)習(xí)
假設(shè)我們現(xiàn)在已經(jīng)收集到了足夠的有關(guān)背景分類(lèi)的數(shù)據(jù)了,通常,我們的背景數(shù)據(jù)都是圖片的不完全分布。下面是一些家用電器和廚房用具:
如果我們僅在這些圖片上訓(xùn)練一個(gè)模型,讓它把背景當(dāng)做另外一個(gè)類(lèi)別的東西,那么嵌入示意圖看起來(lái)很不完美:
我有一種能顯著改善這種情況的方法:不讓背景類(lèi)別學(xué)習(xí)特征,只讓它學(xué)習(xí)一種可訓(xùn)練變量,即它的logit。這樣一來(lái),背景類(lèi)別不會(huì)被嵌入到某個(gè)具體的區(qū)域中,給那些真正屬于背景的圖片更多的嵌入圖空間:
當(dāng)然了,這種方法仍不完美。在某種程度上,狗狗分類(lèi)可以學(xué)習(xí)在電器圖片上表現(xiàn)較弱,但在實(shí)際中一定比這種更好。
我用上面的9種狗和6種電器的數(shù)據(jù)訓(xùn)練了一個(gè)模型,并完全的ImageNet驗(yàn)證集上對(duì)它們進(jìn)行驗(yàn)證。我在訓(xùn)練和驗(yàn)證時(shí)加入了權(quán)重,以減輕分類(lèi)的不平衡性(下一節(jié)我們會(huì)講到如何處理真正分布的不平衡)。在下方的驗(yàn)證圖表中,綠色的折線是模型將所有類(lèi)別都相同對(duì)待的結(jié)果,藍(lán)色折線是模型在學(xué)習(xí)時(shí)沒(méi)有學(xué)習(xí)背景類(lèi)型的結(jié)果:
驗(yàn)證精度vs訓(xùn)練次數(shù)
沒(méi)有學(xué)習(xí)背景特征的模型在大多數(shù)訓(xùn)練中都保持領(lǐng)先,在沒(méi)有訓(xùn)練背景的情況下,精確度在15個(gè)類(lèi)別的數(shù)據(jù)集上都有了提升(9種狗狗類(lèi)別、6種電器類(lèi)別和其中的背景類(lèi)別),同時(shí)在有1000種數(shù)據(jù)集分類(lèi)上也有進(jìn)步(9個(gè)狗狗類(lèi)別、991種電器類(lèi)別和其中一個(gè)背景類(lèi)別):
注意,這一結(jié)果表明這10種類(lèi)別在驗(yàn)證時(shí)都是一樣重要。
背景分類(lèi)不平衡
最后,我們要考慮另一種情況,即背景類(lèi)別實(shí)際上比測(cè)試時(shí)狗狗圖片的數(shù)量要多。假設(shè)測(cè)試時(shí)的分布都來(lái)源于ImageNet,我們的分類(lèi)器在這些情況下表現(xiàn)較差,因?yàn)樗谟?xùn)練時(shí)認(rèn)為所有類(lèi)別都是平均分布的。
解決這一問(wèn)題最簡(jiǎn)單的方法就是在每個(gè)肯定預(yù)測(cè)中加入更高的閾值,從而當(dāng)概率超過(guò)這一值并且是最高的時(shí),我們才能判斷這是某種類(lèi)型的狗狗。由此,我們得到了以下的精確度與反饋曲線,如果分類(lèi)器從9種狗狗中預(yù)測(cè)出了一種,那么每個(gè)樣本都都被看作是“正的”,如果預(yù)測(cè)結(jié)果為“背景”,那么就是“負(fù)的”。
例如,如果我們需要對(duì)狗狗的預(yù)測(cè)結(jié)果達(dá)到90%的置信度,我們會(huì)對(duì)85%的圖片進(jìn)行正確標(biāo)簽,大約有7%的預(yù)測(cè)是正確的。
不過(guò),這一結(jié)果還能提高。我們可以用先驗(yàn)和下面的貝葉斯公式,將概率分布從“統(tǒng)一”改變成“shifted”,前提是假設(shè)每個(gè)類(lèi)別x都符合P(image|x,shifted) = P(image|x,uniform):
這樣做的好處是,它并不需要收集更多數(shù)據(jù),甚至重新訓(xùn)練模型,只需要一個(gè)簡(jiǎn)單的數(shù)據(jù)公式,就能得出更好地預(yù)測(cè)結(jié)果。
結(jié)語(yǔ)
總的來(lái)說(shuō),在這篇文章中我提出了三種能夠在有背景的圖片中提高分類(lèi)器精確度的技術(shù):
在背景類(lèi)別中添加一些數(shù)據(jù),讓模型對(duì)其進(jìn)行概率預(yù)測(cè)(而不是僅僅訓(xùn)練一個(gè)無(wú)背景的類(lèi)別,對(duì)背景類(lèi)別映射低概率)
避免模型使用任何特征了解背景類(lèi)別的活動(dòng)
使用先驗(yàn)調(diào)整類(lèi)別不平衡問(wèn)題
這些技術(shù)能改變模型對(duì)背景圖片的預(yù)測(cè),從此前的混亂預(yù)測(cè),到可以推斷出大量信息。
-
分類(lèi)器
+關(guān)注
關(guān)注
0文章
152瀏覽量
13191 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8420瀏覽量
132681
原文標(biāo)題:如何用機(jī)器學(xué)習(xí)精準(zhǔn)辨別“背景”和“目標(biāo)”
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論