在圖像和物體識別方面,計算機表現優于人類。
像Google和Microsoft這樣的大公司在圖像識別方面已經超越了人類基準[1,2]。平均而言,人類大約有5%的時間在圖像識別任務上犯了錯誤。截至2015年,微軟的圖像識別軟件的錯誤率達到4.94%,與此同時,谷歌宣布其軟件的錯誤率降低到4.8%[3]
這是怎么做到的?
這可以通過在包含數百個對象類別、數百萬個訓練樣本的ImageNet數據集上訓練深度卷積神經網絡來實現[1]。
百萬訓練數據!
例如,要教計算機從多個角度識別出一只貓貓,可能需要成千上萬張涵蓋不同角度的照片。
成功訓練計算機視覺任務的深層卷積神經網絡需要大量數據。這是因為這些神經網絡具有多個隱藏的處理層,并且隨著層數的增加,需要學習的樣本數也隨之增加。如果沒有足夠的訓練數據,則該模型往往會很好地學習訓練數據,這稱為過度擬合。如果模型過擬合,則其泛化能力很差,因此對未見的數據的表現很差。
但是,如果沒有大量的訓練數據怎么辦?
對于我們手頭的所有圖像識別任務,并不是都會擁有數百萬個訓練樣本。對于某些任務,收集成千上萬個樣本圖像甚至是一個挑戰。對于醫學圖像而言通常是這種情況,例如用于乳房癌檢測和定位的乳房X線照相術,用于肺癌檢測的胸部X射線或用于定位腦腫瘤的MRI掃描。
這可以歸結為一個問題:當我們只有有限的數據時,我們如何訓練能夠很好地完成這些任務的模型?
使用數據增強(data augmentation)生成更多訓練數據
當我們只有少量圖像數據用于訓練深度卷積神經網絡時,我們可以使用數據增強技術從已經擁有的圖像數據中生成更多訓練數據。
數據增強是一種為原始圖像生成多個圖像的技術。有幾種不同的數據增強技術,Mikolajczyk和Grochowski在他們的論文中[4]將這些技術分為兩個子類別:使用基本圖像處理的數據增強和使用深度學習方法的數據增強。
幾何變換
諸如翻轉(Flip),裁剪(Crop),旋轉(Rotation)和移位(Translation)之類的幾何變換是一些常用的數據增強技術。我們將在本文中簡要討論它們。
翻轉
翻轉是取任意給定圖像的鏡像。它是最簡單的增強技術之一。圖像可以水平或垂直翻轉。但是,水平翻轉在這兩者之間更為常見。
裁剪
裁剪是一種數據增強技術,用于通過裁剪邊界像素來減小原始圖像的大小。裁剪時不會保留空間尺寸。在這種類型的數據增強中,不能保證轉換后的圖像與原始圖像屬于相同的輸出標簽。
在上面的圖像中,通過從左右方向裁剪像素,從原始圖像生成了四個圖像。裁剪圖像的尺寸從256x256減小到227x277。
旋轉
圖像可以在軸上向左或向右旋轉1到359度。1到20度之間的旋轉稱為輕微旋轉,并且是用于增強原始圖像的有用技術。隨著旋轉度的增加,轉換后的數據可能無法保留其原始標簽。
移位
翻譯是一種將圖像向左,向右,向上或向下平移的技術。這是一種非常有用的轉換技術,可以避免數據中的位置偏差。移位圖像時,剩余空間將被填充為0,255或被隨機噪聲填充,從而保留了圖像的原始大小。
基于GAN的數據增強
生成對抗網絡(GAN)也稱為GAN,是一種生成建模技術,其中可以從數據集中創建人工實例,從而保留原始集的相似特征[9]。
GAN由兩個相互競爭的人工神經網絡(ANN)組成,即生成器 generator 與判別器 discriminator。生成器創建新的數據實例,而判別器則評估它們的真實性[10]。
這是由GAN生成的人臉圖像,這是在人臉上訓練出來的。請注意,這些是合成的面孔,而不是真實的人。
這些是一些數據增強技術,通常用于從有限的數據集中生成更多數據,從而可以訓練出更有效的卷積神經網絡。
Olaf和他的團隊在訓練數據有限的情況下,利用在圖像上的平移、旋轉和隨機彈性變換等數據增強技術訓練U-net體系結構模型,并在2015年ISBI細胞追蹤挑戰中以較大優勢獲得這些類別的冠軍。
因此,下次在訓練卷積神經網絡時,請使用這些技術來創建更多數據。
你平時使用了哪些數據增強技術?在下面評論分享的想法。
-
計算機
+關注
關注
19文章
7534瀏覽量
88459 -
圖像識別
+關注
關注
9文章
521瀏覽量
38336
發布評論請先 登錄
相關推薦
評論