如果要把深度學(xué)習(xí)開發(fā)過程中幾個環(huán)節(jié)按重要程度排個序的話,相信準(zhǔn)備訓(xùn)練數(shù)據(jù)肯定能排在前幾位。要知道一個模型網(wǎng)絡(luò)被編寫出來后,也只是一坨代碼而已,和智能基本不沾邊,它只有通過學(xué)習(xí)大量的數(shù)據(jù),才能學(xué)會如何作推理。因此訓(xùn)練數(shù)據(jù)其實(shí)和一樣?xùn)|西非常像!——武俠小說中的神功秘笈,學(xué)之前菜鳥一只,學(xué)之后一統(tǒng)江湖!
但很可惜的是,訓(xùn)練數(shù)據(jù)和秘笈還有一個特點(diǎn)很相似,那就是可遇而不可求!也就是說很難獲取,除了那些公共數(shù)據(jù)集之外,如果用戶想基于自己的業(yè)務(wù)場景準(zhǔn)備數(shù)據(jù)的話,不僅數(shù)據(jù)的生產(chǎn)和標(biāo)注過程會比較復(fù)雜,而且一般需要的數(shù)量規(guī)模也會非常龐大,因?yàn)橹挥谐渥愕臄?shù)據(jù),才能確保模型訓(xùn)練的效果,這導(dǎo)致數(shù)據(jù)集的制作成本往往非常高。這個情況在計(jì)算機(jī)視覺領(lǐng)域尤甚,因?yàn)閳D像要一張一張拍攝與標(biāo)注,要是搞個幾十萬圖片,想想都讓人“不寒而栗”! 為了應(yīng)對上述問題,在計(jì)算機(jī)視覺領(lǐng)域中,圖像數(shù)據(jù)增廣是一種常用的解決方法,常用于數(shù)據(jù)量不足或者模型參數(shù)較多的場景。如果用戶手中數(shù)據(jù)有限的話,則可以使用數(shù)據(jù)增廣的方法擴(kuò)充數(shù)據(jù)集。一些常見的圖像分類任務(wù)中,例如ImageNet一千種物體分類,在預(yù)處理階段會使用一些標(biāo)準(zhǔn)的數(shù)據(jù)增廣方法,包括隨機(jī)裁剪和翻轉(zhuǎn)。除了這些標(biāo)準(zhǔn)的數(shù)據(jù)增廣方法之外,飛槳的圖像分類套件PaddleClas還會額外支持8種數(shù)據(jù)增廣方法,下面將為大家逐一講解。
下文所有的代碼都來自PaddleClas:
GitHub 鏈接:
https://github.com/PaddlePaddle/PaddleClas
Gitee 鏈接:
https://gitee.com/paddlepaddle/PaddleClas
8大數(shù)據(jù)增廣方法
首先咱們先來看看以ImageNet圖像分類任務(wù)為代表的標(biāo)準(zhǔn)數(shù)據(jù)增廣方法,該方法的操作過程可以分為以下幾個步驟:
圖像解碼,也就是將圖像轉(zhuǎn)為Numpy格式的數(shù)據(jù),簡寫為 ImageDecode。
圖像隨機(jī)裁剪,隨機(jī)將圖像的長寬均裁剪為 224 大小,簡寫為 RandCrop。
水平方向隨機(jī)翻轉(zhuǎn),簡寫為 RandFlip。
圖像數(shù)據(jù)的歸一化,簡寫為 Normalize。
圖像數(shù)據(jù)的重排。圖像的數(shù)據(jù)格式為[H, W, C](即高度、寬度和通道數(shù)),而神經(jīng)網(wǎng)絡(luò)使用的訓(xùn)練數(shù)據(jù)的格式為[C, H, W],因此需要對圖像數(shù)據(jù)重新排列,例如[224, 224, 3]變?yōu)閇3, 224, 224],簡寫為 Transpose。
多幅圖像數(shù)據(jù)組成 batch 數(shù)據(jù),如 BatchSize 個[3, 224, 224]的圖像數(shù)據(jù)拼組成[batch-size, 3, 224, 224],簡寫為 Batch。
相比于上述標(biāo)準(zhǔn)的圖像增廣方法,研究者也提出了很多改進(jìn)的圖像增廣策略,這些策略均是在標(biāo)準(zhǔn)增廣方法的不同階段插入一定的操作,基于這些策略操作所處的不同階段,大概分為三類:
圖像變換類:對 RandCrop 后的 224 的圖像進(jìn)行一些變換,包括AutoAugment和RandAugment。
圖像裁剪類:對Transpose 后的 224 的圖像進(jìn)行一些裁剪,包括CutOut、RandErasing、HideAndSeek和GridMask。
圖像混疊:對 Batch 后的數(shù)據(jù)進(jìn)行混合或疊加,包括Mixup和Cutmix。
PaddleClas中集成了上述所有的數(shù)據(jù)增廣策略,每種數(shù)據(jù)增廣策略的參考論文與參考開源代碼均在下面的介紹中列出。下文將介紹這些策略的原理與使用方法,并以下圖為例,對變換后的效果進(jìn)行可視化。
圖像變換類
通過組合一些圖像增廣的子策略對圖像進(jìn)行修改和跳轉(zhuǎn),這些子策略包括亮度變換、對比度增強(qiáng)、銳化等?;诓呗越M合的規(guī)則不同,可以劃分為AutoAugment和RandAugment兩種方式。
01
AutoAugment
論文地址:
https://arxiv.org/abs/1805.09501v1
不同于常規(guī)的人工設(shè)計(jì)圖像增廣方式,AutoAugment是在一系列圖像增廣子策略的搜索空間中通過搜索算法找到并組合成適合特定數(shù)據(jù)集的圖像增廣方案。針對ImageNet數(shù)據(jù)集,最終搜索出來的數(shù)據(jù)增廣方案包含 25 個子策略組合,每個子策略中都包含兩種變換,針對每幅圖像都隨機(jī)的挑選一個子策略組合,然后以一定的概率來決定是否執(zhí)行子策略中的每種變換。 PaddleClas中AutoAugment的使用方法如下所示。 fromppcls.data.imaugimportDecodeImage
fromppcls.data.imaugimportResizeImage
fromppcls.data.imaugimportImageNetPolicy
fromppcls.data.imaugimporttransform
size=224
#圖像解碼
decode_op=DecodeImage()
#圖像隨機(jī)裁剪
resize_op=ResizeImage(size=(size,size))
#使用AutoAugment圖像增廣方法
autoaugment_op=ImageNetPolicy()
ops=[decode_op,resize_op,autoaugment_op]
#圖像路徑
imgs_dir=“/imgdir/xxx.jpg”
fnames=os.listdir(imgs_dir)
forfinfnames:
data=open(os.path.join(imgs_dir,f)).read()
img=transform(data,ops) 變換結(jié)果如下圖所示。
02
RandAugment
論文地址: https://arxiv.org/pdf/1909.13719.pdf AutoAugment 的搜索方法比較暴力,直接在數(shù)據(jù)集上搜索針對該數(shù)據(jù)集的最優(yōu)策略,計(jì)算量會很大。在 RandAugment對應(yīng)的論文中作者發(fā)現(xiàn),針對越大的模型,越大的數(shù)據(jù)集,使用 AutoAugment 方式搜索到的增廣方式產(chǎn)生的收益也就越??;而且這種搜索出的最優(yōu)策略是針對指定數(shù)據(jù)集的,遷移能力較差,并不太適合遷移到其他數(shù)據(jù)集上。 在 RandAugment 中,作者提出了一種隨機(jī)增廣的方式,不再像 AutoAugment 中那樣使用特定的概率確定是否使用某種子策略,而是所有的子策略都會以同樣的概率被選擇到,論文中的實(shí)驗(yàn)也表明這種數(shù)據(jù)增廣方式即使在大模型的訓(xùn)練中也具有很好的效果。 PaddleClas中RandAugment的使用方法如下所示。 fromppcls.data.imaugimportDecodeImage
fromppcls.data.imaugimportResizeImage
fromppcls.data.imaugimportRandAugment
fromppcls.data.imaugimporttransform
size=224
#圖像解碼
decode_op=DecodeImage()
#圖像隨機(jī)裁剪
resize_op=ResizeImage(size=(size,size))
#使用RandAugment圖像增廣方法
randaugment_op=RandAugment()
ops=[decode_op,resize_op,randaugment_op]
#圖像路徑
imgs_dir=“/imgdir/xxx.jpg”
fnames=os.listdir(imgs_dir)
forfinfnames:
data=open(os.path.join(imgs_dir,f)).read()
img=transform(data,ops) 變換結(jié)果如下圖所示。
圖像裁剪類
圖像裁剪類主要是對Transpose 后的 224 的圖像進(jìn)行一些裁剪,即裁剪掉部分圖像,或者也可以理解為對部分圖像做遮蓋,共有CutOut、RandErasing、HideAndSeek和GridMask四種方法。
03
Cutout
論文地址:
https://arxiv.org/abs/1708.04552
Cutout 可以理解為 Dropout 的一種擴(kuò)展操作,不同的是 Dropout 是對圖像經(jīng)過網(wǎng)絡(luò)后生成的特征進(jìn)行遮擋,而 Cutout 是直接對輸入的圖像進(jìn)行遮擋,相對于Dropout對噪聲的魯棒性更好。作者在論文中也進(jìn)行了說明,這樣做法有以下兩點(diǎn)優(yōu)勢:
通過 Cutout 可以模擬真實(shí)場景中主體被部分遮擋時(shí)的分類場景。
可以促進(jìn)模型充分利用圖像中更多的內(nèi)容來進(jìn)行分類,防止網(wǎng)絡(luò)只關(guān)注顯著性的圖像區(qū)域,從而發(fā)生過擬合。
PaddleClas中Cutout的使用方法如下所示。 fromppcls.data.imaugimportDecodeImage
fromppcls.data.imaugimportResizeImage
fromppcls.data.imaugimportCutout
fromppcls.data.imaugimporttransform
size=224
#圖像解碼
decode_op=DecodeImage()
#圖像隨機(jī)裁剪
resize_op=ResizeImage(size=(size,size))
#使用Cutout圖像增廣方法
cutout_op=Cutout(n_holes=1,length=112)
ops=[decode_op,resize_op,cutout_op]
#圖像路徑
imgs_dir=“/imgdir/xxx.jpg”
fnames=os.listdir(imgs_dir)
forfinfnames:
data=open(os.path.join(imgs_dir,f)).read()
img=transform(data,ops) 裁剪結(jié)果如下圖所示:
04
RandomErasing
論文地址:
https://arxiv.org/pdf/1708.04896.pdf
RandomErasing 與 Cutout 方法類似,同樣是為了解決訓(xùn)練出的模型在有遮擋數(shù)據(jù)上泛化能力較差的問題,作者在論文中也指出,隨機(jī)裁剪的方式與隨機(jī)水平翻轉(zhuǎn)具有一定的互補(bǔ)性。作者也在行人再識別(REID)上驗(yàn)證了該方法的有效性。與Cutout不同的是,在RandomErasing中,圖片以一定的概率接受該種預(yù)處理方法,生成掩碼的尺寸大小與長寬比也是根據(jù)預(yù)設(shè)的超參數(shù)隨機(jī)生成。 PaddleClas中RandomErasing的使用方法如下所示。 fromppcls.data.imaugimportDecodeImage
fromppcls.data.imaugimportResizeImage
fromppcls.data.imaugimportToCHWImage
fromppcls.data.imaugimportRandomErasing
fromppcls.data.imaugimporttransform
size=224
#圖像解碼
decode_op=DecodeImage()
#圖像隨機(jī)裁剪
resize_op=ResizeImage(size=(size,size))
#使用RandomErasing圖像增廣方法
randomerasing_op=RandomErasing()
ops=[decode_op,resize_op,tochw_op,randomerasing_op]
#圖像路徑
imgs_dir=“/imgdir/xxx.jpg”
fnames=os.listdir(imgs_dir)
forfinfnames:
data=open(os.path.join(imgs_dir,f)).read()
img=transform(data,ops)
img=img.transpose((1,2,0)) 裁剪結(jié)果如下圖所示。
05
HideAndSeek
論文地址:
https://arxiv.org/pdf/1811.02545.pdf
HideAndSeek方法將圖像分為若干大小相同的區(qū)域塊(patch),對于每塊區(qū)域,都以一定的概率生成掩碼,如下圖所示,可能是完全遮擋、完全不遮擋或者遮擋部分。
PaddleClas中HideAndSeek的使用方法如下所示: fromppcls.data.imaugimportDecodeImage
fromppcls.data.imaugimportResizeImage
fromppcls.data.imaugimportToCHWImage
fromppcls.data.imaugimportHideAndSeek
fromppcls.data.imaugimporttransform
size=224
#圖像解碼
decode_op=DecodeImage()
#圖像隨機(jī)裁剪
resize_op=ResizeImage(size=(size,size))
#使用HideAndSeek圖像增廣方法
hide_and_seek_op=HideAndSeek()
ops=[decode_op,resize_op,tochw_op,hide_and_seek_op]
#圖像路徑
imgs_dir=“/imgdir/xxx.jpg”
fnames=os.listdir(imgs_dir)
forfinfnames:
data=open(os.path.join(imgs_dir,f)).read()
img=transform(data,ops)
img=img.transpose((1,2,0)) 裁剪結(jié)果如下圖所示。
06
GridMask
論文地址:
https://arxiv.org/abs/2001.04086
作者在論文中指出,之前的圖像裁剪方法存在兩個問題,如下圖所示:
過度刪除區(qū)域可能造成目標(biāo)主體大部分甚至全部被刪除,或者導(dǎo)致上下文信息的丟失,導(dǎo)致增廣后的數(shù)據(jù)成為噪聲數(shù)據(jù);
保留過多的區(qū)域,對目標(biāo)主體及上下文基本產(chǎn)生不了什么影響,失去增廣的意義。
因此如何避免過度刪除或過度保留成為需要解決的核心問題。GridMask是通過生成一個與原圖分辨率相同的掩碼,并將掩碼進(jìn)行隨機(jī)翻轉(zhuǎn),與原圖相乘,從而得到增廣后的圖像,通過超參數(shù)控制生成的掩碼網(wǎng)格的大小。 在訓(xùn)練過程中,有兩種以下使用方法:
設(shè)置一個概率p,從訓(xùn)練開始就對圖片以概率p使用GridMask進(jìn)行增廣。
一開始設(shè)置增廣概率為0,隨著迭代輪數(shù)增加,對訓(xùn)練圖片進(jìn)行GridMask增廣的概率逐漸增大,最后變?yōu)閜。
論文中表示,經(jīng)過驗(yàn)證后,上述第二種方法的訓(xùn)練效果更好一些。 PaddleClas中GridMask的使用方法如下所示。 fromdata.imaugimportDecodeImage
fromdata.imaugimportResizeImage
fromdata.imaugimportToCHWImage
fromdata.imaugimportGridMask
fromdata.imaugimporttransform
size=224
#圖像解碼
decode_op=DecodeImage()
#圖像隨機(jī)裁剪
resize_op=ResizeImage(size=(size,size))
#圖像數(shù)據(jù)的重排
tochw_op=ToCHWImage()
#使用GridMask圖像增廣方法
gridmask_op=GridMask(d1=96,d2=224,rotate=1,ratio=0.6,mode=1,prob=0.8)
ops=[decode_op,resize_op,tochw_op,gridmask_op]
#圖像路徑
imgs_dir=“/imgdir/xxx.jpg”
fnames=os.listdir(imgs_dir)
forfinfnames:
data=open(os.path.join(imgs_dir,f)).read()
img=transform(data,ops)
img=img.transpose((1,2,0)) 結(jié)果如下圖所示:
圖像混疊
前文所述的圖像變換與圖像裁剪都是針對單幅圖像進(jìn)行的操作,而圖像混疊是對兩幅圖像進(jìn)行融合,生成一幅圖像,Mixup和Cutmix兩種方法的主要區(qū)別為混疊的方式不太一樣。
07
Mixup
論文地址: https://arxiv.org/pdf/1710.09412.pdf Mixup是最先提出的圖像混疊增廣方案,其原理就是直接對兩幅圖的像素以一個隨機(jī)的比例進(jìn)行相加,不僅簡單,而且方便實(shí)現(xiàn),在圖像分類和目標(biāo)檢測領(lǐng)域上都取得了不錯的效果。為了便于實(shí)現(xiàn),通常只對一個 batch 內(nèi)的數(shù)據(jù)進(jìn)行混疊,在Cutmix中也是如此。 如下是imaug中的實(shí)現(xiàn),需要指出的是,下述實(shí)現(xiàn)會出現(xiàn)對同一幅進(jìn)行相加的情況,也就是最終得到的圖和原圖一樣,隨著 batch-size 的增加這種情況出現(xiàn)的概率也會逐漸減小。 PaddleClas中Mixup的使用方法如下所示。 fromppcls.data.imaugimportDecodeImage
fromppcls.data.imaugimportResizeImage
fromppcls.data.imaugimportToCHWImage
fromppcls.data.imaugimporttransform
fromppcls.data.imaugimportMixupOperator
size=224
#圖像解碼
decode_op=DecodeImage()
#圖像隨機(jī)裁剪
resize_op=ResizeImage(size=(size,size))
#圖像數(shù)據(jù)的重排
tochw_op=ToCHWImage()
#使用HideAndSeek圖像增廣方法
hide_and_seek_op=HideAndSeek()
#使用Mixup圖像增廣方法
mixup_op=MixupOperator()
ops=[decode_op,resize_op,tochw_op]
imgs_dir=“/imgdir/xxx.jpg”#圖像路徑
batch=[]
fnames=os.listdir(imgs_dir)
foridx,finenumerate(fnames):
data=open(os.path.join(imgs_dir,f)).read()
img=transform(data,ops)
batch.append((img,idx))#fakelabel
new_batch=mixup_op(batch) 混疊結(jié)果如下圖所示。
08
Cutmix
論文地址:
https://arxiv.org/pdf/1905.04899v2.pdf
與 Mixup 直接對兩幅圖進(jìn)行相加不一樣,Cutmix 是從另一幅圖中隨機(jī)裁剪出一個 ROI(region of interest, 感興趣區(qū)域),然后覆蓋當(dāng)前圖像中對應(yīng)的區(qū)域,代碼實(shí)現(xiàn)如下所示: fromppcls.data.imaugimportDecodeImage
fromppcls.data.imaugimportResizeImage
fromppcls.data.imaugimportToCHWImage
fromppcls.data.imaugimporttransform
fromppcls.data.imaugimportCutmixOperator
size=224
#圖像解碼
decode_op=DecodeImage()
#圖像隨機(jī)裁剪
resize_op=ResizeImage(size=(size,size))
#圖像數(shù)據(jù)的重排
tochw_op=ToCHWImage()
#使用HideAndSeek圖像增廣方法
hide_and_seek_op=HideAndSeek()
#使用Cutmix圖像增廣方法
cutmix_op=CutmixOperator()
ops=[decode_op,resize_op,tochw_op]
imgs_dir=“/imgdir/xxx.jpg”#圖像路徑
batch=[]
fnames=os.listdir(imgs_dir)
foridx,finenumerate(fnames):
data=open(os.path.join(imgs_dir,f)).read()
img=transform(data,ops)
batch.append((img,idx))#fakelabel
new_batch=cutmix_op(batch) 混疊結(jié)果如下圖所示:
實(shí)驗(yàn)
經(jīng)過實(shí)驗(yàn)驗(yàn)證,在ImageNet1k數(shù)據(jù)集上基于PaddleClas使用不同數(shù)據(jù)增廣方式的分類精度如下所示,可見通過數(shù)據(jù)增廣方式可以有效提升模型的準(zhǔn)確率。
注意: 在這里的實(shí)驗(yàn)中,為了便于對比,將l2 decay固定設(shè)置為1e-4,在實(shí)際使用中,更小的l2 decay一般效果會更好。結(jié)合數(shù)據(jù)增廣,將l2 decay由1e-4減小為7e-5均能帶來至少0.3~0.5%的精度提升。
PaddleClas數(shù)據(jù)增廣避坑
指南以及部分注意事項(xiàng)
最后再為大家介紹幾個PaddleClas數(shù)據(jù)增廣使用方面的小Trick。
在使用圖像混疊類的數(shù)據(jù)處理時(shí),需要將配置文件中的use_mix設(shè)置為True,另外由于圖像混疊時(shí)需對label進(jìn)行混疊,無法計(jì)算訓(xùn)練數(shù)據(jù)的準(zhǔn)確率,所以在訓(xùn)練過程中沒有打印訓(xùn)練準(zhǔn)確率。
在使用數(shù)據(jù)增廣后,由于訓(xùn)練數(shù)據(jù)更難,所以訓(xùn)練損失函數(shù)可能較大,訓(xùn)練集的準(zhǔn)確率相對較低,但其擁有更好的泛化能力,所以驗(yàn)證集的準(zhǔn)確率相對較高。
在使用數(shù)據(jù)增廣后,模型可能會趨于欠擬合狀態(tài),建議可以適當(dāng)?shù)恼{(diào)小l2_decay的值來獲得更高的驗(yàn)證集準(zhǔn)確率。
幾乎每一類圖像增廣均含有超參數(shù),PaddleClas在這里只提供了基于ImageNet-1k的超參數(shù),其他數(shù)據(jù)集需要用戶自己調(diào)試超參數(shù),當(dāng)然如果對于超參數(shù)的含義不太清楚的話,可以閱讀相關(guān)的論文,調(diào)試方法也可以參考訓(xùn)練技巧的章節(jié)
原文標(biāo)題:干貨 | 計(jì)算機(jī)視覺的數(shù)據(jù)增廣技術(shù)大盤點(diǎn)!附漲點(diǎn)神器,已開源!
文章出處:【微信公眾號:機(jī)器人創(chuàng)新生態(tài)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7134瀏覽量
89420 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1700瀏覽量
46082
原文標(biāo)題:干貨 | 計(jì)算機(jī)視覺的數(shù)據(jù)增廣技術(shù)大盤點(diǎn)!附漲點(diǎn)神器,已開源!
文章出處:【微信號:robotplaces,微信公眾號:機(jī)器人創(chuàng)新生態(tài)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論