圖像分割(image segmentation)是根據(jù)灰度、色彩、空間紋理、幾何形狀等特征將圖片分成若干個(gè)特定的、具有獨(dú)特性質(zhì)的區(qū)域,并提出感興趣目標(biāo)的技術(shù)和過(guò)程。
目前圖像分割發(fā)展出以下幾個(gè)子領(lǐng)域:
語(yǔ)義分割(semantic segmentation)
是將輸入圖像中的每個(gè)像素點(diǎn)預(yù)測(cè)為不同的語(yǔ)義類別。更注重類別之間的區(qū)分,會(huì)重點(diǎn)將前景里的車輛和背景里的房屋、天空、地面分割開(kāi),但是不區(qū)分重疊車輛。主要有FCN,DeepLab,PSPNet等方法。
實(shí)例分割(instance segmentation)
是目標(biāo)檢測(cè)和語(yǔ)義分割的結(jié)合,將輸入圖像中的目標(biāo)檢測(cè)出來(lái),對(duì)目標(biāo)包含的每個(gè)像素分配類別標(biāo)簽。更注重前景中目標(biāo)個(gè)體之間的分割,背景的房屋、天空、地面均為一類。主要有DeepMask,Mask R-CNN,PANet等方法。
全景分割(panoptic segmentation)
是語(yǔ)義分割和實(shí)例分割的綜合,旨在同時(shí)分割實(shí)例層面的目標(biāo)(thing)和語(yǔ)義層面的背景內(nèi)容(stuff),將輸入圖像中的每個(gè)像素點(diǎn)賦予類別標(biāo)簽和實(shí)例ID,生成全局的,統(tǒng)一的分割圖像。
01 全景分割的應(yīng)用與發(fā)展
從輸入數(shù)據(jù)上分類,全景分割可以分為基于RGB圖像的全景分割和基于點(diǎn)云數(shù)據(jù)的全景分割。
基于RGB圖像的全景分割算法可以分為三類。
1.box-based,thing和stuff使用不同的分支預(yù)測(cè),其中thing的分割基于目標(biāo)檢測(cè)boxes。
如Panoptic FPN模型,首先進(jìn)行特征提取,然后接兩個(gè)分支分別預(yù)測(cè)實(shí)例分割和語(yǔ)義分割。其中實(shí)例分割分支的預(yù)測(cè)過(guò)程是先預(yù)測(cè)出實(shí)例的boxes,再在每個(gè)box的范圍內(nèi)預(yù)測(cè)出對(duì)應(yīng)的實(shí)例分割,所以box-based的全景分割最終的預(yù)測(cè)結(jié)果主要取決于boxes的預(yù)測(cè)精度。語(yǔ)義分割分支直接預(yù)測(cè)輸出結(jié)果。最后融合兩個(gè)分支結(jié)果得到全景分割。
由于通過(guò)兩個(gè)分支分別預(yù)測(cè)thing和stuff,會(huì)導(dǎo)致出現(xiàn)兩個(gè)分支預(yù)測(cè)結(jié)果有重合區(qū)域,后處理去重過(guò)程和NMS比較類似:
(1)根據(jù)不同thing的置信度來(lái)去除重疊部分;
(2)以thing優(yōu)先原則去除thing和stuff之間的重疊部分;
(3)去除stuff標(biāo)記為“其他”或者低于給定面積閾值的區(qū)域。
上述模型中
使用FPN(Feature Pyramid Network)特征金字塔網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)。使用一個(gè)標(biāo)準(zhǔn)的網(wǎng)絡(luò)提取多個(gè)空間位置的特征,再在網(wǎng)絡(luò)的最高層開(kāi)始上采樣并和對(duì)應(yīng)的特征提取網(wǎng)絡(luò)橫向連接,生成多個(gè)尺度的特征圖,從而獲得多尺度的語(yǔ)義信息。
因?yàn)榫W(wǎng)絡(luò)高層的特征雖然包含了豐富的語(yǔ)義信息,但是由于低分辨率,很難準(zhǔn)確地保存物體的位置信息。與之相反,低層的特征雖然語(yǔ)義信息較少,但是由于分辨率高,就可以準(zhǔn)確地包含物體位置信息,所以通過(guò)融合這些不同層的特征能達(dá)到識(shí)別和定位更準(zhǔn)確的預(yù)測(cè)效果。
FPN可以應(yīng)用到各種網(wǎng)絡(luò)模型,提升模型效果。如目標(biāo)檢測(cè)模型Faster R-CNN,實(shí)例分割模型Mask R-CNN,以及下述全景分割網(wǎng)絡(luò)Panoptic FCN。
特征金字塔網(wǎng)絡(luò)
2.box-free,thing和stuff使用不同的分支預(yù)測(cè),先預(yù)測(cè)語(yǔ)義再生成實(shí)例,不需要先進(jìn)行目標(biāo)檢測(cè)。
如Panoptic-DeepLab模型,去除了Panoptic FPN的box預(yù)測(cè)部分,直接預(yù)測(cè)出thing和stuff。為了得到目標(biāo)實(shí)例預(yù)測(cè),在實(shí)例分割分支同時(shí)預(yù)測(cè)了每個(gè)實(shí)例的中心點(diǎn)及其heatmap,得到像素點(diǎn)與實(shí)例關(guān)鍵點(diǎn)之間的關(guān)系,并依此融合形成類別未知的不同實(shí)例,另外語(yǔ)義分割分支直接預(yù)測(cè)輸出,最后結(jié)合兩個(gè)分支輸出得到全景分割的結(jié)果。
與box-based方法相比,去除了boxes預(yù)測(cè)步驟,推理速度更快,減少了由于boxes的限制對(duì)分割精度的影響。
3.thing和stuff完全使用相同的結(jié)構(gòu)進(jìn)行預(yù)測(cè),如Panoptic-FCN。
Panoptic FCN是將thing和stuff統(tǒng)一成特征描述子(kernels)來(lái)進(jìn)行預(yù)測(cè)。主要由FPN、Kernel Generator、Kernel Fusion和Feature Encoder四個(gè)部分組成。
先通過(guò)FPN得到多尺度特征圖,對(duì)每個(gè)特征圖的thing和stuff生成kernels權(quán)重,然后通過(guò)Kernel Fusion對(duì)多個(gè)特征圖的kernels權(quán)重進(jìn)行合并。
Kernel Generator由Kernel Head和Position Head兩個(gè)分支構(gòu)成,首先同時(shí)預(yù)測(cè)thing和stuff的位置,其中,thing通過(guò)預(yù)測(cè)中心點(diǎn)(centers)來(lái)定位和分類,stuff通過(guò)預(yù)測(cè)區(qū)域(regions)來(lái)定位和分類,然后根據(jù)thing和stuff的位置,從Kernel Head中產(chǎn)生kernels權(quán)重。Feature Encoder用來(lái)對(duì)高分辨率特征進(jìn)行編碼,最后將得到的kernels權(quán)重和編碼特征融合得到最終預(yù)測(cè)結(jié)果。
上述的box-based和box-free全景分割都是將thing和stuff拆分成兩個(gè)分支來(lái)進(jìn)行預(yù)測(cè)的,這必然會(huì)引入更多的后處理還有設(shè)計(jì)不同分支信息融合的操作,使得整個(gè)系統(tǒng)既冗余又復(fù)雜。
Panoptic FCN實(shí)現(xiàn)了真正的端到端全景分割,省去了子任務(wù)融合的操作,推理速度快,效果好。
02 全景分割在自動(dòng)駕駛中的應(yīng)用
1.可行駛區(qū)域識(shí)別,分割路面及車道線確定機(jī)動(dòng)車行駛區(qū)域或者當(dāng)前車道區(qū)域等。
由于這種區(qū)域通常是不規(guī)則多邊形,所以使用分割是一種比較好的解決方法。但是也存在邊緣分割不準(zhǔn)確的問(wèn)題。
2.判斷碰撞區(qū)域內(nèi)是否有車輛、行人,與目標(biāo)檢測(cè)相比,分割能更精確表示車輛及行人的邊界位置。但是圖像中目標(biāo)重疊時(shí),存在像素分配沖突問(wèn)題。
03 示例圖
1、ADAS視角城市道路全景分割。
-
RGB
+關(guān)注
關(guān)注
4文章
801瀏覽量
58626 -
圖像分割
+關(guān)注
關(guān)注
4文章
182瀏覽量
18027
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論