3.2.4語義分割
圖3-7所示為機(jī)器視覺語義分割示例。
計(jì)算機(jī)視覺的核心是分割,它將整個圖像分成一個個像素組,然后對其進(jìn)行標(biāo)記和分類。語義分割試圖在語義上理解圖像中每個像素的角色(例如,識別它是道路、汽車還是其他類別)。如圖3-7所示,除識別人、道路、汽車、樹木等外,還必須確定每個物體的邊界。因此,與分類不同,需要用模型對密集的像素進(jìn)行預(yù)測。
與其他計(jì)算機(jī)視覺任務(wù)一樣,卷積神經(jīng)網(wǎng)絡(luò)在分割任務(wù)上取得了巨大成功。最流行的原始方法之一是通過滑動窗口進(jìn)行塊分類,利用每個像素周圍的圖像塊,對每個像素
分別進(jìn)行分類。但是其計(jì)算效率非常低,因?yàn)槲覀儾荒茉谥丿B塊之間重用共享特征。解決方案之一就是加州大學(xué)伯克利分校提出的全卷積網(wǎng)絡(luò)(FCN),它提出了端到端的卷積神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu),在沒有任何全連接層的情況下進(jìn)行密集預(yù)測,如圖3-8所示。
圖3-8 全卷積網(wǎng)絡(luò)(FCN)實(shí)現(xiàn)像素分類演示
這種方法允許針對任何尺寸的圖像生成分割映射,并且比塊分類算法快得多,幾乎后續(xù)所有的語義分割算法都采用了這種范式。
-
智慧燈桿
+關(guān)注
關(guān)注
1文章
811瀏覽量
11736
發(fā)布評論請先 登錄
相關(guān)推薦
評論