圖像標注速度提升10倍!
這是多倫多大學與英偉達聯合公布的一項最新研究:Curve-GCN的應用結果。
Curve-GCN是一種高效交互式圖像標注方法,其性能優于Polygon-RNN++。在自動模式下運行時間為29.3ms,在交互模式下運行時間為2.6ms,比Polygon-RNN ++分別快10倍和100倍。
數據標注是人工智能產業的基礎,在機器的世界里,圖像與語音、視頻等一樣,是數據的一個種類。
對象實例分割是在圖像中概括給定類的所有對象的問題,這一任務在過去幾年受到了越來越多的關注,傳統標記工具通常需要人工先在圖片上點擊光標描記物體邊緣來進行標記。
然而,手動跟蹤對象邊界是一個費力的過程,每個對象大概需要30-60秒的時間。
為了緩解這個問題,已經提出了許多交互式圖像分割技術,其通過重要因素加速注釋。但是交互式分割方法大多是逐像素的(比如DEXTR),在顏色均勻的區域很難控制,所以最壞的情況下仍然需要很多點擊。
Polygon-RNN將humans-in-the-loop(人機回圈)過程進行構架,在此過程中模型按順序預測多邊形的頂點。通過糾正錯誤的頂點,注釋器可以在發生錯誤時進行干預。該模型通過調整校正來繼續其預測。 Polygon-RNN顯示在人類協議水平上產生注釋,每個對象實例只需點擊幾下。這里最糟糕的情況是多邊形頂點的數量,大多數對象的范圍最多為30-40個點。
然而,模型的重復性將可擴展性限制為更復雜的形狀,導致更難的訓練和更長的推理。此外,期望注釋器按順序糾正錯誤,這在實踐中通常是具有挑戰性的。
最新研究成果中,研究人員將對象注釋框架化為回歸問題,其中所有頂點的位置被同時預測。
在Curve-GCN中,注釋器會選擇一個對象,然后選擇多邊形或樣條輪廓。
Curve-GCN自動地勾勒出對象的輪廓
Curve-GCN允許交互式更正,并且可以自動重新預測多邊形/樣條
與Polygon-RNN + +相比:
Curve-GCN具有多邊形或樣條曲線參數
Curve-GCN可同時預測控制點(更快)
初始化預測
人工校正
模型校正
模型是在CityScapes數據集上訓練的
自動模式下的比較。從左到右:ground-truth, Polygon-GCN, Spline-GCN, ps - deeplab
跨域自動模式。(上)cityscaps訓練模型的開箱即用輸出,(下)使用來自新領域的10%的數據進行微調。
將Polygon和Spline-GCN與Polygon-RNN ++和PSP-DeepLab進行比較
模型在最先進的基礎上進行了改進,速度顯著加快,允許只具有局部效果的交互式更正,從而為注釋器提供了更多的控制。這將導致更好的整體注釋策略。
論文摘要
通過邊界跟蹤來手動標記對象是一個繁重的過程。在Polygon-RNN ++中,作者提出了Polygon-RNN,它使用CNN-RNN架構以循環方式產生多邊形注釋,允許通過humans-in-the-loop(人機回圈)的方式進行交互式校正。
我們提出了一個新的框架,通過使用圖形卷積網絡(GCN)同時預測所有頂點,減輕了Polygon-RNN的時序性。我們的模型是端到端訓練的。它支持多邊形或樣條對對象進行標注,從而提高了基于線和曲線對象的標注效率。結果表明,在自動模式下,Curve-GCN的性能優于現有的所有方法,包括功能強大的PSP-DeepLab,并且在交互模式下,Curve-GCN的效率明顯高于Polygon-RNN++。我們的模型在自動模式下運行29.3ms,在交互模式下運行2.6ms,比Polygon-RNN ++分別快10倍和100倍。
-
數據
+關注
關注
8文章
7085瀏覽量
89214 -
人工智能
+關注
關注
1792文章
47442瀏覽量
239005 -
英偉達
+關注
關注
22文章
3800瀏覽量
91346
原文標題:多倫多大學&NVIDIA最新成果:圖像標注速度提升10倍!
文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論