Ground-truth(真值)是什么?
Ground-truth在機器學習中表示有監督學習的訓練集的分類準確性,用于證明或者推翻某個假設。有監督的機器學習會對訓練數據打標記,將那些正確打標記的數據成為ground truth。Ground truth就是參考標準,一般用來做誤差量化,最終用于驗證分類算法的準確性。真值標定的輸入一般是視頻文件。真值標定既可以手動一幀一幀地標定,也可以半自動化標定后再手工修正,最終可以將結果保存成真值數據庫。
Ground-truth在自動駕駛汽車產業具有很高的的附加值,它涉及以下數據處理流程:數據采集、數據標注、模型訓練、應用、驗證。擁有最高質量Ground-truth數據的公司將會處于自動駕駛汽車的最前沿。
Ground-truth質量影響算法質量。
一、Ground-truth數據面臨哪些挑戰
丟失或模糊的對象
不一致的標記(行人手中有物體或沒有物體)
不同種類車輛之間不明確的邊界
系統性的標記誤差
不精確性
定義不佳的需求
1.1 丟失或模糊的對象
1.2 不一致的標記 (行人手中有物體或沒有物體)
1.3 不同種類車輛之間不明確的邊界
1.4 系統化標記誤差
原始的標記框不精確,通過對頂部和底部的修正以及更詳細的注釋使得標記框更加精確。
二、實驗:Ground Truth質量對于算法性能的影響
2.1 實驗
我們展示了標記框實驗的初步結果
1. 復合分類(定義不佳的標簽需求)
2. 不精確的真值標記
復合分類
圖中騎車人和行人被標記了出來,自行車沒有被標記出來。
2.2 復合Caltech:新數據集
行人與攜帶行李的行人的對比
Caltech完成了從原始不精確標記框到更為精確的標記框,再到高質量復合型標記框的轉變。
2.3 復合型Caltech訓練
1. 用于重復性結果的框外物體檢測器
2. 體系結構:更快的 rcnn_resnet101_coco (coco預訓練)
3. Caltech數據庫微調(任何一個變量都有一個獨立的模型,沒有超參數調優)
2.4 Caltech檢測器評估
Caltech | 改進的Caltech | 復合Caltech | |
mAP@0.5 | 0.2170 | 0.3030 | 0.2916 |
初步結果:復合Caltech降低了精確度
2.5 扭曲VOC邊界框
2.6實驗總結
標記不精確(質量)對高精度區域的性能影響顯著。
三、解決方案
加速標注過程:更高速、精確并且具有成本效益
人工標注過程從90分鐘壓縮到35分鐘
可視化不確定的地方,引導標記人員
一是依靠智能算法
深度學習推理,與不確定性計算共同加快標注員的工作
算法質量檢測與物體追蹤
二是依靠人類智慧
每一幅圖像都經過人類標注員的驗證
通過內部專家提供額外的質量保證
通過智能算法與人類智慧,共同完成高質量的標注。
通過算法推薦,計算不確定的地方,以及標記人員解決不確定性的地方,共同完成高質量的標注。
LIDAR標注
通過算法和工具,使得速度最高能提高5倍。
-
數據庫
+關注
關注
7文章
3845瀏覽量
64601 -
機器學習
+關注
關注
66文章
8438瀏覽量
132936 -
自動駕駛
+關注
關注
784文章
13923瀏覽量
166835
原文標題:Ground-truth質量是算法質量的關鍵
文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論