計算機視覺使計算機能夠理解圖像和視頻的內容。計算機視覺的目標是使人類視覺系統(tǒng)可以實現(xiàn)任務自動化。
計算機視覺任務包括圖像采集、圖像處理和圖像分析。圖像數(shù)據(jù)可以采用不同的形式,例如視頻序列,從多個角度的不同的攝像機查看圖像或來自醫(yī)療掃描儀的多維數(shù)據(jù)。
用于計算機視覺訓練的圖像數(shù)據(jù)集
Labelme:麻省理工學院計算機科學與人工智能實驗室(CSAIL)創(chuàng)建的大型數(shù)據(jù)集,包含187,240張圖像、62,197條帶注釋的圖像和658,992張帶標簽的對象。
樂高積木:通過文件夾和使用Blender渲染的計算機對大約16700種樂高積木進行分類的大約12,700張圖像。
ImageNet:用于新算法的實際圖像數(shù)據(jù)集。根據(jù)WordNet層次結構進行組織,其中層次結構的每個節(jié)點都以成千上萬的圖像進行描繪。
LSUN:具有許多輔助任務的場景理解(房間布局估計、顯著性預測等)
MS COCO:COCO是包含200,000多個標記圖像的大規(guī)模對象檢測、分割和字幕數(shù)據(jù)集。它可以用于對象分割,上下文識別以及許多其他用例。
哥倫比亞大學圖像庫:COIL100是一個數(shù)據(jù)集,其中包含360個旋轉角度中每個角度成像的100個不同對象。
視覺基因組:視覺基因組是一個數(shù)據(jù)集和知識庫,旨在將結構化圖像概念與語言聯(lián)系起來。該數(shù)據(jù)庫具有詳細的視覺知識庫,并帶有108,077張圖像的字幕。
Google的開放圖像:“Creative Commons”下900萬個URL的圖像集合,這些URL已用6000多個類別的標簽進行了注釋。
來自“打開圖像”數(shù)據(jù)集的帶注釋的圖像。
左:Kevin Krejci的《鬼拱門》。右:J B制造的銀制廚房用具。兩個圖像均在CC BY 2.0許可下使用。
Youtube-8M:帶有標簽的大規(guī)模數(shù)據(jù)集,由數(shù)百萬個YouTube視頻ID組成,帶有超過3,800多個視覺實體的注釋。
帶標簽的野外面孔:13,000個帶標簽的人臉圖像,用于開發(fā)涉及面部識別的應用程序。
斯坦福犬類數(shù)據(jù)集:包含20,580張圖像和120種不同的犬種類別,每個類別約有150張圖像。
地點:以場景為中心的數(shù)據(jù)庫,其中包含205個場景類別和250萬個帶有類別標簽的圖像。
CelebFaces:具有超過200,000張名人圖像的人臉數(shù)據(jù)集,每個圖像帶有40個屬性注釋。
花卉:在英國常見的花朵圖像數(shù)據(jù)集,包含102個不同類別。每個花類由40至258張圖像組成,這些圖像具有不同的姿勢和光線變化。
植物圖像分析:涵蓋超過一百萬張植物圖像的數(shù)據(jù)集。可以從11種植物中選擇。
家庭對象:一個數(shù)據(jù)集,其中包含來自家庭的隨機對象,大部分來自廚房、浴室和客廳,這些對象分為訓練和測試數(shù)據(jù)集。
CIFAR-10:包含60,000張32×32彩色圖像的大型圖像數(shù)據(jù)集,分為10類。數(shù)據(jù)集分為五個訓練批次和一個測試批次,每個批次包含10,000張圖像。
CompCars:包含163種車型,包含1,716種車型,每種車型都標有五個屬性,包括最大速度、排量、門數(shù)、座位數(shù)和汽車類型。
室內場景識別:非常具體的數(shù)據(jù)集,非常有用,因為大多數(shù)場景識別模型在“外部”效果更好。包含67個室內類別,共15620張圖像。
VisualQA:VQA是一個數(shù)據(jù)集,包含有關265,016張圖像的開放式問題。這些問題需要對視覺和語言的理解。對于每個圖像,至少有3個問題,每個問題10個答案。
原文標題:機器學習和計算機視覺的前20個圖像數(shù)據(jù)集
文章出處:【微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
機器視覺
+關注
關注
163文章
4473瀏覽量
121656 -
人工智能
+關注
關注
1802文章
48336瀏覽量
244085 -
機器學習
+關注
關注
66文章
8473瀏覽量
133748
原文標題:機器學習和計算機視覺的前20個圖像數(shù)據(jù)集
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論