本文介紹一個機(jī)器學(xué)習(xí)大型數(shù)據(jù)集的匯總網(wǎng)站,網(wǎng)站目前提供約 70 個最新數(shù)據(jù)集,涵蓋了計算機(jī)視覺、自然語言理解和音頻三大領(lǐng)域。
還在愁到哪里找到需要的機(jī)器學(xué)習(xí)數(shù)據(jù)集嗎?
每年都有很多大型、高質(zhì)量的數(shù)據(jù)集發(fā)布,其中大多數(shù)數(shù)據(jù)集都發(fā)布在各自的網(wǎng)站上,通過谷歌搜索很難找到所有這些數(shù)據(jù)集。
現(xiàn)在,一位名叫Nikola Ple?a的開發(fā)人員做了一個項目,將所有機(jī)器學(xué)習(xí)的大型數(shù)據(jù)集收集在一個網(wǎng)站上,方便大家取用。
網(wǎng)站一經(jīng)發(fā)布,好評如潮。網(wǎng)站目前提供約70個數(shù)據(jù)集,涵蓋了計算機(jī)視覺、自然語言理解和音頻三大領(lǐng)域,包括每個數(shù)據(jù)集的鏈接、簡介、許可類型、論文等,并且作者表示將繼續(xù)增加數(shù)據(jù)集數(shù)量。
傳送門:
https://www.datasetlist.com/
下面,我們分別介紹CV、NLP的最新10大數(shù)據(jù)集,以及4個音頻數(shù)據(jù)集。
計算機(jī)視覺(46個)
1. IBM人臉多樣性數(shù)據(jù)集
IBM的人臉多樣性(DiF)數(shù)據(jù)集是一個龐大而多樣化的數(shù)據(jù)集,旨在促進(jìn)人臉識別技術(shù)中公平性和準(zhǔn)確性的研究。DiF是第一個此類數(shù)據(jù)集,包含100萬張帶注釋的人臉圖像。
2. GQA
GQA數(shù)據(jù)集包含2200萬個關(guān)于各種日常圖像的問題。每個圖像都與圖像的對象、屬性和關(guān)系的場景圖相關(guān)聯(lián),這是一個基于Visual Genome的新的清晰版本數(shù)據(jù)集。
3. NVIDIA Flickr-Faces-HQ數(shù)據(jù)集
該數(shù)據(jù)集由70000張分辨率為1024×1024的高質(zhì)量PNG圖像組成,并且在人物的年齡、種族和圖像背景方面差異很大。數(shù)據(jù)集也很好地覆蓋了人臉的附件,如眼鏡,太陽鏡,帽子等。
4. Google Open Images V4
Open Images是一個包含約900萬個URL圖像的數(shù)據(jù)集,這些圖像具有包含數(shù)千個類別的圖像級標(biāo)簽和邊界框注釋。
5. Youtube-8M 2018
YouTube- 8M是一個大型的帶標(biāo)簽的視頻數(shù)據(jù)集,由數(shù)百萬個YouTube視頻ID和來自4700多個視覺實體的不同詞匯表的相關(guān)標(biāo)簽組成,包含大量的視頻畫面信息、音頻信息、標(biāo)簽信息。
6. Berkeley Deep Drive (BDD100K)
該數(shù)據(jù)集包含超過100k個駕駛體驗視頻,每個視頻長度為40秒,幀數(shù)為每秒30幀。總圖像數(shù)比百度ApolloScape(2018年3月發(fā)布)大800倍,比Mapillary大4800倍,比KITTI大8000倍。
7. ApolloScape
ApolloScape是一個此前的類似數(shù)據(jù)集如KITTI和CityScapes更大、更復(fù)雜的數(shù)據(jù)集。ApolloScape提供了高分辨率高10倍以上的圖像,并逐像素標(biāo)注,包括26種不同的可識別對象,如汽車、自行車、行人和建筑物。隨著行人和車輛數(shù)量的增加,數(shù)據(jù)集提供了多個級別的場景復(fù)雜性,在給定場景中最多多達(dá)100輛車輛,以及更廣泛的具有挑戰(zhàn)性的環(huán)境,如惡劣天氣或極端光照條件。
8. Tencent ML - Images
騰訊發(fā)布的Tencent ML - Images是目前最大的開源多標(biāo)簽圖像數(shù)據(jù)集,包括17,609,752個訓(xùn)練圖像和88739個驗證圖像URL,注釋多達(dá)11,166個類別。
9. Fashion MNIST
Fashion-MNIST是Zalando文章圖像的一個數(shù)據(jù)集,包括60,000個示例的訓(xùn)練集和10,000個示例的測試集。每個示例都是一個28x28的灰度圖像,與10個類別的標(biāo)簽相關(guān)聯(lián)。
10. MegaFace
MF2訓(xùn)練數(shù)據(jù)集是身份數(shù)量上最大的公開可用的面部識別數(shù)據(jù)集,有470萬張面部圖像,672K個身份,以及各自的邊界框。所有圖片均來自Flickr,并在知識共享協(xié)議下許可。
自然語言理解(18個)
1. 斯坦福問答數(shù)據(jù)集(SQuAD)
斯坦福問答數(shù)據(jù)集(Stanford Question answer Dataset, SQuAD)是一個全新的閱讀理解數(shù)據(jù)集,由眾包工作者根據(jù)維基百科文章提出的問題組成,其中每個問題的答案都對應(yīng)閱讀文章的一段文本。SQuAD包含500多篇文章的10萬對以上的問答對,因此規(guī)模明顯大于之前的閱讀理解數(shù)據(jù)集。SQuAD2.0將SQuAD1.1中的10萬個問題與5萬多個新的、無法回答的問題(由眾包工作者提出)結(jié)合起來,使之看起來與可回答的問題相似。
2. MultiNLI
多體裁自然語言推理語料庫(Multi-Genre Natural Language Inference, MultiNLI)是一個由433k個句子對組成的源文本集合語料庫,這些句子對都帶有文本蘊(yùn)涵信息。MultiNLI語料庫是在SNLI語料庫的基礎(chǔ)上建立的,但不同之處在于它涵蓋了一系列口語和書面文本的體裁,并支持獨特的跨體裁評估。
3. CoQA
CoQA是一個用于構(gòu)建會話問答系統(tǒng)的大型數(shù)據(jù)集。CoQA包含127k個問題和答案,來自7個不同領(lǐng)域的8k個文本段落的對話。
4. Spider 1.0
Spider是一個大型復(fù)雜的跨域語義分析和text-to-SQL的數(shù)據(jù)集。Spider由10181個問題和5693個獨特的復(fù)雜SQL查詢組成,這些查詢來自200個數(shù)據(jù)庫,覆蓋138個不同的域。
5. HotpotQA
HotpotQA是一個以自然的、multi-hop的問題為特征的問答數(shù)據(jù)集,具有強(qiáng)大的支持事實的監(jiān)督,以實現(xiàn)更易于解釋的問答系統(tǒng)。該數(shù)據(jù)集由113,000對基于Wikipedia的QA對組成。
6. Question Pairs (Quora)
包含超過400,000行潛在的問題對。
7. Yelp open dataset
Yelp數(shù)據(jù)集是用于個人、教育和學(xué)術(shù)目的的業(yè)務(wù)、評論和用戶數(shù)據(jù)的子集。可在JSON和SQL文件中使用。
8. Facebook bAbI
一個用于自動文本理解和推理的數(shù)據(jù)集。
9. MS MARCO
微軟機(jī)器閱讀理解數(shù)據(jù)集(MS MARCO)是一個用于閱讀理解和問題回答的新型大型數(shù)據(jù)集。在MS MARCO中,所有問題都是從真實的匿名用戶查詢中提取的。數(shù)據(jù)集中的答案來自上下文段落,這些段落使用Bing搜索引擎從真實的web文檔中提取。如果他們能夠總結(jié)出答案,那么查詢的答案就是人工生成的。
10. NewsQA
NewsQA數(shù)據(jù)集的目的是幫助研究社區(qū)構(gòu)建能夠回答需要人類水平理解和推理技能的問題的算法。該數(shù)據(jù)集包含來自眾包的120K閱讀理解Q&A對。
音頻(4個)
1. Mozilla Common Voice
Mozilla擁有可供使用的最大的人類語音數(shù)據(jù)集,包括18種不同的語言,從4.2萬多名貢獻(xiàn)者那里收集了近1400小時的錄音語音數(shù)據(jù)。
2. NSynth
這是一個大規(guī)模、高質(zhì)量的注釋音符數(shù)據(jù)集。NSynth數(shù)據(jù)集是一個音頻數(shù)據(jù)集,包含~300k個音符,每個音符都有一個獨特的音調(diào)、音色和包絡(luò)。
3. Google Audioset
AudioSet由632個音頻事件類的擴(kuò)展本體和來自YouTube視頻的2084320個帶有人類標(biāo)記的10秒聲音片段組成。本體被指定為事件類別的層次圖,涵蓋廣泛的人類和動物聲音、樂器和流派,以及常見的日常環(huán)境聲音。
4. LibriSpeech
LibriSpeech是一個有聲圖書數(shù)據(jù)集,包含文本和語音。數(shù)據(jù)集包含多位講者朗讀的各類有聲讀物,時長近500小時。
-
計算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1698瀏覽量
46033 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8425瀏覽量
132773 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24739
原文標(biāo)題:收藏:全網(wǎng)最大機(jī)器學(xué)習(xí)數(shù)據(jù)集,視覺、NLP、音頻都在這了
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論