機器學習數據集整理圖像識別自然語言處理自動駕駛數據集
目前主流的大型數據集站點
目前仍在收集當中,後期會更新補充,建議關注收藏,以防丟失。
- aichallenger數據集
其中包含了當前前沿研究各個方向的數據集。
傳送門:https://challenger.ai/datasets/
- Kaggle的數據集
其中包含了用於各種任務,不同規模的真實數據集,而且有許多不同的格式。
傳送門:https://www.kaggle.com/datasets
- 亞馬遜數據集
這裡有許多不同領域的數據集,比如公共交通、生態資源、衛星圖像等等。
傳送門:https://registry.opendata.aws/
- UCI機器學習數據庫
這個數據庫裡面有100個數據集。來自加州大學信息與計算機科學學院。
傳送門:https://archive.ics.uci.edu/ml/datasets.html
- 谷歌數據集搜索引擎
2018年9月份,谷歌推出了這項服務,可以按名稱搜索數據集。目標是收集起來成千上萬不同的數據集存儲庫。
傳送門:https://toolbox.google.com/datasetsearch
- 微軟數據集
2018年7月,微軟推出“微軟研究開放數據”。涵蓋計算機科學、社會科學、物理學、天文學、生物學、經濟學等等多個學科領域。
傳送門:https://msropendata.com/
- 公共數據集資源收集項目
按照不同的主題對近600個數據集進行了分類,一共涉及29個主題,比如生物學、經濟學、教育學等等。
傳送門:https://github.com/awesomedata/awesome-public-datasets
- 歐盟開放數據集
歐洲政府的數據集
傳送門:https://data.europa.eu/euodp/data/dataset
- 美國政府數據集
(暫時無法使用)
傳送門:https://www.data.gov/
- 中國國家統計局
傳送門:http://www.stats.gov.cn/
按數據類型分類站點
圖像識別相關
- 計算機視覺數據
面有各種用於計算機視覺研究數據集,可以通過特定的主題去查找數據集,比如語義分割、圖像字幕、圖像生成等等。
傳送門:https://www.visualdata.io/
- Labelme:
帶註釋的大型圖像數據集。
http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php
- ImageNet:
大家熟悉的ImageNet,女神李飛飛參與創建,同名比賽影響整個計算機視覺界。
http://image-net.org/
- LSUN:
場景理解與許多輔助任務(房間佈局估計,顯著性預測等)
http://lsun.cs.princeton.edu/2016/
- MS COCO:
同樣也是知名計算機視覺數據集,同名比賽每年都被中國人屠榜。
http://mscoco.org/
- COIL 100 :
100個不同的物體在360度旋轉的每個角度成像。
http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php
- 視覺基因組:
非常詳細的視覺知識庫。
http://visualgenome.org/
- 谷歌開放圖像:
在知識共享下的900萬個圖像網址集合“已經註釋了超過6000個類別的標籤”。
https://research.googleblog.com/2016/09/introducing-open-images-dataset.html
- 野外標記面:
13000張人臉標記圖像,用於開發涉及面部識別的應用程序。
http://vis-www.cs.umass.edu/lfw/
- 斯坦福狗子數據集:
20580張狗子的圖片,包括120個不同品種。
http://vision.stanford.edu/aditya86/ImageNetDogs/
- 室內場景識別:
包含67個室內類別,15620個圖像。
http://web.mit.edu/torralba/www/indoor.html
自然語言處理相關
- 目前最大的實體關係抽取數據集
EMNLP2018 上,由孫茂松教授領導的清華大學自然語言處理實驗室發佈了一個大規模精標註關係抽取數據集 FewRel。
https://thunlp.github.io/fewrel.html
- HotspotQA數據集:
具有自然、多跳問題的問答數據集,具有支持事實的強大監督,以實現更易於解釋的問答系統。
https://hotpotqa.github.io/
- 安然數據集:
來自安然高級管理層的電子郵件數據。
https://www.cs.cmu.edu/~./enron/
- 亞馬遜評論:
包含18年來亞馬遜上的大約3500萬條評論,數據包括產品和用戶信息,評級和文本審核。
https://snap.stanford.edu/data/web-Amazon.html
- Google Books Ngrams:
Google Books中的一系列文字。
https://aws.amazon.com/datasets/google-books-ngrams/
- Blogger Corpus:
收集了來自blogger.com的681,288篇博文,每篇博文至少包含200個常用英語單詞。
http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
- 維基百科鏈接數據:
維基百科的全文,包含來自400多萬篇文章的近19億個單詞,可以按段落、短語或段落本身的一部分進行搜索。
https://code.google.com/p/wiki-links/downloads/list
- Gutenberg電子書列表:
Gutenberg項目中帶註釋的電子書書單。
http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs
- Hansards加拿大議會文本:
來自第36屆加拿大議會記錄的130萬組文本。
http://www.isi.edu/natural-language/download/hansard/
- Jeopardy:
來自問答節目Jeopardy的超過200,000個問題的歸檔。
http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/
- 英文垃圾短信收集:
由5574條英文垃圾短信組成的數據集。
http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
- Yelp評論:
Yelp,就是美國的“大眾點評”,這是他們發佈的一個開放數據集,包含超過500萬條評論。
https://www.yelp.com/dataset
- UCI的Spambase:
一個大型垃圾郵件數據集,對垃圾郵件過濾非常有用。
https://archive.ics.uci.edu/ml/datasets/Spambase
問答系統
- MS MARCO:
人工生成的機器閱讀理解數據集,來自微軟,2016
http://www.msmarco.org/
- NewsQA:
Maluuba 的機器理解數據集,2016
https://github.com/Maluuba/newsqa
- SQuAD:
超過 100,000 個問題和其機器理解文本的數據集,由斯坦福大學推出,2016
https://rajpurkar.github.io/SQuAD-explorer/
- GraphQuestions:
一個特徵豐富的事實性問題回答數據集,來自 EMNLP 16 論文《On Generating Characteristic-rich Question Sets for QA Evaluation》,2016
https://github.com/ysu1989/GraphQuestions
- Story Cloze:
一個常見故事的語料庫和有關故事的總結性語句,來自美國羅切斯特大學,2016
http://cs.rochester.edu/nlp/rocstories/
- SimpleQuestions:
大量使用記憶網絡的簡單問答數據,2015
http://suo.im/2eiX0O
- WikiQA:
一個開放問題與回答的挑戰數據集,由微軟推出,2015
http://suo.im/3aJVyp
- CNN-DailyMail:
用於訓練機器進行閱讀理解任務的數據集,2015
http://cs.nyu.edu/~kcho/DMQA/
對話系統
- Ubuntu Dialogue Corpus:
一個用於非結構化多回路對話系統研究的大型數據集,2015
http://suo.im/2pbKCC
- Frames:
用於向面向目標的對話系統加入記憶的語料庫,Maluuba,2016
http://datasets.maluuba.com/Frames
情緒分析相關
- 多域情緒分析數據集:
一個稍老一點的數據集,用到了來自亞馬遜的產品評論。
http://www.cs.jhu.edu/~mdredze/datasets/sentiment/
- IMDB評論:
用於二元情緒分類的數據集,不過也有點老、有點小,有大約25000個電影評論。
http://ai.stanford.edu/~amaas/data/sentiment/
- 斯坦福情緒樹庫:
帶有情感註釋的標準情緒數據集。
http://nlp.stanford.edu/sentiment/code.html
- Sentiment140:
一個流行的數據集,它使用160,000條預先刪除表情符號的推文。
http://help.sentiment140.com/for-students/
- Twitter美國航空公司情緒:
2015年2月美國航空公司的Twitter數據,分類為正面,負面和中性推文。
https://www.kaggle.com/crowdflower/twitter-airline-sentiment
自動駕駛
- Berkeley DeepDrive BDD100k:
目前最大的自動駕駛數據集,包含超過100,000個視頻,其中包括一天中不同時段和天氣條件下超過1,100小時的駕駛體驗。其中帶註釋的圖像來自紐約和舊金山地區。
http://bdd-data.berkeley.edu/
- 百度Apolloscapes:
度孃的大型數據集,定義了26種不同物體,如汽車、自行車、行人、建築物、路燈等。
http://apolloscape.auto/
- Comma.ai:
超過7小時的高速公路駕駛,細節包括汽車的速度、加速度、轉向角和GPS座標。
https://archive.org/details/comma-dataset
- 牛津的機器人汽車:
這個數據集來自牛津的機器人汽車,它於一年時間內在英國牛津的同一條路上,反反覆覆跑了超過100次,捕捉了天氣、交通和行人的不同組合,以及建築和道路工程等長期變化。
http://robotcar-dataset.robots.ox.ac.uk/
- 城市景觀數據集:
一個大型數據集,記錄50個不同城市的城市街景。
https://www.cityscapes-dataset.com/
- CSSAD數據集:
此數據集對於自動駕駛車輛的感知和導航非常有用。不過,數據集嚴重偏向發達國家的道路。
http://aplicaciones.cimat.mx/Personal/jbhayet/ccsad-dataset
- KUL比利時交通標誌數據集:
來自比利時法蘭德斯地區數以千計的實體交通標誌的超過10000條註釋。
http://www.vision.ee.ethz.ch/~timofter/traffic_signs/
- MIT AGE Lab:
在AgeLab收集的1,000多小時多傳感器駕駛數據集的樣本。
http://lexfridman.com/automated-synchronization-of-driving-data-video-audio-telemetry-accelerometer/
- LISA:
UC聖迭戈智能和安全汽車實驗室的數據集,包括交通標誌、車輛檢測、交通信號燈和軌跡模式。
http://cvrr.ucsd.edu/LISA/datasets.html
- 博世小交通燈數據集:
用於深度學習的小型交通燈的數據集。
https://hci.iwr.uni-heidelberg.de/node/6132
- LaRa交通燈識別:
巴黎的交通信號燈數據集。
http://www.lara.prd.fr/benchmarks/trafficlightsrecognition
- WPI數據集:
交通燈、行人和車道檢測的數據集。
http://computing.wpi.edu/dataset.html
mlmemoirs:
https://medium.com/datadriveninvestor/the-50-best-public-datasets-for-machine-learning-d80e9f030279
參考相關內容
https://mp.weixin.qq.com/s/rTwtQH_hoFNd8o853Vk4NQ