日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

深度学习 机器学习 数据集资源汇总

發布時間:2023/12/31 pytorch 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 深度学习 机器学习 数据集资源汇总 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

數據集網站

具體數據集:

補充醫療圖像:

補充:多模態數據集匯總鏈接:

補充我記錄的一些鏈接:

機器學習具體方向領域數據集

圖片

情緒分析

自然語言處理

自動駕駛

臨床

一般數據集

公共政府數據集

金融與經濟

2022-09-20 再次更新:

尋找一個好用的數據集需要注意一下幾點:?

數據集不混亂,否則要花費大量時間來清理數據。

數據集不應包含太多行或列,否則會難以使用。

數據越干凈越好,清理大型數據集可能非常耗時。

應該預設一個有趣的問題,而這個問題又可以用數據來回答。

目前個人認為較好的數據集網站主要有:

數據集網站

1.AI Studio數據集: 開放數據集-百度AI Studio - 人工智能學習與實訓社區

2.天池數據集:數據集-阿里系唯一對外開放數據分享平臺

3.Papers With Code數據集:Machine Learning Datasets | Papers With Code

4.Kaggle 數據集:Find Open Datasets and Machine Learning Projects | Kaggle愛競賽的盆友們應該很熟悉了,Kaggle上有各種有趣的數據集,拉面評級、籃球數據、甚至西雅圖的寵物許可證。

5.Graviti Open Datasets:公開數據集下載,優質機器學習數據集,圖像識別、NLP免費獲取 | 格物鈦,非結構化數據平臺

6.Huggingface數據集:Hugging Face – The AI community building the future.

7.CLUE 數據集:https://www.cluebenchmarks.com/dataSet_search.html

8.各領域機器學習數據集匯總(附下載地址)

9.UCI機器學習庫:最古老的數據集源之一,是尋找有趣數據集的第一站。雖然數據集是用戶貢獻的,因此具有不同的清潔度,但絕大多數都是干凈的,可以直接從UCI機器學習庫下載,無需注冊。

10.VisualData:分好類的計算機視覺數據集,可以搜索~

具體數據集:

KITTI數據集:The KITTI Vision Benchmark Suite (cvlibs.net)

Cityscapes:Cityscapes Dataset – Semantic Understanding of Urban Street Scenes (cityscapes-dataset.com)

牛津數據集:[Datasets (ox.ac.uk)](https://robotcar-dataset.robots.ox.ac.uk/datasets/)

ApolloScape:[Apollo Scape](http://apolloscape.auto/)

BDD100K:Berkeley DeepDrive

Waymo Open Dataset:GitHub - waymo-research/waymo-open-dataset: Waymo Open Dataset

nuScenes數據集:https://www.nuscenes.org/download

3D Photography Dataset:(uiuc.edu)

Matterport 3D重建數據集:[Capture, share, and collaborate the built world in immersive 3D (matterport.com)](https://matterport.com/)

NoW Dataset:(mpg.de)

Pix3D:[Pix3D (mit.edu)](http://pix3d.csail.mit.edu/)

Replica Dataset:GitHub - facebookresearch/Replica-Dataset: The Replica Dataset v1 as published in https://arxiv.org/abs/1906.05797 .

Scan2CAD:[GitHub - skanti/Scan2CAD: CVPR'19] Dataset and code used in the research project Scan2CAD: Learning CAD Model Alignment in RGB-D Scans

ScanNet:[ScanNet | Richly-annotated 3D Reconstructions of Indoor Scenes (scan-net.org)](http://www.scan-net.org/)

NYC3Dcars:[NYC3DCars (cornell.edu)](http://nyc3d.cs.cornell.edu/)

Expressive Hands and Faces:[Computer Vision Group - Home (tum.de)](https://vision.in.tum.de/)

TUM數據集:[SMPL-X (mpg.de)](https://smpl-x.is.tue.mpg.de/)

EUROC數據集:[kmavvisualinertialdatasets – ASL Datasets (ethz.ch)](https://projects.asl.ethz.ch/datasets/doku.php?id=kmavvisualinertialdatasets)

補充醫療圖像:

肺結節數據庫LIDC-IDRI:LIDC-IDRI - The Cancer Imaging Archive (TCIA) Public Access - Cancer Imaging Archive Wiki

乳腺圖像數據庫DDSM MIAS:http://deckard.mc.duke.edu/ddsm_sql/book1.html

醫學圖像問答:Medical Image Format FAQ

ISBI:Challenges - Grand Challenge

補充:多模態數據集匯總鏈接:

多模態分析數據集(Multimodal Dataset)整理 - 知乎

補充我記錄的一些鏈接:

  • 工業數據集匯總:開源工業缺陷數據集匯總,持續更新中(已更新28個) - 知乎

  • 醫療數據集匯總:GitHub - linhandev/dataset: 醫學影像數據集列表

  • 1、Kaggle競賽數據集 2、自然語言處理 3、圖像數據 4、推薦系統 5、金融 6、交通 7、商業 8、醫療健康 9、視頻數據 10、音頻數據 11、文本、評價、回答數據集合 12、科研 13、其他數據集綜合 匯總:各領域近千條數據集公開,你要的這里都有 - 知乎

  • 激光雷達數據集匯總:匯總|基于激光雷達的3D目標檢測開源項目&數據集 - 知乎

  • 知乎相關數據集匯總:整理了一下關于知乎的公開數據集(歡迎評論補充) - 知乎

  • 圖論相關數據集匯總:圖數據集分享 - 知乎

  • 各領域公開數據集匯總(金融,醫療,nlp,圖像等等):各領域公開數據集下載 - 知乎

  • 各類數據集匯總:GitHub - awesomedata/awesome-public-datasets: A topic-centric list of HQ open datasets.

機器學習具體方向領域數據集

圖片

Labelme:帶注釋的大型圖像數據集。

ImageNet:大家熟悉的ImageNet,女神李飛飛參與創建,同名比賽影響整個計算機視覺界。

LSUN:場景理解與許多輔助任務(房間布局估計,顯著性預測等)

MS COCO:同樣也是知名計算機視覺數據集,同名比賽每年都被中國人屠榜。

COIL 100:100個不同的物體在360度旋轉的每個角度成像。

視覺基因組:非常詳細的視覺知識庫。

谷歌開放圖像:在知識共享下的900萬個圖像網址集合“已經注釋了超過6000個類別的標簽”。

野外標記面:13000張人臉標記圖像,可以用于開發涉及面部識別的應用程序。

斯坦福狗子數據集:20580張狗子的圖片,包括120個不同品種。

室內場景識別:包含67個室內類別,15620個圖像。

情緒分析

多域情緒分析數據集:一個稍老一點的數據集,用到了來自亞馬遜的產品評論。

IMDB評論:用于二元情緒分類的數據集,不過也有點老、有點小,有大約25000個電影評論。

斯坦福情緒樹庫:帶有情感注釋的標準情緒數據集。

Sentiment140:一個流行的數據集,它使用160,000條預先刪除表情符號的推文。

Twitter美國航空公司情緒:2015年2月美國航空公司的Twitter數據,分類為正面,負面和中性推文。

自然語言處理

HotspotQA數據集:具有自然、多跳問題的問答數據集,具有支持事實的強大監督,以實現更易于解釋的問答系統。

安然數據集:來自安然高級管理層的電子郵件數據。

亞馬遜評論:包含18年來亞馬遜上的大約3500萬條評論,數據包括產品和用戶信息,評級和文本審核。

Google Books Ngrams:Google Books中的一系列文字。

Blogger Corpus:收集了來自blogger.com的681,288篇博文,每篇博文至少包含200個常用英語單詞。

維基百科鏈接數據:維基百科的全文,包含來自400多萬篇文章的近19億個單詞,可以按段落、短語或段落本身的一部分進行搜索。

Gutenberg電子書列表:Gutenberg項目中帶注釋的電子書書單。

Hansards加拿大議會文本:來自第36屆加拿大議會記錄的130萬組文本。

Jeopardy:來自問答節目Jeopardy的超過200,000個問題的歸檔。

英文垃圾短信收集:由5574條英文垃圾短信組成的數據集。

Yelp評論:Yelp,就是美國的“大眾點評”,這是他們發布的一個開放數據集,包含超過500萬條評論。

UCI的Spambase:一個大型垃圾郵件數據集,對垃圾郵件過濾非常有用。

自動駕駛

Berkeley DeepDrive BDD100k:目前最大的自動駕駛數據集,包含超過100,000個視頻,其中包括一天中不同時段和天氣條件下超過1,100小時的駕駛體驗。其中帶注釋的圖像來自紐約和舊金山地區。

百度Apolloscapes:度娘的大型數據集,定義了26種不同物體,如汽車、自行車、行人、建筑物、路燈等。

Comma.ai:超過7小時的高速公路駕駛,細節包括汽車的速度、加速度、轉向角和GPS坐標。

牛津的機器人汽車:這個數據集來自牛津的機器人汽車,它于一年時間內在英國牛津的同一條路上,反反復復跑了超過100次,捕捉了天氣、交通和行人的不同組合,以及建筑和道路工程等長期變化。

城市景觀數據集:一個大型數據集,記錄50個不同城市的城市街景。

CSSAD數據集:此數據集對于自動駕駛車輛的感知和導航非常有用。不過,數據集嚴重偏向發達國家的道路。

KUL比利時交通標志數據集:來自比利時法蘭德斯地區數以千計的實體交通標志的超過10000條注釋。

MIT AGE Lab:在AgeLab收集的1,000多小時多傳感器駕駛數據集的樣本。

LISA:UC圣迭戈智能和安全汽車實驗室的數據集,包括交通標志、車輛檢測、交通信號燈和軌跡模式。

博世小交通燈數據集:用于深度學習的小型交通燈的數據集。

LaRa交通燈識別:巴黎的交通信號燈數據集。

WPI數據集:交通燈、行人和車道檢測的數據集。

臨床

MIMIC-III:MIT計算生理學實驗室的公開數據集,標記了約40000名重癥監護患者的健康數據,包括人口統計學、生命體征、實驗室測試、藥物等維度。

一般數據集

除了機器學習專用的數據集,還有一些其他的一般數據集,可能很有趣~

公共政府數據集

Data.gov:該網站可以從多個美國政府機構下載數據,包括各種奇怪的數據,從政府預算到考試分數都有。不過,其中大部分數據需要進一步研究。

食物環境地圖集:本地食材如何影響美國飲食的數據。

學校財務系統:美國學校財務系統的調查。

慢性病數據:美國各地區慢性病指標數據。

美國國家教育統計中心:教育機構和教育人口統計數據,不僅有美國的數據,也有一些世界上其他地方的數據。

英國數據服務:英國最大的社會、經濟和人口數據集。

數據美國:全面可視化的美國公共數據。

補充一句,我國國家統計局其實也不錯:國家統計局。

金融與經濟

Quandl:經濟和金融數據的良好來源,有助于建立預測經濟指標或股票價格的模型。

世界銀行開放數據:全球人口統計數據,還有大量經濟和發展指標的數據集。

國際貨幣基金組織數據:國際貨幣基金組織公布的有關國際金融,債務利率,外匯儲備,商品價格和投資的數據。

金融時報市場數據:來自世界各地的金融市場的最新信息,包括股票價格指數,商品和外匯。

Google Trends:世界各地的互聯網搜索行為和熱門新聞報道的數據。

美國經濟協會:美國宏觀經濟數據。

........待補充,會繼續更新奧!

這些數據集應該能滿足大部分人的需求。

我倡議大家不要無腦搬運數據集,最好是搬一個數據集配套一個項目,優化社區生態,我們共同努力!ヾ(≧?≦*)ゝ

2022-09-20 再次更新:

先直接上一個大boss:谷歌的

Dataset Search?datasetsearch.research.google.com/

同時,留一些鏈接記錄一些數據集網址集合

Best Public Datasets for Machine Learning and Data Science

免費數據集下載

吐血整理:43種機器學習開源數據集

各類數據集整理(持續更新中ing)

數據集大全:25個深度學習的開放數據集

找動態網絡的數據集

機器學習需要的大量數據集從哪里找?

資源 | 機器學習高質量數據集大合輯

AMiner Dataset

NETWORK DATASETS

Index of Complex Networks(支持條件篩選)

toreopsahl.com 數據集?(種類較多)

Stanford Large Network Dataset Collection

The KONECT Project

Network data

LINK-group

Network data sets

Kaggle

格物鈦graviti

以下為詳細的數據集:

Enron Email(郵件數據集)

DBLP數據集(論文合作關系)

Cora(引文網絡)

Citeseer?(引文網絡)

Social Spammer?(垃圾郵件數據集)

Astro Physics collaboration network(合作網絡)

Hypertext 2009 Contact Network(會議與會者接近程度數據集)

SFHH?(會議與會者接近程度數據集)

Citation Network Dataset(引文網絡)

Patent citation network?(專利引用網絡)

Online Social Networks(Flickr、LiveJournal、Orkut、YouTube)—?含Group

參考博客:最強數據集集合:50個最佳機器學習公共數據集丨資源_量子位的博客-CSDN博客?

總結

以上是生活随笔為你收集整理的深度学习 机器学习 数据集资源汇总的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。