當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自然语言处理（NLP）数据集汇总 4（附下载链接）

發布時間：2023/12/29 编程问答 44 豆豆

生活随笔收集整理的這篇文章主要介紹了自然语言处理（NLP）数据集汇总 4（附下载链接）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

🎄🎄【自然語言處理NLP】簡介 🎄🎄

🎄🎄近期，小海帶在空閑之余收集整理了一批自然語言處理（NLP）開源數據集供大家參考。?整理不易，小伙伴們記得一鍵三連喔！！！🎈🎈

一、優秀資源

二、數據集

>>>一起交流！互相學習！共同進步！<<<

總結

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：带GPS的SLAM数据集汇总
下一篇：测试工程师的分类有哪些？发展前景怎么样？

编程问答

自然语言处理（NLP）数据集汇总 4（附下载链接）

🎄🎄【自然語言處理NLP】簡介 🎄🎄

🎄🎄近期，小海帶在空閑之余收集整理了一批自然語言處理（NLP）開源數據集供大家參考。?整理不易，小伙伴們記得一鍵三連喔！！！🎈🎈

一、優秀資源

1.優秀的公開NLP數據集（包含更多清單）

5https://github.com/awesomedata/awesome-public-datasets

2.亞馬遜公開數據集

https://aws.amazon.com/de/datasets/

3.CrowdFlower數據集（包含大量小調查和對特定任務以眾包方式獲得的數據）

https://www.crowdflower.com/data-for-everyone/

4.Kaggle數據集

https://www.kaggle.com/datasets

5.Kaggle比賽（請確保這些kaggle比賽數據可以在比賽之外使用）

https://www.kaggle.com/competitions

6.開放圖書館

https://openlibrary.org/developers/dumps

7.Quora（大部分為已標注好的語料庫）

https://www.quora.com/Datasets-What-are-the-major-text-corpora-used-by-computational-linguists-and-natural-language-processing-researchers-and-what-are-the-characteristics-biases-of-each-corpus

8.reddit數據集（無數個數據集，大部分由業余愛好者爬取，但數據的整理和許可可能不夠規范）

https://www.reddit.com/r/datasets

9.Rs.io：也是一個很長的數據集清單

http://rs.io/100-interesting-data-sets-for-statistics/

10.Stackexchange：公開數據

http://opendata.stackexchange.com/

11.斯坦福NLP組（大部分為已標注的語料庫和TreeBanks，以及實用的NLP工具）

https://nlp.stanford.edu/links/statnlp.html

12.雅虎研究院的數據集匯總Webscope（還包含了使用了這些數據的論文列表）

http://webscope.sandbox.yahoo.com/

二、數據集

1.Twitter上關于自動駕駛汽車的輿情分析：貢獻者們閱讀推文后，將推文里對于自動駕駛的態度分為非常積極、較積極、中立、較消極和非常消極。如果推文與自動駕駛汽車無關，他們也要標記出來。（1MB）

https://www.figure-eight.com/data-for-everyone/

2.Twitter上定位于東京的推文：20萬條來自東京的推文。（47MB）

http://followthehashtag.com/datasets/200000-tokyo-geolocated-tweets-free-twitter-dataset/

3.Twitter上定位于英國的推文：17萬條來自英國的推文。（47MB）

http://followthehashtag.com/datasets/170000-uk-geolocated-tweets-free-twitter-dataset/

4.Twitter上定位于美國的推文：20萬條來自美國的推文。（45MB）

http://followthehashtag.com/datasets/free-twitter-dataset-usa-200000-free-usa-tweets/

https://www.kaggle.com/crowdflower/twitter-airline-sentiment

6.基于新聞標題的美國經濟表現：根據新聞標題頭條和摘要，對新聞和美國經濟的相關性進行排序。（5MB）

https://www.figure-eight.com/data-for-everyone/

7.城市詞典（美國在線俚語詞典）里的單詞和定義：一個經過清洗的CSV語料庫，包含截至2016年5月的城市詞典內所有260萬個詞匯、定義、作者和投票情況。（238MB）

https://www.kaggle.com/therohk/urban-dictionary-words-dataset

8.亞馬遜的Wesbury Lab Usenet語料庫：2005-2010的47,860個英文新聞組的郵件匿名匯編（40GB）

http://aws.amazon.com/de/datasets/the-westburylab-usenet-corpus/

9.維基百科的Wesbury Lab語料庫：2010年4月維基百科英文部分中所有文章的快照。網站詳細描述了數據是如何被處理的——即去除所有鏈接和不相關的材料（如導航文本等）。語料庫是未經標記的原始文本，它被用于Stanford NLP。

http://www.psych.ualberta.ca/~westburylab/downloads/westburylab.wikicorp.download.html

10.Stanford NLP跳轉的鏈接：

https://scholar.google.com/scholar?oi=bibs&hl=en&cites=9060444488071171966&as_sdt=5

11.維基百科提取（WEX）：經處理后的英文版維基百科（66GB）

http://aws.amazon.com/de/datasets/wikipedia-extraction-wex/

12.維基百科的XML格式數據：所有維基媒體（Wikimedia）的完整復制，以維基文本元（wikitext source）和元數據的形式嵌入到XML中。（500GB）

http://aws.amazon.com/de/datasets/wikipedia-xml-data/

13.雅虎問答中的綜合問題與答案：截至2007年10月25日的雅虎問答語料庫，包含4,483,032條問答。（3.6GB）

http://webscope.sandbox.yahoo.com/catalog.php?datatype=l

14.雅虎問答中用法語提問的問題：2006-2015年雅虎問答語料庫的子數據集，包含170萬條法語問答。（3.8GB）

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

15.雅虎問答中的關于“如何做”的問題[LZ2]：根據語言屬性從2007年10月25日雅虎問答語料庫選出的子集，包含142,627條問答。（104MB）

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

16.雅虎從公開網頁中提取的HTML格式頁面：包含少量復雜HTML格式的頁面和267萬個復雜格式的頁面。（50+ GB）

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

17.雅虎從公開網頁頁面中提取的元數據：1億個RDF格式數據的三元組（2GB）

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

18.雅虎的N元語法模型表示（N-Gram Representations）數據：該數據集包含N元語法表示數據，這些數據可以用于IR研究中常見的查詢重寫（query rewriting）任務，也可以用于NLP研究中常見的詞語和句子相似性分析任務。（2.6GB）

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

19.雅虎的N元語法模型數據（版本2.0）：n元語法模型數據（n=1-5），從一個包含1460萬個文檔（1.26億條不重復的語句，34億個運行詞）的語料庫中提取，這些文檔是從12000個面向新聞的站點里爬取的（12 GB）

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

20.雅虎搜索日志的相關性判斷：匿名雅虎搜索日志的相關性判斷（1.3GB）

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

21.雅虎的英語維基百科語義注釋快照：包含從2006年11月4日開始的經一些公開的NLP工具處理后的英文維基百科，共有1,490,688個條目。（6GB）

https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

22.Yelp：包含餐廳排名和220萬條評論

https://www.yelp.com/dataset

23.Youtube：170萬條YouTube視頻描述（torrent格式）

https://www.reddit.com/r/datasets/comments/3gegdz/17_millions_youtube_videos_description/

>>>一起交流！互相學習！共同進步！<<<

總結

二、數據集

1.Twitter上關于自動駕駛汽車的輿情分析：貢獻者們閱讀推文后，將推文里對于自動駕駛的態度分為非常積極、較積極、中立、較消極和非常消極。如果推文與自動駕駛汽車無關，他們也要標記出來。（1MB）

2.Twitter上定位于東京的推文：20萬條來自東京的推文。（47MB）

3.Twitter上定位于英國的推文：17萬條來自英國的推文。（47MB）

7.城市詞典（美國在線俚語詞典）里的單詞和定義：一個經過清洗的CSV語料庫，包含截至2016年5月的城市詞典內所有260萬個詞匯、定義、作者和投票情況。（238MB）

9.維基百科的Wesbury Lab語料庫：2010年4月維基百科英文部分中所有文章的快照。網站詳細描述了數據是如何被處理的——即去除所有鏈接和不相關的材料（如導航文本等）。語料庫是未經標記的原始文本，它被用于Stanford NLP。

14.雅虎問答中用法語提問的問題：2006-2015年雅虎問答語料庫的子數據集，包含170萬條法語問答。（3.8GB）

15.雅虎問答中的關于“如何做”的問題[LZ2]：根據語言屬性從2007年10月25日雅虎問答語料庫選出的子集，包含142,627條問答。（104MB）