找数据不求人,轻松获取你想要的数据!
大數(shù)據(jù)時(shí)代,用數(shù)據(jù)做出理性分析顯然更為有力。做數(shù)據(jù)分析前,能夠找到合適的的數(shù)據(jù)源是一件非常重要的事情,獲取數(shù)據(jù)的方式有很多種,不必局限。下面將從公開的數(shù)據(jù)集、爬蟲、數(shù)據(jù)采集工具、付費(fèi)API等等介紹。給大家推薦一些能夠用得上的數(shù)據(jù)獲取方式。
一、公開數(shù)據(jù)庫
1.常用數(shù)據(jù)公開網(wǎng)站
UCI:經(jīng)典的機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘數(shù)據(jù)集,包含分類、聚類、回歸等問題下的多個數(shù)據(jù)集。很經(jīng)典也比較古老,但依然活躍在科研學(xué)者的視線中。
國家數(shù)據(jù):數(shù)據(jù)來源中華人民共和國國家統(tǒng)計(jì)局,包含了我國經(jīng)濟(jì)民生等多個方面的數(shù)據(jù),并且在月度、季度、年度都有覆蓋,全面又權(quán)威。
CEIC:最完整的一套超過128個國家的經(jīng)濟(jì)數(shù)據(jù),能夠精確查找GDP、CPI、進(jìn)口、出口、外資直接投資、零售、銷售以及國際利率等深度數(shù)據(jù)。其中的“中國經(jīng)濟(jì)數(shù)據(jù)庫”收編了300,000多條時(shí)間序列數(shù)據(jù),數(shù)據(jù)內(nèi)容涵蓋宏觀經(jīng)濟(jì)數(shù)據(jù)、行業(yè)經(jīng)濟(jì)數(shù)據(jù)和地區(qū)經(jīng)濟(jì)數(shù)據(jù)。
萬得:簡要介紹:被譽(yù)為中國的Bloomberg,在金融業(yè)有著全面的數(shù)據(jù)覆蓋,金融數(shù)據(jù)的類目更新非常快,據(jù)說很受國內(nèi)的商業(yè)分析者和投資人的親睞。
搜數(shù)網(wǎng):已加載到搜數(shù)網(wǎng)站的統(tǒng)計(jì)資料達(dá)到7,874本,涵蓋1,761,009張統(tǒng)計(jì)表格和364,580,479個統(tǒng)計(jì)數(shù)據(jù),匯集了中國資訊行自92年以來收集的所有統(tǒng)計(jì)和調(diào)查數(shù)據(jù),并提供多樣化的搜索功能。
中國統(tǒng)計(jì)信息網(wǎng):國家統(tǒng)計(jì)局的官方網(wǎng)站,匯集了海量的全國各級政府各年度的國民經(jīng)濟(jì)和社會發(fā)展統(tǒng)計(jì)信息,建立了以統(tǒng)計(jì)公報(bào)為主,統(tǒng)計(jì)年鑒、階段發(fā)展數(shù)據(jù)、統(tǒng)計(jì)分析、經(jīng)濟(jì)新聞、主要統(tǒng)計(jì)指標(biāo)排行等。
亞馬遜:來自亞馬遜的跨科學(xué)云數(shù)據(jù)平臺,包含化學(xué)、生物、經(jīng)濟(jì)等多個領(lǐng)域的數(shù)據(jù)集。
figshare:研究成果共享平臺,在這里可以找到來自世界的大牛們的研究成果分享,獲取其中的研究數(shù)據(jù)。
github:一個非常全面的數(shù)據(jù)獲取渠道,包含各個細(xì)分領(lǐng)域的數(shù)據(jù)庫資源,自然科學(xué)和社會科學(xué)的覆蓋都很全面,適合做研究和數(shù)據(jù)分析的人員。
2.政府開放數(shù)據(jù)
北京市政務(wù)數(shù)據(jù)資源網(wǎng):包含競技、交通、醫(yī)療、天氣等數(shù)據(jù)。
深圳市政府?dāng)?shù)據(jù)開放平臺:交通、文娛、就業(yè)、基礎(chǔ)設(shè)施等數(shù)據(jù)。
上海市政務(wù)數(shù)據(jù)服務(wù)網(wǎng):覆蓋經(jīng)濟(jì)建設(shè)、文化科技、信用服務(wù)、交通出行等12個重點(diǎn)領(lǐng)域數(shù)據(jù)。
貴州省政府?dāng)?shù)據(jù)開放平臺:貴州省在政務(wù)數(shù)據(jù)開放方面做的確實(shí)不錯。
Data.gov:美國政府開放數(shù)據(jù),包含氣候、教育、能源金融等各領(lǐng)域數(shù)據(jù)。
3.數(shù)據(jù)競賽網(wǎng)站
競賽的數(shù)據(jù)集通常干凈且科研究性非常高。
DataCastle:專業(yè)的數(shù)據(jù)科學(xué)競賽平臺。
Kaggle:全球最大的數(shù)據(jù)競賽平臺。
天池:阿里旗下數(shù)據(jù)科學(xué)競賽平臺。
Datafountain:CCF制定大數(shù)據(jù)競賽平臺。
二、利用爬蟲可以獲得有價(jià)值數(shù)據(jù)
這里給出了一些網(wǎng)站平臺,我們可以使用爬蟲爬取網(wǎng)站上的數(shù)據(jù),某些網(wǎng)站上也給出獲取數(shù)據(jù)的API接口,但需要付費(fèi)。
1.財(cái)經(jīng)數(shù)據(jù)
(1)新浪財(cái)經(jīng):免費(fèi)提供接口,這篇博客教授了如何在新浪財(cái)經(jīng)上獲取獲取歷史和實(shí)時(shí)股票數(shù)據(jù)。
(2)東方財(cái)富網(wǎng):可以查看財(cái)務(wù)指標(biāo)或者根據(jù)財(cái)務(wù)指標(biāo)選股。
(3)中財(cái)網(wǎng):提供各類財(cái)經(jīng)數(shù)據(jù)。
(4)黃金頭條:各種財(cái)經(jīng)資訊。
(5)StockQ:國際股市指數(shù)行情。
(6)Quandl:金融數(shù)據(jù)界的維基百科。
(7)Investing:投資數(shù)據(jù)。
(8)整合的96個股票API合集。
(9)Market Data Feed and API:提供大量數(shù)據(jù),付費(fèi),有試用期。
2.網(wǎng)貸數(shù)據(jù)
(1)網(wǎng)貸之家:包含各大網(wǎng)貸平臺不同時(shí)間段的放貸數(shù)據(jù)。
(2)零壹數(shù)據(jù):各大平臺的放貸數(shù)據(jù)。
(4)網(wǎng)貸天眼:網(wǎng)貸平臺、行業(yè)數(shù)據(jù)。
(5)76676互聯(lián)網(wǎng)金融門戶:網(wǎng)貸、P2P、理財(cái)?shù)然ソ饠?shù)據(jù)。
3.公司年報(bào)
(1)巨潮資訊:各種股市咨詢,公司股票、財(cái)務(wù)信息。
(2)SEC.gov:美國證券交易數(shù)據(jù)
(3)HKEx news披露易:年度業(yè)績報(bào)告和年報(bào)。
4.創(chuàng)投數(shù)據(jù)
(1)36氪:最新的投資資訊。
(2)投資潮:投資資訊、上市公司信息。
(3)IT桔子:各種創(chuàng)投數(shù)據(jù)。
5.社交平臺
(1)新浪微博:評論、輿情數(shù)據(jù),社交關(guān)系數(shù)據(jù)。
(2)Twitter:輿情數(shù)據(jù),社交關(guān)系數(shù)據(jù)。
(3)知乎:優(yōu)質(zhì)問答、用戶數(shù)據(jù)。
(4)微信公眾號:公眾號運(yùn)營數(shù)據(jù)。
(5)百度貼吧:輿情數(shù)據(jù)
(6)Tumblr:各種福利圖片、視頻。
6.就業(yè)招聘
(1)拉勾:互聯(lián)網(wǎng)行業(yè)人才需求數(shù)據(jù)。
(2)中華英才網(wǎng):招聘信息數(shù)據(jù)。
(3)智聯(lián)招聘:招聘信息數(shù)據(jù)。
(4)獵聘網(wǎng):高端職位招聘數(shù)據(jù)。
7.餐飲食品
(1)美團(tuán)外賣:區(qū)域商家、銷量、評論數(shù)據(jù)。
(2)百度外賣:區(qū)域商家、銷量、評論數(shù)據(jù)。
(3)餓了么:區(qū)域商家、銷量、評論數(shù)據(jù)。
(4)大眾點(diǎn)評:點(diǎn)評、輿情數(shù)據(jù)。
8.交通旅游
(1)12306:鐵路運(yùn)行數(shù)據(jù)。
(2)攜程:景點(diǎn)、路線、機(jī)票、酒店等數(shù)據(jù)。
(3)去哪兒:景點(diǎn)、路線、機(jī)票、酒店等數(shù)據(jù)。
(4)途牛:景點(diǎn)、路線、機(jī)票、酒店等數(shù)據(jù)。
(5)貓途鷹:世界各地旅游景點(diǎn)數(shù)據(jù),來自全球旅行者的真實(shí)點(diǎn)評。
類似的還有同程、驢媽媽、途家等
9.電商平臺
(1)亞馬遜:商品、銷量、折扣、點(diǎn)評等數(shù)據(jù)
(2)淘寶:商品、銷量、折扣、點(diǎn)評等數(shù)據(jù)
(3)天貓:商品、銷量、折扣、點(diǎn)評等數(shù)據(jù)
(4)京東:3C產(chǎn)品為主的商品信息、銷量、折扣、點(diǎn)評等數(shù)據(jù)
(5)當(dāng)當(dāng):圖書信息、銷量、點(diǎn)評數(shù)據(jù)。
類似的唯品會、聚美優(yōu)品、1號店等。
10.影音數(shù)據(jù)
(1)豆瓣電影:國內(nèi)最受歡迎的電影信息、評分、評論數(shù)據(jù)。
(2)時(shí)光網(wǎng):最全的影視資料庫,評分、影評數(shù)據(jù)。
(3)貓眼電影專業(yè)版:實(shí)時(shí)票房數(shù)據(jù),電影票房排行。
(4)網(wǎng)易云音樂:音樂歌單、歌手信息、音樂評論數(shù)據(jù)。
11.房屋信息
(1)58同城房產(chǎn):二手房數(shù)據(jù)。
(2)安居客:新房和二手房數(shù)據(jù)。
(3)Q房網(wǎng):新房信息、銷售數(shù)據(jù)。
(4)房天下:新房、二手房、租房數(shù)據(jù)。
(5)小豬短租:短租房源數(shù)據(jù)。
12.購車租車
(1)網(wǎng)易汽車:汽車資訊、汽車數(shù)據(jù)。
(2)人人車:二手車信息、交易數(shù)據(jù)。
(3)中國汽車工業(yè)協(xié)會:汽車制造商產(chǎn)量、銷量數(shù)據(jù)。
13.新媒體數(shù)據(jù)
新榜:新媒體平臺運(yùn)營數(shù)據(jù)。
清博大數(shù)據(jù):微信公眾號運(yùn)營榜單及輿情數(shù)據(jù)。
微問數(shù)據(jù):一個針對微信的數(shù)據(jù)網(wǎng)站。
知微傳播分析:微博傳播數(shù)據(jù)。
14.分類信息
(1)58同城:豐富的同城分類信息。
(2)趕集網(wǎng):豐富的同城分類信息。
如果你是小白,想通過爬蟲獲得有價(jià)值的數(shù)據(jù),推薦我們的體系課程——Python爬蟲:入門+進(jìn)階
三、數(shù)據(jù)交易平臺
由于現(xiàn)在數(shù)據(jù)的需求很大,也催生了很多做數(shù)據(jù)交易的平臺,當(dāng)然,出去付費(fèi)購買的數(shù)據(jù),在這些平臺,也有很多免費(fèi)的數(shù)據(jù)可以獲取。
優(yōu)易數(shù)據(jù):由國家信息中心發(fā)起,擁有國家級信息資源的數(shù)據(jù)平臺,國內(nèi)領(lǐng)先的數(shù)據(jù)交易平臺。平臺有B2B、B2C兩種交易模式,包含政務(wù)、社會、社交、教育、消費(fèi)、交通、能源、金融、健康等多個領(lǐng)域的數(shù)據(jù)資源。
數(shù)據(jù)堂:專注于互聯(lián)網(wǎng)綜合數(shù)據(jù)交易,提供數(shù)據(jù)交易、處理和數(shù)據(jù)API服務(wù),包含語音識別、醫(yī)療健康、交通地理、電子商務(wù)、社交網(wǎng)絡(luò)、圖像識別等方面的數(shù)據(jù)。
四、網(wǎng)絡(luò)指數(shù)
百度指數(shù):指數(shù)查詢平臺,可以根據(jù)指數(shù)的變化查看某個主題在各個時(shí)間段受關(guān)注的情況,進(jìn)行趨勢分析、輿情預(yù)測有很好的指導(dǎo)作用。除了關(guān)注趨勢之外,還有需求分析、人群畫像等精準(zhǔn)分析的工具,對于市場調(diào)研來說具有很好的參考意義。同樣的另外兩個搜索引擎搜狗、360也有類似的產(chǎn)品,都可以作為參考。
阿里指數(shù):國內(nèi)權(quán)威的商品交易分析工具,可以按地域、按行業(yè)查看商品搜索和交易數(shù)據(jù),基于淘寶、天貓和1688平臺的交易數(shù)據(jù)基本能夠看出國內(nèi)商品交易的概況,對于趨勢分析、行業(yè)觀察意義不小。
友盟指數(shù):友盟在移動互聯(lián)網(wǎng)應(yīng)用數(shù)據(jù)統(tǒng)計(jì)和分析具有較為全面的統(tǒng)計(jì)和分析,對于研究移動端產(chǎn)品、做市場調(diào)研、用戶行為分析很有幫助。除了友盟指數(shù),友盟的互聯(lián)網(wǎng)報(bào)告同樣是了解互聯(lián)網(wǎng)趨勢的優(yōu)秀讀物。
愛奇藝指數(shù):愛奇藝指數(shù)是專門針對視頻的播放行為、趨勢的分析平臺,對于互聯(lián)網(wǎng)視頻的播放有著全面的統(tǒng)計(jì)和分析,涉及到播放趨勢、播放設(shè)備、用戶畫像、地域分布、等多個方面。由于愛奇藝龐大的用戶基數(shù),該指數(shù)基本可以說明實(shí)際情況。
微指數(shù):微指數(shù)是新浪微博的數(shù)據(jù)分析工具,微指數(shù)通過關(guān)鍵詞的熱議度,以及行業(yè)/類別的平均影響力,來反映微博輿情或賬號的發(fā)展走勢。分為熱詞指數(shù)和影響力指數(shù)兩大模塊,此外,還可以查看熱議人群及各類賬號的地域分布情況。
除了以上指數(shù)外,還有谷歌趨勢、搜狗指數(shù)、360趨勢、艾漫指數(shù)等等。
五、網(wǎng)絡(luò)采集器
網(wǎng)絡(luò)采集器是通過軟件的形式實(shí)現(xiàn)簡單快捷地采集網(wǎng)絡(luò)上分散的內(nèi)容,具有很好的內(nèi)容收集作用,而且不需要技術(shù)成本,被很多用戶作為初級的采集工具。
造數(shù):新一代智能云爬蟲。爬蟲工具中最快的,比其他同類產(chǎn)品快9倍。擁有千萬IP,可以輕松發(fā)起無數(shù)請求,數(shù)據(jù)保存在云端,安全方便、簡單快捷。
火車采集器:一款專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)抓取、處理、分析,挖掘軟件,可以靈活迅速地抓取網(wǎng)頁上散亂分布的數(shù)據(jù)信息。
八爪魚:簡單實(shí)用的采集器,功能齊全,操作簡單,不用寫規(guī)則。特有的云采集,關(guān)機(jī)也可以在云服務(wù)器上運(yùn)行采集任務(wù)。
來源:知乎DataCastle
大數(shù)據(jù)周刊
郵箱:tougao@bigdatamag.cn
電話:010-57524293
眾論大數(shù)據(jù) 引領(lǐng)大時(shí)代
長按二維碼關(guān)注
總結(jié)
以上是生活随笔為你收集整理的找数据不求人,轻松获取你想要的数据!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Win10应用商店不能更新软件怎么办?
- 下一篇: [C语言] 制作一个控制台的电子时钟