日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

有哪些「神奇」的数据获取方式?

發(fā)布時(shí)間:2023/12/8 编程问答 48 豆豆
生活随笔 收集整理的這篇文章主要介紹了 有哪些「神奇」的数据获取方式? 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

大數(shù)據(jù)時(shí)代,用數(shù)據(jù)做出理性分析顯然更為有力。做數(shù)據(jù)分析前,能夠找到合適的的數(shù)據(jù)源是一件非常重要的事情,一般獲取數(shù)據(jù)的方式有爬蟲、免費(fèi)數(shù)據(jù)庫(kù)、付費(fèi)API等等。本文給大家推薦一些能夠用得上的數(shù)據(jù)獲取方式,后續(xù)也會(huì)不斷補(bǔ)充、更新。


一、公開數(shù)據(jù)庫(kù)


1.常用數(shù)據(jù)公開網(wǎng)站

UCI:經(jīng)典的機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘數(shù)據(jù)集,包含分類、聚類、回歸等問題下的多個(gè)數(shù)據(jù)集。很經(jīng)典也比較古老,但依然活躍在科研學(xué)者的視線中。



國(guó)家數(shù)據(jù):數(shù)據(jù)來源中華人民共和國(guó)國(guó)家統(tǒng)計(jì)局,包含了我國(guó)經(jīng)濟(jì)民生等多個(gè)方面的數(shù)據(jù),并且在月度、季度、年度都有覆蓋,全面又權(quán)威。



CEIC:最完整的一套超過128個(gè)國(guó)家的經(jīng)濟(jì)數(shù)據(jù),能夠精確查找GDP、CPI、進(jìn)口、出口、外資直接投資、零售、銷售以及國(guó)際利率等深度數(shù)據(jù)。其中的“中國(guó)經(jīng)濟(jì)數(shù)據(jù)庫(kù)”收編了300,000多條時(shí)間序列數(shù)據(jù),數(shù)據(jù)內(nèi)容涵蓋宏觀經(jīng)濟(jì)數(shù)據(jù)、行業(yè)經(jīng)濟(jì)數(shù)據(jù)和地區(qū)經(jīng)濟(jì)數(shù)據(jù)。



萬得:簡(jiǎn)要介紹:被譽(yù)為中國(guó)的Bloomberg,在金融業(yè)有著全面的數(shù)據(jù)覆蓋,金融數(shù)據(jù)的類目更新非常快,據(jù)說很受國(guó)內(nèi)的商業(yè)分析者和投資人的親睞。



搜數(shù)網(wǎng):已加載到搜數(shù)網(wǎng)站的統(tǒng)計(jì)資料達(dá)到7,874本,涵蓋1,761,009張統(tǒng)計(jì)表格和364,580,479個(gè)統(tǒng)計(jì)數(shù)據(jù),匯集了中國(guó)資訊行自92年以來收集的所有統(tǒng)計(jì)和調(diào)查數(shù)據(jù),并提供多樣化的搜索功能。



中國(guó)統(tǒng)計(jì)信息網(wǎng):國(guó)家統(tǒng)計(jì)局的官方網(wǎng)站,匯集了海量的全國(guó)各級(jí)政府各年度的國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展統(tǒng)計(jì)信息,建立了以統(tǒng)計(jì)公報(bào)為主,統(tǒng)計(jì)年鑒、階段發(fā)展數(shù)據(jù)、統(tǒng)計(jì)分析、經(jīng)濟(jì)新聞、主要統(tǒng)計(jì)指標(biāo)排行等。



亞馬遜:來自亞馬遜的跨科學(xué)云數(shù)據(jù)平臺(tái),包含化學(xué)、生物、經(jīng)濟(jì)等多個(gè)領(lǐng)域的數(shù)據(jù)集。



figshare:研究成果共享平臺(tái),在這里可以找到來自世界的大牛們的研究成果分享,獲取其中的研究數(shù)據(jù)。



github:一個(gè)非常全面的數(shù)據(jù)獲取渠道,包含各個(gè)細(xì)分領(lǐng)域的數(shù)據(jù)庫(kù)資源,自然科學(xué)和社會(huì)科學(xué)的覆蓋都很全面,適合做研究和數(shù)據(jù)分析的人員。



2.政府開放數(shù)據(jù)

北京市政務(wù)數(shù)據(jù)資源網(wǎng):包含競(jìng)技、交通、醫(yī)療、天氣等數(shù)據(jù)。

深圳市政府?dāng)?shù)據(jù)開放平臺(tái):交通、文娛、就業(yè)、基礎(chǔ)設(shè)施等數(shù)據(jù)。

上海市政務(wù)數(shù)據(jù)服務(wù)網(wǎng):覆蓋經(jīng)濟(jì)建設(shè)、文化科技、信用服務(wù)、交通出行等12個(gè)重點(diǎn)領(lǐng)域數(shù)據(jù)。

貴州省政府?dāng)?shù)據(jù)開放平臺(tái):貴州省在政務(wù)數(shù)據(jù)開放方面做的確實(shí)不錯(cuò)。

Data.gov:美國(guó)政府開放數(shù)據(jù),包含氣候、教育、能源金融等各領(lǐng)域數(shù)據(jù)。


3.數(shù)據(jù)競(jìng)賽網(wǎng)站

競(jìng)賽的數(shù)據(jù)集通常干凈且科研究性非常高。

DataCastle:專業(yè)的數(shù)據(jù)科學(xué)競(jìng)賽平臺(tái)。

Kaggle:全球最大的數(shù)據(jù)競(jìng)賽平臺(tái)。

天池:阿里旗下數(shù)據(jù)科學(xué)競(jìng)賽平臺(tái)。

Datafountain:CCF制定大數(shù)據(jù)競(jìng)賽平臺(tái)。


二、利用爬蟲可以獲得有價(jià)值數(shù)據(jù)

這里給出了一些網(wǎng)站平臺(tái),我們可以使用爬蟲爬取網(wǎng)站上的數(shù)據(jù),某些網(wǎng)站上也給出獲取數(shù)據(jù)的API接口,但需要付費(fèi)。

1.財(cái)經(jīng)數(shù)據(jù)

(1)新浪財(cái)經(jīng):免費(fèi)提供接口,這篇博客教授了如何在新浪財(cái)經(jīng)上獲取獲取歷史和實(shí)時(shí)股票數(shù)據(jù)。

(2)東方財(cái)富網(wǎng):可以查看財(cái)務(wù)指標(biāo)或者根據(jù)財(cái)務(wù)指標(biāo)選股。

(3)中財(cái)網(wǎng):提供各類財(cái)經(jīng)數(shù)據(jù)。

(4)黃金頭條:各種財(cái)經(jīng)資訊。

(5)StockQ:國(guó)際股市指數(shù)行情。

(6)Quandl:金融數(shù)據(jù)界的維基百科。

(7)Investing:投資數(shù)據(jù)。

(8)整合的96個(gè)股票API合集

(9)Market Data Feed and API:提供大量數(shù)據(jù),付費(fèi),有試用期。

2.網(wǎng)貸數(shù)據(jù)

(1)網(wǎng)貸之家:包含各大網(wǎng)貸平臺(tái)不同時(shí)間段的放貸數(shù)據(jù)。

(2)零壹數(shù)據(jù):各大平臺(tái)的放貸數(shù)據(jù)。

(4)網(wǎng)貸天眼:網(wǎng)貸平臺(tái)、行業(yè)數(shù)據(jù)。

(5)76676互聯(lián)網(wǎng)金融門戶:網(wǎng)貸、P2P、理財(cái)?shù)然ソ饠?shù)據(jù)。

3.公司年報(bào)

(1)巨潮資訊:各種股市咨詢,公司股票、財(cái)務(wù)信息。

(2)SEC.gov:美國(guó)證券交易數(shù)據(jù)

(3)HKEx news披露易:年度業(yè)績(jī)報(bào)告和年報(bào)。

4.創(chuàng)投數(shù)據(jù)

(1)36氪:最新的投資資訊。

(2)投資潮:投資資訊、上市公司信息。

(3)IT桔子:各種創(chuàng)投數(shù)據(jù)。

5.社交平臺(tái)

(1)新浪微博:評(píng)論、輿情數(shù)據(jù),社交關(guān)系數(shù)據(jù)。

(2)Twitter:輿情數(shù)據(jù),社交關(guān)系數(shù)據(jù)。

(3)知乎:優(yōu)質(zhì)問答、用戶數(shù)據(jù)。

(4)微信公眾號(hào):公眾號(hào)運(yùn)營(yíng)數(shù)據(jù)。

(5)百度貼吧:輿情數(shù)據(jù)

(6)Tumblr:各種福利圖片、視頻。

6.就業(yè)招聘

(1)拉勾:互聯(lián)網(wǎng)行業(yè)人才需求數(shù)據(jù)。

(2)中華英才網(wǎng):招聘信息數(shù)據(jù)。

(3)智聯(lián)招聘:招聘信息數(shù)據(jù)。

(4)獵聘網(wǎng):高端職位招聘數(shù)據(jù)。

7.餐飲食品

(1)美團(tuán)外賣:區(qū)域商家、銷量、評(píng)論數(shù)據(jù)。

(2)百度外賣:區(qū)域商家、銷量、評(píng)論數(shù)據(jù)。

(3)餓了么:區(qū)域商家、銷量、評(píng)論數(shù)據(jù)。

(4)大眾點(diǎn)評(píng):點(diǎn)評(píng)、輿情數(shù)據(jù)。

8.交通旅游

(1)12306:鐵路運(yùn)行數(shù)據(jù)。

(2)攜程:景點(diǎn)、路線、機(jī)票、酒店等數(shù)據(jù)。

(3)去哪兒:景點(diǎn)、路線、機(jī)票、酒店等數(shù)據(jù)。

(4)途牛:景點(diǎn)、路線、機(jī)票、酒店等數(shù)據(jù)。

(5)貓途鷹:世界各地旅游景點(diǎn)數(shù)據(jù),來自全球旅行者的真實(shí)點(diǎn)評(píng)。

類似的還有同程、驢媽媽、途家等

9.電商平臺(tái)

(1)亞馬遜:商品、銷量、折扣、點(diǎn)評(píng)等數(shù)據(jù)

(2)淘寶:商品、銷量、折扣、點(diǎn)評(píng)等數(shù)據(jù)

(3)天貓:商品、銷量、折扣、點(diǎn)評(píng)等數(shù)據(jù)

(4)京東:3C產(chǎn)品為主的商品信息、銷量、折扣、點(diǎn)評(píng)等數(shù)據(jù)

(5)當(dāng)當(dāng):圖書信息、銷量、點(diǎn)評(píng)數(shù)據(jù)。

類似的唯品會(huì)、聚美優(yōu)品、1號(hào)店等。

10.影音數(shù)據(jù)

(1)豆瓣電影:國(guó)內(nèi)最受歡迎的電影信息、評(píng)分、評(píng)論數(shù)據(jù)。

(2)時(shí)光網(wǎng):最全的影視資料庫(kù),評(píng)分、影評(píng)數(shù)據(jù)。

(3)貓眼電影專業(yè)版:實(shí)時(shí)票房數(shù)據(jù),電影票房排行。

(4)網(wǎng)易云音樂:音樂歌單、歌手信息、音樂評(píng)論數(shù)據(jù)。

11.房屋信息

(1)58同城房產(chǎn):二手房數(shù)據(jù)。

(2)安居客:新房和二手房數(shù)據(jù)。

(3)Q房網(wǎng):新房信息、銷售數(shù)據(jù)。

(4)房天下:新房、二手房、租房數(shù)據(jù)。

(5)小豬短租:短租房源數(shù)據(jù)。

12.購(gòu)車租車

(1)網(wǎng)易汽車:汽車資訊、汽車數(shù)據(jù)。

(2)人人車:二手車信息、交易數(shù)據(jù)。

(3)中國(guó)汽車工業(yè)協(xié)會(huì):汽車制造商產(chǎn)量、銷量數(shù)據(jù)。

13.新媒體數(shù)據(jù)

(1)新榜:新媒體平臺(tái)運(yùn)營(yíng)數(shù)據(jù)。

(2)清博大數(shù)據(jù):微信公眾號(hào)運(yùn)營(yíng)榜單及輿情數(shù)據(jù)。

(3)微問數(shù)據(jù):一個(gè)針對(duì)微信的數(shù)據(jù)網(wǎng)站。

(4)知微傳播分析:微博傳播數(shù)據(jù)。

14.分類信息

(1)58同城:豐富的同城分類信息。

(2)趕集網(wǎng):豐富的同城分類信息。

如果你是小白,想通過爬蟲獲得有價(jià)值的數(shù)據(jù),推薦我們的體系課程——Python爬蟲:入門+進(jìn)階


三、數(shù)據(jù)交易平臺(tái)

由于現(xiàn)在數(shù)據(jù)的需求很大,也催生了很多做數(shù)據(jù)交易的平臺(tái),當(dāng)然,出去付費(fèi)購(gòu)買的數(shù)據(jù),在這些平臺(tái),也有很多免費(fèi)的數(shù)據(jù)可以獲取。

優(yōu)易數(shù)據(jù):由國(guó)家信息中心發(fā)起,擁有國(guó)家級(jí)信息資源的數(shù)據(jù)平臺(tái),國(guó)內(nèi)領(lǐng)先的數(shù)據(jù)交易平臺(tái)。平臺(tái)有B2B、B2C兩種交易模式,包含政務(wù)、社會(huì)、社交、教育、消費(fèi)、交通、能源、金融、健康等多個(gè)領(lǐng)域的數(shù)據(jù)資源。


數(shù)據(jù)堂:專注于互聯(lián)網(wǎng)綜合數(shù)據(jù)交易,提供數(shù)據(jù)交易、處理和數(shù)據(jù)API服務(wù),包含語(yǔ)音識(shí)別、醫(yī)療健康、交通地理、電子商務(wù)、社交網(wǎng)絡(luò)、圖像識(shí)別等方面的數(shù)據(jù)。


四、網(wǎng)絡(luò)指數(shù)

百度指數(shù):指數(shù)查詢平臺(tái),可以根據(jù)指數(shù)的變化查看某個(gè)主題在各個(gè)時(shí)間段受關(guān)注的情況,進(jìn)行趨勢(shì)分析、輿情預(yù)測(cè)有很好的指導(dǎo)作用。除了關(guān)注趨勢(shì)之外,還有需求分析、人群畫像等精準(zhǔn)分析的工具,對(duì)于市場(chǎng)調(diào)研來說具有很好的參考意義。同樣的另外兩個(gè)搜索引擎搜狗、360也有類似的產(chǎn)品,都可以作為參考。


阿里指數(shù):國(guó)內(nèi)權(quán)威的商品交易分析工具,可以按地域、按行業(yè)查看商品搜索和交易數(shù)據(jù),基于淘寶、天貓和1688平臺(tái)的交易數(shù)據(jù)基本能夠看出國(guó)內(nèi)商品交易的概況,對(duì)于趨勢(shì)分析、行業(yè)觀察意義不小。



友盟指數(shù):友盟在移動(dòng)互聯(lián)網(wǎng)應(yīng)用數(shù)據(jù)統(tǒng)計(jì)和分析具有較為全面的統(tǒng)計(jì)和分析,對(duì)于研究移動(dòng)端產(chǎn)品、做市場(chǎng)調(diào)研、用戶行為分析很有幫助。除了友盟指數(shù),友盟的互聯(lián)網(wǎng)報(bào)告同樣是了解互聯(lián)網(wǎng)趨勢(shì)的優(yōu)秀讀物。



愛奇藝指數(shù):愛奇藝指數(shù)是專門針對(duì)視頻的播放行為、趨勢(shì)的分析平臺(tái),對(duì)于互聯(lián)網(wǎng)視頻的播放有著全面的統(tǒng)計(jì)和分析,涉及到播放趨勢(shì)、播放設(shè)備、用戶畫像、地域分布、等多個(gè)方面。由于愛奇藝龐大的用戶基數(shù),該指數(shù)基本可以說明實(shí)際情況。


微指數(shù):微指數(shù)是新浪微博的數(shù)據(jù)分析工具,微指數(shù)通過關(guān)鍵詞的熱議度,以及行業(yè)/類別的平均影響力,來反映微博輿情或賬號(hào)的發(fā)展走勢(shì)。分為熱詞指數(shù)和影響力指數(shù)兩大模塊,此外,還可以查看熱議人群及各類賬號(hào)的地域分布情況。



除了以上指數(shù)外,還有谷歌趨勢(shì)、搜狗指數(shù)、360趨勢(shì)、艾漫指數(shù)等等。


五、網(wǎng)絡(luò)采集器

網(wǎng)絡(luò)采集器是通過軟件的形式實(shí)現(xiàn)簡(jiǎn)單快捷地采集網(wǎng)絡(luò)上分散的內(nèi)容,具有很好的內(nèi)容收集作用,而且不需要技術(shù)成本,被很多用戶作為初級(jí)的采集工具。

造數(shù):新一代智能云爬蟲。爬蟲工具中最快的,比其他同類產(chǎn)品快9倍。擁有千萬IP,可以輕松發(fā)起無數(shù)請(qǐng)求,數(shù)據(jù)保存在云端,安全方便、簡(jiǎn)單快捷。



火車采集器:一款專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)抓取、處理、分析,挖掘軟件,可以靈活迅速地抓取網(wǎng)頁(yè)上散亂分布的數(shù)據(jù)信息。

八爪魚:簡(jiǎn)單實(shí)用的采集器,功能齊全,操作簡(jiǎn)單,不用寫規(guī)則。特有的云采集,關(guān)機(jī)也可以在云服務(wù)器上運(yùn)行采集任務(wù)。


這么多數(shù)據(jù)資源還不夠用怎么辦,學(xué)會(huì)爬蟲自己爬取想要的數(shù)據(jù),推薦一門課程:爬蟲(入門+進(jìn)階),想爬就爬,數(shù)據(jù)應(yīng)有盡有。

?

總結(jié)

以上是生活随笔為你收集整理的有哪些「神奇」的数据获取方式?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。