爬虫小工具合集|不会编程也能爬数据
當(dāng)前的主流爬蟲手段是用Python編程,Python的強(qiáng)大毋庸置疑,但初學(xué)者學(xué)習(xí)Python還是需要一兩個(gè)月時(shí)間的。有沒有一些更簡單的爬取數(shù)據(jù)方法呢?答案是有的,DataCastle為你準(zhǔn)備了如下小工具,對于每個(gè)小工具你只需要花十幾分鐘時(shí)間,跟著我的步驟走一遍就可以掌握它啦~
一、Microsoft Excel???
首先教大家一個(gè)用Excel爬取數(shù)據(jù)的方法,這里用的Microsoft Excel 2013版本,下面手把手開始教學(xué)~
(1)新建Excel,打開它,如下圖所示
(2)點(diǎn)擊“數(shù)據(jù)”——“自網(wǎng)站”
(3)在彈出的對話框中輸入目標(biāo)網(wǎng)址,這里以全國實(shí)時(shí)空氣質(zhì)量網(wǎng)站(http://www.pm25.in/rank)為例,點(diǎn)擊轉(zhuǎn)到,再導(dǎo)入
選擇導(dǎo)入位置,確定
(4)結(jié)果如下圖所示,怎么樣,是不是很贊?
(5)如果要實(shí)時(shí)更新數(shù)據(jù),可以在“數(shù)據(jù)”——“全部更新”——“連接屬性”中進(jìn)行設(shè)置,輸入更新頻率即可
二、Google Sheet
使用Google Sheet爬取數(shù)據(jù)前,要保證三點(diǎn):使用Chrome瀏覽器、擁有Google賬號、電腦已翻墻。如果這三個(gè)條件具備了的話,下面我們就開始吧~
(1)打開Google Sheet網(wǎng)站:http://www.google.cn/sheets/about/
(2)在首頁上點(diǎn)擊“轉(zhuǎn)到Google表格”,然后登錄自己的賬號,可以看到如下界面,再點(diǎn)擊“+”創(chuàng)建新的表格
新建的表格如下:
(3)打開要爬取的目標(biāo)網(wǎng)站,一個(gè)全國實(shí)時(shí)空氣質(zhì)量網(wǎng)站http://www.pm25.in/rank,目標(biāo)網(wǎng)站上的表格結(jié)構(gòu)如下圖所示
(4)回到Google sheet頁面,使用函數(shù)=IMPORTHTML(網(wǎng)址, 查詢, 索引),“網(wǎng)址”就是要爬取數(shù)據(jù)的目標(biāo)網(wǎng)站,“查詢”中輸入“l(fā)ist”或“table”,這個(gè)取決于數(shù)據(jù)的具體結(jié)構(gòu)類型,“索引”填阿拉伯?dāng)?shù)字,從1開始,對應(yīng)著網(wǎng)站中定義的哪一份表格或列表
對于我們要爬取的網(wǎng)站,我們在Google sheet的A1單元格中輸入函數(shù)=IMPORTHTML("http://www.pm25.in/rank","table",1),回車后就爬得數(shù)據(jù)啦
(5)將爬取好的表格存到本地
是不是感覺超級簡單?
三、you-get
這是一個(gè)程序員基于python 3開發(fā)的項(xiàng)目,已經(jīng)在github上面開源,支持64個(gè)網(wǎng)站,包括優(yōu)酷、土豆、愛奇藝、b站、酷狗音樂、蝦米……總之你能想到的網(wǎng)站都有! 還有一個(gè)黑科技的地方,即使是名單上沒有的網(wǎng)站,當(dāng)你輸入鏈接,程序也會(huì)猜測你想要下載什么,然后幫你下載。當(dāng)然you-get要在python3環(huán)境下進(jìn)行安裝,用pip安裝好后,在終端輸入“you get+你想下載資源的鏈接”就可以等著收藏資源了。
這里給一個(gè)you-get的中文使用說明(http://dwz.cn/4rb53l),按照說明上寫的按步驟操作就可以啦。
如果你想學(xué)更高端的Python爬蟲,DataCastle為你準(zhǔn)備了一套高效的學(xué)習(xí)路徑。
如何在短時(shí)間內(nèi)入門爬蟲,并獲得爬取大量數(shù)據(jù)的能力?
DataCastle學(xué)院課程《Python爬蟲(入門+進(jìn)階)》從具體的案例著手,通過實(shí)際操作,學(xué)習(xí)具體的知識點(diǎn)。
課程中工程化爬蟲及分布式爬蟲技術(shù),讓你有獲取大規(guī)模數(shù)據(jù)的可能。此外,你還將了解數(shù)據(jù)庫(Mongodb)、pandas的基本知識,幫你儲存爬取的數(shù)據(jù),同時(shí)可以對數(shù)據(jù)進(jìn)行管理和清洗,便于后續(xù)分析處理。
來源:DataCastle數(shù)據(jù)城堡
近期精彩活動(dòng)(直接點(diǎn)擊查看):
福利 · 閱讀 | 免費(fèi)申請讀大數(shù)據(jù)新書 第21期
投稿和反饋請發(fā)郵件至hzzy@hzbook.com。轉(zhuǎn)載大數(shù)據(jù)公眾號文章,請向原文作者申請授權(quán),否則產(chǎn)生的任何版權(quán)糾紛與大數(shù)據(jù)無關(guān)。
大數(shù)據(jù)
為大家提供與大數(shù)據(jù)相關(guān)的最新技術(shù)和資訊。
近期精彩文章(直接點(diǎn)擊查看):
華為內(nèi)部狂轉(zhuǎn)好文,大數(shù)據(jù),看這一篇就夠了!
讀完這100篇論文,你也是大數(shù)據(jù)高手!
如何建立數(shù)據(jù)分析的思維框架
百度內(nèi)部培訓(xùn)資料PPT:數(shù)據(jù)分析的道與術(shù)
論大數(shù)據(jù)的十大局限
打包帶走!史上最全的大數(shù)據(jù)分析和制作工具
數(shù)據(jù)揭秘:中國姓氏排行榜
程序猿分析了42萬字歌詞后,終于搞清楚民謠歌手唱什么了
計(jì)算機(jī)告訴你,唐朝詩人之間的關(guān)系到底是什么樣的?
數(shù)據(jù)分析:微信紅包金額分配的秘密
2000萬人口的大北京,上下班原來是這樣的(附超炫蝌蚪圖)
大數(shù)據(jù)等IT職業(yè)技能圖譜【全套17張,第2版】
不要跟賭場說謊,它真的比你老婆還了解你
如果看了這篇文章你還不懂傅里葉變換,那就過來掐死我吧
不做無效的營銷,從不做無效的用戶畫像開始
更多精彩文章,請?jiān)诠娞柡笈_點(diǎn)擊“歷史文章”查看,謝謝。
總結(jié)
以上是生活随笔為你收集整理的爬虫小工具合集|不会编程也能爬数据的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux下SD卡烧录程序
- 下一篇: 支付宝用大数据憋死伪基站骗子