python爬虫必看书籍推荐
網(wǎng)絡(luò)爬蟲(又稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲。
?
以下書籍都是現(xiàn)在業(yè)內(nèi)主流的網(wǎng)絡(luò)爬蟲好書,同步收錄在頂書,通過下面網(wǎng)址進(jìn)入,實(shí)時(shí)讀書:
頂書-提升IT技術(shù)和認(rèn)知?i-book.top
精通Python爬蟲框架Scrapy
Scrapy是使用Python開發(fā)的一個(gè)快速、高層次的屏幕抓取和Web抓取框架,用于抓Web站點(diǎn)并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。《精通Python爬蟲框架Scrapy》以Scrapy 1.0版本為基礎(chǔ),講解了Scrapy的基礎(chǔ)知識(shí),以及如何使用Python和三方API提取、整理數(shù)據(jù),以滿足自己的需求。本書共11章,其內(nèi)容涵蓋了Scrapy基礎(chǔ)知識(shí),理解HTML和XPath,安裝Scrapy并爬取一個(gè)網(wǎng)站,使用爬蟲填充數(shù)據(jù)庫并輸出到移動(dòng)應(yīng)用中,爬蟲的強(qiáng)大功能,將爬蟲部署到Scrapinghub云服務(wù)器,Scrapy的配置與管理,Scrapy編程,管道秘訣,理解Scrapy性能,使用Scrapyd與實(shí)時(shí)分析進(jìn)行分布式爬取。本書附錄還提供了各種軟件的安裝與故障排除等內(nèi)容。本書適合軟件開發(fā)人員、數(shù)據(jù)科學(xué)家,以及對(duì)自然語言處理和機(jī)器學(xué)習(xí)感興趣的人閱讀。
?
用Python寫網(wǎng)絡(luò)爬蟲
作為一種便捷地收集網(wǎng)上信息并從中抽取出可用信息的方式,網(wǎng)絡(luò)爬蟲技術(shù)變得越來越有用。使用Python這樣的簡單編程語言,你可以使用少量編程技能就可以爬取復(fù)雜的網(wǎng)站。《用Python寫網(wǎng)絡(luò)爬蟲》作為使用Python來爬取網(wǎng)絡(luò)數(shù)據(jù)的杰出指南,講解了從靜態(tài)頁面爬取數(shù)據(jù)的方法以及使用緩存來管理服務(wù)器負(fù)載的方法。此外,本書還介紹了如何使用AJAX URL和Firebug擴(kuò)展來爬取數(shù)據(jù),以及有關(guān)爬取技術(shù)的更多真相,比如使用瀏覽器渲染、管理cookie、通過提交表單從受驗(yàn)證碼保護(hù)的復(fù)雜網(wǎng)站中抽取數(shù)據(jù)等。本書使用Scrapy創(chuàng)建了一個(gè)高級(jí)網(wǎng)絡(luò)爬蟲,并對(duì)一些真實(shí)的網(wǎng)站進(jìn)行了爬取。
精通Scrapy網(wǎng)絡(luò)爬蟲
本書深入系統(tǒng)地介紹了Python流行框架Scrapy的相關(guān)技術(shù)及使用技巧。全書共14章,從邏輯上可分為基礎(chǔ)篇和高級(jí)篇兩部分,基礎(chǔ)篇重點(diǎn)介紹Scrapy的核心元素,如spider、selector、item、link等;高級(jí)篇講解爬蟲的高級(jí)話題,如登錄認(rèn)證、文件下載、執(zhí)行JavaScript、動(dòng)態(tài)網(wǎng)頁爬取、使用HTTP代理、分布式爬蟲的編寫等,并配合項(xiàng)目案例講解,包括供練習(xí)使用的網(wǎng)站,以及*、知乎、豆瓣、360爬蟲案例等。 本書案例豐富,注重實(shí)踐,代碼注釋詳盡,適合有一定Python語言基礎(chǔ),想學(xué)習(xí)編寫復(fù)雜網(wǎng)絡(luò)爬蟲的讀者使用。
總結(jié)
以上是生活随笔為你收集整理的python爬虫必看书籍推荐的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 交换机芯片探秘
- 下一篇: 玛森:Python爬虫书籍推荐