用python写网络爬虫 第2版 pd_用Python写网络爬虫(第2版)
用Python寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)(第2版)電子書(shū)
暢銷(xiāo)的Python網(wǎng)絡(luò)爬蟲(chóng)發(fā)實(shí)戰(zhàn)圖書(shū)全新升級(jí)版,上一版年銷(xiāo)量近40000冊(cè)。
針對(duì)Python 3.6版本編寫(xiě)。
提供示例完整源碼和實(shí)例網(wǎng)站搭建源碼,確保用戶能在本地成功復(fù)現(xiàn)爬取網(wǎng)站環(huán)境,并保障網(wǎng)站的穩(wěn)定性與可靠性以及代碼運(yùn)行結(jié)果的可再現(xiàn)性。
Internet上包含了許多有用的數(shù)據(jù),其中大部分是可以免費(fèi)公訪問(wèn)的。但是,這些數(shù)據(jù)不容易使用,它們內(nèi)嵌在網(wǎng)站的架構(gòu)和樣式中,在提取時(shí)也需要多加小心。網(wǎng)絡(luò)爬取技術(shù)作為一種收集和理解網(wǎng)絡(luò)上海量信息的方式,正變得越來(lái)越有用。
售???????價(jià):¥
紙質(zhì)售價(jià):¥47.04購(gòu)買(mǎi)紙書(shū)
600人正在讀 | 0人評(píng)論
6.2
溫馨提示:此類(lèi)商品不支持退換貨,不支持下載打印
為你推薦
讀書(shū)簡(jiǎn)介
目錄
累計(jì)評(píng)論(0條)
讀書(shū)簡(jiǎn)介
目錄
累計(jì)評(píng)論(0條)
《用Python寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)(第 2版》講解了如何使用Python來(lái)編寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)程序,內(nèi)容包括網(wǎng)絡(luò)爬蟲(chóng)簡(jiǎn)介,從頁(yè)面中抓取數(shù)據(jù)的3種方法,提取緩存中的數(shù)據(jù),使用多個(gè)線程和程行并發(fā)抓取,抓取動(dòng)態(tài)頁(yè)面中的內(nèi)容,與表單行交互,處理頁(yè)面中的驗(yàn)證碼問(wèn)題,以及使用Scarpy和Portia行數(shù)據(jù)抓取,并在*后介紹了使用本書(shū)講解的數(shù)據(jù)抓取技術(shù)對(duì)幾個(gè)真實(shí)的網(wǎng)站行抓取的實(shí)例,旨在幫助讀者活學(xué)活用書(shū)中介紹的技術(shù)。 《用Python寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)(第 2版》適合有一定Python編程經(jīng)驗(yàn)而且對(duì)爬蟲(chóng)技術(shù)感興趣的讀者閱讀。
【推薦語(yǔ)】
暢銷(xiāo)的Python網(wǎng)絡(luò)爬蟲(chóng)發(fā)實(shí)戰(zhàn)圖書(shū)全新升級(jí)版,上一版年銷(xiāo)量近40000冊(cè)。 針對(duì)Python 3.6版本編寫(xiě)。 提供示例完整源碼和實(shí)例網(wǎng)站搭建源碼,確保用戶能在本地成功復(fù)現(xiàn)爬取網(wǎng)站環(huán)境,并保障網(wǎng)站的穩(wěn)定性與可靠性以及代碼運(yùn)行結(jié)果的可再現(xiàn)性。 Internet上包含了許多有用的數(shù)據(jù),其中大部分是可以免費(fèi)公訪問(wèn)的。但是,這些數(shù)據(jù)不容易使用,它們內(nèi)嵌在網(wǎng)站的架構(gòu)和樣式中,在提取時(shí)也需要多加小心。網(wǎng)絡(luò)爬取技術(shù)作為一種收集和理解網(wǎng)絡(luò)上海量信息的方式,正變得越來(lái)越有用。 本書(shū)是使用Python 3.6的新特性來(lái)爬取網(wǎng)絡(luò)數(shù)據(jù)的門(mén)指南。本書(shū)講解了從靜態(tài)網(wǎng)站提取數(shù)據(jù)的方法,以及如何使用數(shù)據(jù)庫(kù)和文件緩存技術(shù)來(lái)節(jié)省時(shí)間并管理服務(wù)器負(fù)載,然后介紹了如何使用瀏覽器、爬蟲(chóng)和并發(fā)爬蟲(chóng)發(fā)一個(gè)更為復(fù)雜的爬蟲(chóng)。 借助于PyQt和Selenium,你可以決定何時(shí)以及如何從依賴JavaScript的網(wǎng)站上爬取數(shù)據(jù),以及更好地理解在受CAPTCHA保護(hù)的復(fù)雜網(wǎng)站上提交表單的方法。本書(shū)還講解了使用Python包(比如mechanize)行自動(dòng)化處理的方法、使用Scrapy庫(kù)創(chuàng)建基于類(lèi)的爬蟲(chóng)的方法,以及如何在真實(shí)的網(wǎng)站上實(shí)施所學(xué)的爬蟲(chóng)技巧。 本書(shū)*后還涵蓋了使用爬蟲(chóng)對(duì)網(wǎng)站行測(cè)試、遠(yuǎn)程爬取技術(shù)、圖像處理以及其他相關(guān)的主題。 本書(shū)主要內(nèi)容如下: 使用簡(jiǎn)單的Python程序從頁(yè)面中提取數(shù)據(jù); 構(gòu)建并發(fā)爬蟲(chóng),對(duì)頁(yè)面行并行處理; 通過(guò)跟蹤來(lái)爬取一個(gè)網(wǎng)站; 從HTML中提取特性; 緩存下載的HTML,以供復(fù)用; 比較并發(fā)模型,確定比較快的爬蟲(chóng); 解析依賴于JavaScript的網(wǎng)站; 與表單和會(huì)話行交互。
【作者】
Katharine Jarmul是德國(guó)柏林的一位數(shù)據(jù)科學(xué)家和Python支持者。她經(jīng)營(yíng)了一家數(shù)據(jù)科學(xué)咨詢公司——Kjamistan,為不同規(guī)模的企業(yè)提供諸如數(shù)據(jù)抽取、采集以及建模的服務(wù)。她從2008年始使用Python行編程,從2010年始使用Python抓取網(wǎng)站,并且在使用網(wǎng)絡(luò)爬蟲(chóng)行數(shù)據(jù)分析和機(jī)器學(xué)習(xí)的不同規(guī)模的初創(chuàng)企業(yè)中工作過(guò)。讀者可以通過(guò)Twitter(@kjam)關(guān)注她的想法以及動(dòng)態(tài)。 Richard Lawson來(lái)自澳大利亞,畢業(yè)于墨爾本大學(xué)計(jì)算機(jī)科學(xué)專(zhuān)業(yè)。畢業(yè)后,他創(chuàng)辦了一家專(zhuān)注于網(wǎng)絡(luò)爬蟲(chóng)的公司,為超過(guò)50個(gè)國(guó)家的業(yè)務(wù)提供遠(yuǎn)程工作。他精通世界語(yǔ),可以使用漢語(yǔ)和韓語(yǔ)對(duì)話,并且積極投身于源軟件事業(yè)。他目前正在牛津大學(xué)攻讀研究生學(xué)位,并利用業(yè)余時(shí)間研發(fā)自主無(wú)人機(jī)。 譯者介紹 李斌,畢業(yè)于北京科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè),獲得碩士學(xué)位。曾任職于阿里巴巴,當(dāng)前供職于凡普金科,負(fù)責(zé)應(yīng)用安全工作。熱愛(ài)Python編程和Web安全,希望以更加智能和自動(dòng)化的方式提升網(wǎng)絡(luò)安全。博客地址為pythoner.com。
目錄展開(kāi)
版權(quán)
版權(quán)聲明
內(nèi)容提要
關(guān)于作者
關(guān)于審稿人
前言
資源與支持
第1章 網(wǎng)絡(luò)爬蟲(chóng)簡(jiǎn)介
1.1 網(wǎng)絡(luò)爬蟲(chóng)何時(shí)有用
1.2 網(wǎng)絡(luò)爬蟲(chóng)是否合法
1.3 Python 3
1.4 背景調(diào)研
1.4.1 檢查robots.txt
1.4.2 檢查網(wǎng)站地圖
1.4.3 估算網(wǎng)站大小
1.4.4 識(shí)別網(wǎng)站所用技術(shù)
1.4.5 尋找網(wǎng)站所有者
1.5 編寫(xiě)第一個(gè)網(wǎng)絡(luò)爬蟲(chóng)
1.5.1 抓取與爬取的對(duì)比
1.5.2 下載網(wǎng)頁(yè)
1.5.3 網(wǎng)站地圖爬蟲(chóng)
1.5.4 ID遍歷爬蟲(chóng)
1.5.5 鏈接爬蟲(chóng)
1.5.6 使用requests庫(kù)
1.6 本章小結(jié)
第2章 數(shù)據(jù)抓取
2.1 分析網(wǎng)頁(yè)
2.2 3種網(wǎng)頁(yè)抓取方法
2.2.1 正則表達(dá)式
2.2.2 Beautiful Soup
2.2.3 Lxml
2.3 CSS選擇器和瀏覽器控制臺(tái)
2.4 XPath選擇器
2.5 LXML和家族樹(shù)
2.6 性能對(duì)比
2.7 抓取結(jié)果
2.7.1 抓取總結(jié)
2.7.2 為鏈接爬蟲(chóng)添加抓取回調(diào)
2.8 本章小結(jié)
第3章 下載緩存
3.1 何時(shí)使用緩存
3.2 為鏈接爬蟲(chóng)添加緩存支持
3.3 磁盤(pán)緩存
3.3.1 實(shí)現(xiàn)磁盤(pán)緩存
3.3.2 緩存測(cè)試
3.3.3 節(jié)省磁盤(pán)空間
3.3.4 清理過(guò)期數(shù)據(jù)
3.3.5 磁盤(pán)緩存缺點(diǎn)
3.4 鍵值對(duì)存儲(chǔ)緩存
3.4.1 鍵值對(duì)存儲(chǔ)是什么
3.4.2 安裝Redis
3.4.3 Redis概述
3.4.4 Redis緩存實(shí)現(xiàn)
3.4.5 壓縮
3.4.6 測(cè)試緩存
3.4.7 探索requests-cache
3.5 本章小結(jié)
第4章 并發(fā)下載
4.1 100萬(wàn)個(gè)網(wǎng)頁(yè)
4.1.1 解析Alexa列表
4.2 串行爬蟲(chóng)
4.3 多線程爬蟲(chóng)
4.4 線程和進(jìn)程如何工作
4.4.1 實(shí)現(xiàn)多線程爬蟲(chóng)
4.4.2 多進(jìn)程爬蟲(chóng)
4.5 性能
4.5.1 Python多進(jìn)程與GIL
4.6 本章小結(jié)
第5章 動(dòng)態(tài)內(nèi)容
5.1 動(dòng)態(tài)網(wǎng)頁(yè)示例
5.2 對(duì)動(dòng)態(tài)網(wǎng)頁(yè)進(jìn)行逆向工程
5.2.1 邊界情況
5.3 渲染動(dòng)態(tài)網(wǎng)頁(yè)
5.3.1 PyQt還是PySide
5.3.2 執(zhí)行JavaScript
5.3.3 使用WebKit與網(wǎng)站交互
5.4 渲染類(lèi)
5.4.1 Selenium
5.5 本章小結(jié)
第6章 表單交互
6.1 登錄表單
6.1.1 從瀏覽器加載cookie
6.2 支持內(nèi)容更新的登錄腳本擴(kuò)展
6.3 使用Selenium實(shí)現(xiàn)自動(dòng)化表單處理
6.3.1 網(wǎng)絡(luò)抓取時(shí)的“人類(lèi)化”方法
6.4 本章小結(jié)
第7章 驗(yàn)證碼處理
7.1 注冊(cè)賬號(hào)
7.1.1 加載驗(yàn)證碼圖像
7.2 光學(xué)字符識(shí)別
7.2.1 進(jìn)一步改善
7.3 處理復(fù)雜驗(yàn)證碼
7.4 使用驗(yàn)證碼處理服務(wù)
7.4.1 9kw入門(mén)
7.4.2 報(bào)告錯(cuò)誤
7.4.3 與注冊(cè)功能集成
7.5 驗(yàn)證碼與機(jī)器學(xué)習(xí)
7.6 本章小結(jié)
第8章 Scrapy
8.1 安裝Scrapy
8.2 啟動(dòng)項(xiàng)目
8.2.1 定義模型
8.2.2 創(chuàng)建爬蟲(chóng)
8.3 不同的爬蟲(chóng)類(lèi)型
8.4 使用shell命令抓取
8.4.1 檢查結(jié)果
8.4.2 中斷與恢復(fù)爬蟲(chóng)
8.5 使用Portia編寫(xiě)可視化爬蟲(chóng)
8.5.1 安裝
8.5.2 標(biāo)注
8.5.3 運(yùn)行爬蟲(chóng)
8.5.4 檢查結(jié)果
8.6 使用Scrapely實(shí)現(xiàn)自動(dòng)化抓取
8.7 本章小結(jié)
第9章 綜合應(yīng)用
9.1 Google搜索引擎
9.2 Facebook
9.2.1 網(wǎng)站
9.2.2 Facebook API
9.3 Gap
9.4 寶馬
9.5 本章小結(jié)
累計(jì)評(píng)論(0條)0個(gè)書(shū)友正在討論這本書(shū)
發(fā)表評(píng)論
發(fā)表評(píng)論
發(fā)表評(píng)論,分享你的想法吧!
買(mǎi)過(guò)這本書(shū)的人還買(mǎi)過(guò)
讀了這本書(shū)的人還在讀
總結(jié)
以上是生活随笔為你收集整理的用python写网络爬虫 第2版 pd_用Python写网络爬虫(第2版)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Vue第三部分(2):Vue-CLI构建
- 下一篇: python内置的数据结构_Python