用python写网络爬虫 第2版 pd_用Python写网络爬虫(第2版)
用Python寫網絡爬蟲(第2版)電子書
暢銷的Python網絡爬蟲發實戰圖書全新升級版,上一版年銷量近40000冊。
針對Python 3.6版本編寫。
提供示例完整源碼和實例網站搭建源碼,確保用戶能在本地成功復現爬取網站環境,并保障網站的穩定性與可靠性以及代碼運行結果的可再現性。
Internet上包含了許多有用的數據,其中大部分是可以免費公訪問的。但是,這些數據不容易使用,它們內嵌在網站的架構和樣式中,在提取時也需要多加小心。網絡爬取技術作為一種收集和理解網絡上海量信息的方式,正變得越來越有用。
售???????價:¥
紙質售價:¥47.04購買紙書
600人正在讀 | 0人評論
6.2
溫馨提示:此類商品不支持退換貨,不支持下載打印
為你推薦
讀書簡介
目錄
累計評論(0條)
讀書簡介
目錄
累計評論(0條)
《用Python寫網絡爬蟲(第 2版》講解了如何使用Python來編寫網絡爬蟲程序,內容包括網絡爬蟲簡介,從頁面中抓取數據的3種方法,提取緩存中的數據,使用多個線程和程行并發抓取,抓取動態頁面中的內容,與表單行交互,處理頁面中的驗證碼問題,以及使用Scarpy和Portia行數據抓取,并在*后介紹了使用本書講解的數據抓取技術對幾個真實的網站行抓取的實例,旨在幫助讀者活學活用書中介紹的技術。 《用Python寫網絡爬蟲(第 2版》適合有一定Python編程經驗而且對爬蟲技術感興趣的讀者閱讀。
【推薦語】
暢銷的Python網絡爬蟲發實戰圖書全新升級版,上一版年銷量近40000冊。 針對Python 3.6版本編寫。 提供示例完整源碼和實例網站搭建源碼,確保用戶能在本地成功復現爬取網站環境,并保障網站的穩定性與可靠性以及代碼運行結果的可再現性。 Internet上包含了許多有用的數據,其中大部分是可以免費公訪問的。但是,這些數據不容易使用,它們內嵌在網站的架構和樣式中,在提取時也需要多加小心。網絡爬取技術作為一種收集和理解網絡上海量信息的方式,正變得越來越有用。 本書是使用Python 3.6的新特性來爬取網絡數據的門指南。本書講解了從靜態網站提取數據的方法,以及如何使用數據庫和文件緩存技術來節省時間并管理服務器負載,然后介紹了如何使用瀏覽器、爬蟲和并發爬蟲發一個更為復雜的爬蟲。 借助于PyQt和Selenium,你可以決定何時以及如何從依賴JavaScript的網站上爬取數據,以及更好地理解在受CAPTCHA保護的復雜網站上提交表單的方法。本書還講解了使用Python包(比如mechanize)行自動化處理的方法、使用Scrapy庫創建基于類的爬蟲的方法,以及如何在真實的網站上實施所學的爬蟲技巧。 本書*后還涵蓋了使用爬蟲對網站行測試、遠程爬取技術、圖像處理以及其他相關的主題。 本書主要內容如下: 使用簡單的Python程序從頁面中提取數據; 構建并發爬蟲,對頁面行并行處理; 通過跟蹤來爬取一個網站; 從HTML中提取特性; 緩存下載的HTML,以供復用; 比較并發模型,確定比較快的爬蟲; 解析依賴于JavaScript的網站; 與表單和會話行交互。
【作者】
Katharine Jarmul是德國柏林的一位數據科學家和Python支持者。她經營了一家數據科學咨詢公司——Kjamistan,為不同規模的企業提供諸如數據抽取、采集以及建模的服務。她從2008年始使用Python行編程,從2010年始使用Python抓取網站,并且在使用網絡爬蟲行數據分析和機器學習的不同規模的初創企業中工作過。讀者可以通過Twitter(@kjam)關注她的想法以及動態。 Richard Lawson來自澳大利亞,畢業于墨爾本大學計算機科學專業。畢業后,他創辦了一家專注于網絡爬蟲的公司,為超過50個國家的業務提供遠程工作。他精通世界語,可以使用漢語和韓語對話,并且積極投身于源軟件事業。他目前正在牛津大學攻讀研究生學位,并利用業余時間研發自主無人機。 譯者介紹 李斌,畢業于北京科技大學計算機科學與技術專業,獲得碩士學位。曾任職于阿里巴巴,當前供職于凡普金科,負責應用安全工作。熱愛Python編程和Web安全,希望以更加智能和自動化的方式提升網絡安全。博客地址為pythoner.com。
目錄展開
版權
版權聲明
內容提要
關于作者
關于審稿人
前言
資源與支持
第1章 網絡爬蟲簡介
1.1 網絡爬蟲何時有用
1.2 網絡爬蟲是否合法
1.3 Python 3
1.4 背景調研
1.4.1 檢查robots.txt
1.4.2 檢查網站地圖
1.4.3 估算網站大小
1.4.4 識別網站所用技術
1.4.5 尋找網站所有者
1.5 編寫第一個網絡爬蟲
1.5.1 抓取與爬取的對比
1.5.2 下載網頁
1.5.3 網站地圖爬蟲
1.5.4 ID遍歷爬蟲
1.5.5 鏈接爬蟲
1.5.6 使用requests庫
1.6 本章小結
第2章 數據抓取
2.1 分析網頁
2.2 3種網頁抓取方法
2.2.1 正則表達式
2.2.2 Beautiful Soup
2.2.3 Lxml
2.3 CSS選擇器和瀏覽器控制臺
2.4 XPath選擇器
2.5 LXML和家族樹
2.6 性能對比
2.7 抓取結果
2.7.1 抓取總結
2.7.2 為鏈接爬蟲添加抓取回調
2.8 本章小結
第3章 下載緩存
3.1 何時使用緩存
3.2 為鏈接爬蟲添加緩存支持
3.3 磁盤緩存
3.3.1 實現磁盤緩存
3.3.2 緩存測試
3.3.3 節省磁盤空間
3.3.4 清理過期數據
3.3.5 磁盤緩存缺點
3.4 鍵值對存儲緩存
3.4.1 鍵值對存儲是什么
3.4.2 安裝Redis
3.4.3 Redis概述
3.4.4 Redis緩存實現
3.4.5 壓縮
3.4.6 測試緩存
3.4.7 探索requests-cache
3.5 本章小結
第4章 并發下載
4.1 100萬個網頁
4.1.1 解析Alexa列表
4.2 串行爬蟲
4.3 多線程爬蟲
4.4 線程和進程如何工作
4.4.1 實現多線程爬蟲
4.4.2 多進程爬蟲
4.5 性能
4.5.1 Python多進程與GIL
4.6 本章小結
第5章 動態內容
5.1 動態網頁示例
5.2 對動態網頁進行逆向工程
5.2.1 邊界情況
5.3 渲染動態網頁
5.3.1 PyQt還是PySide
5.3.2 執行JavaScript
5.3.3 使用WebKit與網站交互
5.4 渲染類
5.4.1 Selenium
5.5 本章小結
第6章 表單交互
6.1 登錄表單
6.1.1 從瀏覽器加載cookie
6.2 支持內容更新的登錄腳本擴展
6.3 使用Selenium實現自動化表單處理
6.3.1 網絡抓取時的“人類化”方法
6.4 本章小結
第7章 驗證碼處理
7.1 注冊賬號
7.1.1 加載驗證碼圖像
7.2 光學字符識別
7.2.1 進一步改善
7.3 處理復雜驗證碼
7.4 使用驗證碼處理服務
7.4.1 9kw入門
7.4.2 報告錯誤
7.4.3 與注冊功能集成
7.5 驗證碼與機器學習
7.6 本章小結
第8章 Scrapy
8.1 安裝Scrapy
8.2 啟動項目
8.2.1 定義模型
8.2.2 創建爬蟲
8.3 不同的爬蟲類型
8.4 使用shell命令抓取
8.4.1 檢查結果
8.4.2 中斷與恢復爬蟲
8.5 使用Portia編寫可視化爬蟲
8.5.1 安裝
8.5.2 標注
8.5.3 運行爬蟲
8.5.4 檢查結果
8.6 使用Scrapely實現自動化抓取
8.7 本章小結
第9章 綜合應用
9.1 Google搜索引擎
9.2 Facebook
9.2.1 網站
9.2.2 Facebook API
9.3 Gap
9.4 寶馬
9.5 本章小結
累計評論(0條)0個書友正在討論這本書
發表評論
發表評論
發表評論,分享你的想法吧!
買過這本書的人還買過
讀了這本書的人還在讀
總結
以上是生活随笔為你收集整理的用python写网络爬虫 第2版 pd_用Python写网络爬虫(第2版)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Vue第三部分(2):Vue-CLI构建
- 下一篇: ThinkPHP6项目基操(1.环境搭建