Python爬虫入门一综述
網絡爬蟲是一種自動抓取萬維網信息的程序。
學習python爬蟲,需要學習以下知識:
- python基礎
- python中的urllib和urllib2庫的用法
- python正則表達式
- python爬蟲框架scrapy
- python爬蟲高級功能
1.python基礎
廖雪峰python教程
2.python urllib和urllib2庫使用
urllib 和 urllib2 庫是學習 Python 爬蟲最基本的庫,利用這個庫我們可以得到網頁的內容,并對內容用正則表達式提取分析,得到我們想要的結果。
3.python正則表達式
用來匹配文本內容
4.爬蟲框架scrapy
學習完基礎知識,進一步學習爬蟲框架。
scrapy的功能介紹:
HTML, XML 源數據 選擇及提取 的內置支持 提供了一系列在 spider 之間共享的可復用的過濾器 (即 Item Loaders),對智能處理爬取數據提供了內置支持。
通過 feed 導出 提供了多格式 (JSON、CSV、XML),多存儲后端 (FTP、S3、本地文件系統) 的內置支持 提供了 media pipeline,可以 自動下載 爬取到的數據中的圖片 (或者其他資源)。
高擴展性。您可以通過使用 signals ,設計好的 API (中間件,extensions, pipelines) 來定制實現您的功能。
內置的中間件及擴展為下列功能提供了支持: cookies and session 處理 HTTP 壓縮 HTTP 認證 HTTP 緩存 user-agent 模擬 robots.txt 爬取深度限制
針對非英語語系中不標準或者錯誤的編碼聲明,提供了自動檢測以及健壯的編碼支持。
支持根據模板生成爬蟲。在加速爬蟲創建的同時,保持在大型項目中的代碼更為一致。
詳細內容請參閱 genspider 命令。
針對多爬蟲下性能評估、失敗檢測,提供了可擴展的 狀態收集工具 。
提供 交互式 shell 終端,為您測試 XPath 表達式,編寫和調試爬蟲提供了極大的方便 提供 System service, 簡化在生產環境的部署及運行
內置 Web service, 使您可以監視及控制您的機器
內置 Telnet 終端 ,通過在 Scrapy 進程中鉤入 Python 終端,使您可以查看并且調試爬蟲 Logging 為您在爬取過程中捕捉錯誤提供了方便 支持 Sitemaps 爬取 具有緩存的 DNS 解析器
scrapy官方文檔
scrapy中文手冊
總結
以上是生活随笔為你收集整理的Python爬虫入门一综述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: color ui
- 下一篇: Python爬虫利器六PyQuery的用