Python爬虫入门一综述
網(wǎng)絡(luò)爬蟲是一種自動(dòng)抓取萬維網(wǎng)信息的程序。
學(xué)習(xí)python爬蟲,需要學(xué)習(xí)以下知識(shí):
- python基礎(chǔ)
- python中的urllib和urllib2庫的用法
- python正則表達(dá)式
- python爬蟲框架scrapy
- python爬蟲高級(jí)功能
1.python基礎(chǔ)
廖雪峰python教程
2.python urllib和urllib2庫使用
urllib 和 urllib2 庫是學(xué)習(xí) Python 爬蟲最基本的庫,利用這個(gè)庫我們可以得到網(wǎng)頁的內(nèi)容,并對(duì)內(nèi)容用正則表達(dá)式提取分析,得到我們想要的結(jié)果。
3.python正則表達(dá)式
用來匹配文本內(nèi)容
4.爬蟲框架scrapy
學(xué)習(xí)完基礎(chǔ)知識(shí),進(jìn)一步學(xué)習(xí)爬蟲框架。
scrapy的功能介紹:
HTML, XML 源數(shù)據(jù) 選擇及提取 的內(nèi)置支持 提供了一系列在 spider 之間共享的可復(fù)用的過濾器 (即 Item Loaders),對(duì)智能處理爬取數(shù)據(jù)提供了內(nèi)置支持。
通過 feed 導(dǎo)出 提供了多格式 (JSON、CSV、XML),多存儲(chǔ)后端 (FTP、S3、本地文件系統(tǒng)) 的內(nèi)置支持 提供了 media pipeline,可以 自動(dòng)下載 爬取到的數(shù)據(jù)中的圖片 (或者其他資源)。
高擴(kuò)展性。您可以通過使用 signals ,設(shè)計(jì)好的 API (中間件,extensions, pipelines) 來定制實(shí)現(xiàn)您的功能。
內(nèi)置的中間件及擴(kuò)展為下列功能提供了支持: cookies and session 處理 HTTP 壓縮 HTTP 認(rèn)證 HTTP 緩存 user-agent 模擬 robots.txt 爬取深度限制
針對(duì)非英語語系中不標(biāo)準(zhǔn)或者錯(cuò)誤的編碼聲明,提供了自動(dòng)檢測以及健壯的編碼支持。
支持根據(jù)模板生成爬蟲。在加速爬蟲創(chuàng)建的同時(shí),保持在大型項(xiàng)目中的代碼更為一致。
詳細(xì)內(nèi)容請參閱 genspider 命令。
針對(duì)多爬蟲下性能評(píng)估、失敗檢測,提供了可擴(kuò)展的 狀態(tài)收集工具 。
提供 交互式 shell 終端,為您測試 XPath 表達(dá)式,編寫和調(diào)試爬蟲提供了極大的方便 提供 System service, 簡化在生產(chǎn)環(huán)境的部署及運(yùn)行
內(nèi)置 Web service, 使您可以監(jiān)視及控制您的機(jī)器
內(nèi)置 Telnet 終端 ,通過在 Scrapy 進(jìn)程中鉤入 Python 終端,使您可以查看并且調(diào)試爬蟲 Logging 為您在爬取過程中捕捉錯(cuò)誤提供了方便 支持 Sitemaps 爬取 具有緩存的 DNS 解析器
scrapy官方文檔
scrapy中文手冊
總結(jié)
以上是生活随笔為你收集整理的Python爬虫入门一综述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: color ui
- 下一篇: Python爬虫利器六PyQuery的用