當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

Python爬虫入门一综述

發(fā)布時(shí)間：2023/12/9 python 43 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python爬虫入门一综述小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

網(wǎng)絡(luò)爬蟲是一種自動(dòng)抓取萬維網(wǎng)信息的程序。
學(xué)習(xí)python爬蟲，需要學(xué)習(xí)以下知識(shí)：

python基礎(chǔ)
python中的urllib和urllib2庫的用法
python正則表達(dá)式
python爬蟲框架scrapy
python爬蟲高級(jí)功能

1.python基礎(chǔ)

廖雪峰python教程

2.python urllib和urllib2庫使用

urllib 和 urllib2 庫是學(xué)習(xí) Python 爬蟲最基本的庫，利用這個(gè)庫我們可以得到網(wǎng)頁的內(nèi)容，并對(duì)內(nèi)容用正則表達(dá)式提取分析，得到我們想要的結(jié)果。

3.python正則表達(dá)式

用來匹配文本內(nèi)容

4.爬蟲框架scrapy

學(xué)習(xí)完基礎(chǔ)知識(shí)，進(jìn)一步學(xué)習(xí)爬蟲框架。
scrapy的功能介紹：

HTML, XML 源數(shù)據(jù) 選擇及提取的內(nèi)置支持提供了一系列在 spider 之間共享的可復(fù)用的過濾器 (即 Item Loaders)，對(duì)智能處理爬取數(shù)據(jù)提供了內(nèi)置支持。
通過 feed 導(dǎo)出提供了多格式 (JSON、CSV、XML)，多存儲(chǔ)后端 (FTP、S3、本地文件系統(tǒng)) 的內(nèi)置支持提供了 media pipeline，可以自動(dòng)下載爬取到的數(shù)據(jù)中的圖片 (或者其他資源)。
高擴(kuò)展性。您可以通過使用 signals ，設(shè)計(jì)好的 API (中間件，extensions, pipelines) 來定制實(shí)現(xiàn)您的功能。
內(nèi)置的中間件及擴(kuò)展為下列功能提供了支持: cookies and session 處理 HTTP 壓縮 HTTP 認(rèn)證 HTTP 緩存 user-agent 模擬 robots.txt 爬取深度限制
針對(duì)非英語語系中不標(biāo)準(zhǔn)或者錯(cuò)誤的編碼聲明，提供了自動(dòng)檢測以及健壯的編碼支持。
支持根據(jù)模板生成爬蟲。在加速爬蟲創(chuàng)建的同時(shí)，保持在大型項(xiàng)目中的代碼更為一致。
詳細(xì)內(nèi)容請參閱 genspider 命令。
針對(duì)多爬蟲下性能評(píng)估、失敗檢測，提供了可擴(kuò)展的狀態(tài)收集工具。
提供交互式 shell 終端，為您測試 XPath 表達(dá)式，編寫和調(diào)試爬蟲提供了極大的方便提供 System service, 簡化在生產(chǎn)環(huán)境的部署及運(yùn)行
內(nèi)置 Web service, 使您可以監(jiān)視及控制您的機(jī)器
內(nèi)置 Telnet 終端，通過在 Scrapy 進(jìn)程中鉤入 Python 終端，使您可以查看并且調(diào)試爬蟲 Logging 為您在爬取過程中捕捉錯(cuò)誤提供了方便支持 Sitemaps 爬取具有緩存的 DNS 解析器

scrapy官方文檔
scrapy中文手冊

總結(jié)

以上是生活随笔為你收集整理的Python爬虫入门一综述的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： color ui
下一篇： Python爬虫利器六PyQuery的用