當前位置：首頁 >

Python学习网络爬虫--转

發(fā)布時間：2025/4/5 32 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python学习网络爬虫--转小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

原文地址：https://github.com/lining0806/PythonSpiderNotes

Python學習網(wǎng)絡(luò)爬蟲主要分3個大的版塊：抓取，分析，存儲

另外，比較常用的爬蟲框架Scrapy，這里最后也詳細介紹一下。

首先列舉一下本人總結(jié)的相關(guān)文章，這些覆蓋了入門網(wǎng)絡(luò)爬蟲需要的基本概念和技巧：寧哥的小站-網(wǎng)絡(luò)爬蟲

當我們在瀏覽器中輸入一個url后回車，后臺會發(fā)生什么？比如說你輸入fireling的數(shù)據(jù)空間，你就會看到寧哥的小站首頁。

簡單來說這段過程發(fā)生了以下四個步驟：

查找域名對應(yīng)的IP地址。
向IP對應(yīng)的服務(wù)器發(fā)送請求。
服務(wù)器響應(yīng)請求，發(fā)回網(wǎng)頁內(nèi)容。
瀏覽器解析網(wǎng)頁內(nèi)容。

網(wǎng)絡(luò)爬蟲要做的，簡單來說，就是實現(xiàn)瀏覽器的功能。通過指定url，直接返回給用戶所需要的數(shù)據(jù)，而不需要一步步人工去操縱瀏覽器獲取。

抓取

這一步，你要明確要得到的內(nèi)容是是什么？是HTML源碼，還是Json格式的字符串等。

1. 最基本的抓取

抓取大多數(shù)情況屬于get請求，即直接從對方服務(wù)器上獲取數(shù)據(jù)。

首先，Python中自帶urllib及urllib2這兩個模塊，基本上能滿足一般的頁面抓取。另外，requests也是非常有用的包，與此類似的，還有httplib2等等。

Requests：import requestsresponse = requests.get(url)content = requests.get(url).contentprint "response headers:", response.headersprint "content:", content Urllib2：import urllib2response = urllib2.urlopen(url)content = urllib2.urlopen(url).read()print "response headers:", response.headersprint "content:", content Httplib2：import httplib2http = httplib2.Http()response_headers, content = http.request(url, 'GET')print "response headers:", response_headersprint "content:", content

此外，對于帶有查詢字段的url，get請求一般會將來請求的數(shù)據(jù)附在url之后，以?分割url和傳輸數(shù)據(jù)，多個參數(shù)用&連接。

data = {'data1':'XXXXX', 'data2':'XXXXX'} Requests：data為dict，jsonimport requestsresponse = requests.get(url=url, params=data) Urllib2：data為stringimport urllib, urllib2 data = urllib.urlencode(data)full_url = url+'?'+dataresponse = urllib2.urlopen(full_url)

相關(guān)參考：網(wǎng)易新聞排行榜抓取回顧

參考項目：網(wǎng)絡(luò)爬蟲之最基本的爬蟲：爬取網(wǎng)易新聞排行榜

2. 對于登陸情況的處理

2.1 使用表單登陸

這種情況屬于post請求，即先向服務(wù)器發(fā)送表單數(shù)據(jù)，服務(wù)器再將返回的cookie存入本地。

data = {'data1':'XXXXX', 'data2':'XXXXX'} Requests：data為dict，jsonimport requestsresponse = requests.post(url=url, data=data) Urllib2：data為stringimport urllib, urllib2 data = urllib.urlencode(data)req = urllib2.Request(url=url, data=data)response = urllib2.urlopen(req)

2.2 使用cookie登陸

使用cookie登陸，服務(wù)器會認為你是一個已登陸的用戶，所以就會返回給你一個已登陸的內(nèi)容。因此，需要驗證碼的情況可以使用帶驗證碼登陸的cookie解決。

import requests requests_session = requests.session() response = requests_session.post(url=url_login, data=data)

若存在驗證碼，此時采用response = requests_session.post(url=url_login, data=data)是不行的，做法應(yīng)該如下：

response_captcha = requests_session.get(url=url_login, cookies=cookies) response1 = requests.get(url_login) # 未登陸 response2 = requests_session.get(url_login) # 已登陸，因為之前拿到了Response Cookie！ response3 = requests_session.get(url_results) # 已登陸，因為之前拿到了Response Cookie！

相關(guān)參考：網(wǎng)絡(luò)爬蟲-驗證碼登陸

參考項目：網(wǎng)絡(luò)爬蟲之用戶名密碼及驗證碼登陸：爬取知乎網(wǎng)站

3. 對于反爬蟲機制的處理

3.1 使用代理

適用情況：限制IP地址情況，也可解決由于“頻繁點擊”而需要輸入驗證碼登陸的情況。

這種情況最好的辦法就是維護一個代理IP池，網(wǎng)上有很多免費的代理IP，良莠不齊，可以通過篩選找到能用的。對于“頻繁點擊”的情況，我們還可以通過限制爬蟲訪問網(wǎng)站的頻率來避免被網(wǎng)站禁掉。

proxies = {'http':'http://XX.XX.XX.XX:XXXX'} Requests：import requestsresponse = requests.get(url=url, proxies=proxies) Urllib2：import urllib2proxy_support = urllib2.ProxyHandler(proxies)opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)urllib2.install_opener(opener) # 安裝opener，此后調(diào)用urlopen()時都會使用安裝過的opener對象response = urllib2.urlopen(url)

3.2 時間設(shè)置

適用情況：限制頻率情況。

Requests，Urllib2都可以使用time庫的sleep()函數(shù)：

import time time.sleep(1)

3.3 偽裝成瀏覽器，或者反“反盜鏈”

有些網(wǎng)站會檢查你是不是真的瀏覽器訪問，還是機器自動訪問的。這種情況，加上User-Agent，表明你是瀏覽器訪問即可。有時還會檢查是否帶Referer信息還會檢查你的Referer是否合法，一般再加上Referer。

headers = {'User-Agent':'XXXXX'} # 偽裝成瀏覽器訪問，適用于拒絕爬蟲的網(wǎng)站 headers = {'Referer':'XXXXX'} headers = {'User-Agent':'XXXXX', 'Referer':'XXXXX'} Requests：response = requests.get(url=url, headers=headers) Urllib2：import urllib, urllib2 req = urllib2.Request(url=url, headers=headers)response = urllib2.urlopen(req)

4. 對于斷線重連

不多說。

def multi_session(session, *arg):while True:retryTimes = 20while retryTimes>0:try:return session.post(*arg)except:print '.',retryTimes -= 1

或者

def multi_open(opener, *arg):while True:retryTimes = 20while retryTimes>0:try:return opener.open(*arg)except:print '.',retryTimes -= 1

這樣我們就可以使用multi_session或multi_open對爬蟲抓取的session或opener進行保持。

5. 多進程抓取

這里針對華爾街見聞進行并行抓取的實驗對比：Python多進程抓取?與?Java單線程和多線程抓取

相關(guān)參考：關(guān)于Python和Java的多進程多線程計算方法對比

6. 對于Ajax請求的處理

對于“加載更多”情況，使用Ajax來傳輸很多數(shù)據(jù)。

它的工作原理是：從網(wǎng)頁的url加載網(wǎng)頁的源代碼之后，會在瀏覽器里執(zhí)行JavaScript程序。這些程序會加載更多的內(nèi)容，“填充”到網(wǎng)頁里。這就是為什么如果你直接去爬網(wǎng)頁本身的url，你會找不到頁面的實際內(nèi)容。

這里，若使用Google Chrome分析”請求“對應(yīng)的鏈接(方法：右鍵→審查元素→Network→清空，點擊”加載更多“，出現(xiàn)對應(yīng)的GET鏈接尋找Type為text/html的，點擊，查看get參數(shù)或者復(fù)制Request URL)，循環(huán)過程。

如果“請求”之前有頁面，依據(jù)上一步的網(wǎng)址進行分析推導(dǎo)第1頁。以此類推，抓取抓Ajax地址的數(shù)據(jù)。
對返回的json格式數(shù)據(jù)(str)進行正則匹配。json格式數(shù)據(jù)中，需從'\uxxxx'形式的unicode_escape編碼轉(zhuǎn)換成u'\uxxxx'的unicode編碼。

7. 自動化測試工具Selenium

Selenium是一款自動化測試工具。它能實現(xiàn)操縱瀏覽器，包括字符填充、鼠標點擊、獲取元素、頁面切換等一系列操作。總之，凡是瀏覽器能做的事，Selenium都能夠做到。

這里列出在給定城市列表后，使用selenium來動態(tài)抓取去哪兒網(wǎng)的票價信息的代碼。

參考項目：網(wǎng)絡(luò)爬蟲之Selenium使用代理登陸：爬取去哪兒網(wǎng)站

8. 驗證碼識別

對于網(wǎng)站有驗證碼的情況，我們有三種辦法：

使用代理，更新IP。
使用cookie登陸。
驗證碼識別。

使用代理和使用cookie登陸之前已經(jīng)講過，下面講一下驗證碼識別。

可以利用開源的Tesseract-OCR系統(tǒng)進行驗證碼圖片的下載及識別，將識別的字符傳到爬蟲系統(tǒng)進行模擬登陸。如果不成功，可以再次更新驗證碼識別，直到成功為止。

參考項目：Captcha1

爬取有兩個需要注意的問題：

如何監(jiān)控一系列網(wǎng)站的更新情況，也就是說，如何進行增量式爬取？
對于海量數(shù)據(jù)，如何實現(xiàn)分布式爬取？

分析

抓取之后就是對抓取的內(nèi)容進行分析，你需要什么內(nèi)容，就從中提煉出相關(guān)的內(nèi)容來。

常見的分析工具有正則表達式，BeautifulSoup，lxml等等。

存儲

分析出我們需要的內(nèi)容之后，接下來就是存儲了。

我們可以選擇存入文本文件，也可以選擇存入MySQL或MongoDB數(shù)據(jù)庫等。

存儲有兩個需要注意的問題：

如何進行網(wǎng)頁去重？
內(nèi)容以什么形式存儲？

Scrapy

Scrapy是一個基于Twisted的開源的Python爬蟲框架，在工業(yè)中應(yīng)用非常廣泛。

相關(guān)內(nèi)容可以參考基于Scrapy網(wǎng)絡(luò)爬蟲的搭建，同時給出這篇文章介紹的微信搜索爬取的項目代碼，給大家作為學習參考。

參考項目：使用Scrapy或Requests遞歸抓取微信搜索結(jié)果

轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/p/7479341.html

總結(jié)

以上是生活随笔為你收集整理的Python学习网络爬虫--转的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：基于Redis实现分布式应用限流--转
下一篇： python2 与 python3 语法

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

Python学习网络爬虫--转

總結(jié)