當前位置：首頁 > 编程语言 > python >内容正文

python

Python 爬虫框架 - PySpider

發(fā)布時間：2024/7/23 python 50 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python 爬虫框架 - PySpider 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Python爬蟲進階四之PySpider的用法：http://cuiqingcai.com/2652.html
網(wǎng)絡爬蟲剖析，以Pyspider為例：http://python.jobbole.com/81109
Python爬蟲利器六之PyQuery的用法：https://cuiqingcai.com/2636.html

爬蟲框架pyspider個人總結(jié)（詳細）熟悉：https://www.jianshu.com/p/39c7371dd6c2

pyspider 和 scrapy 比較起來有什么優(yōu)缺點嗎？：https://www.zhihu.com/question/37686665

pyspider 的優(yōu)點是簡單，立刻就能上手，腳本編寫規(guī)則。懂了的話，一小時寫甚至可以寫十多個爬蟲。
scrapy 的優(yōu)點是自定義程度高，適合學習研究爬蟲技術(shù)，要學習的相關(guān)知識也較多，故而完成一個爬蟲的時間較長。

如果不知道使用哪個，可以看這篇文章的比較：
三大主流開源框架，為何Python中Scrapy如此突出：http://3g.163.com/dy/article/DNLM2IP90511HJQ3.html

PySpider

PySpider github地址 ? ?PySpider 官方文檔? ? PySpider 中文文檔

PySpider是binux做的一個爬蟲架構(gòu)的開源化實現(xiàn)。主要的功能需求是：

1. 抓取、更新調(diào)度多站點的特定的頁面
2. 需要對頁面進行結(jié)構(gòu)化信息提取
3. 靈活可擴展，穩(wěn)定可監(jiān)控

而這也是絕大多數(shù) python 爬蟲的需求 —— 定向抓取，結(jié)構(gòu)化化解析。但是面對結(jié)構(gòu)迥異的各種網(wǎng)站，單一的抓取模式并不一定能滿足，靈活的抓取控制是必須的。為了達到這個目的，單純的配置文件往往不夠靈活，于是，通過腳本去控制抓取是最后的選擇。而去重調(diào)度，隊列，抓取，異常處理，監(jiān)控等功能作為框架，提供給抓取腳本，并保證靈活性。最后加上web的編輯調(diào)試環(huán)境，以及web任務監(jiān)控，即成為了這套框架。

PySpider 簡介

pyspider的設(shè)計基礎(chǔ)是：以python腳本驅(qū)動的抓取環(huán)模型爬蟲

1. 通過python腳本進行結(jié)構(gòu)化信息的提取，follow鏈接調(diào)度抓取控制，實現(xiàn)最大的靈活性
2. 通過web化的腳本編寫、調(diào)試環(huán)境。web展現(xiàn)調(diào)度狀態(tài)
3. 抓取環(huán)模型成熟穩(wěn)定，模塊間相互獨立，通過消息隊列連接，從單進程到多機分布式靈活拓展

pyspider架構(gòu)圖

模塊功能

webui	web的可視化任務監(jiān)控，web腳本編寫，單步調(diào)試，異常捕獲，log捕獲，print捕獲等
scheduler	任務優(yōu)先級，周期定時任務，流量控制，基于時間周期或前鏈標簽（例如更新時間）的重抓取調(diào)度
fetcher	dataurl支持，用于假抓取模擬傳遞，method, header, cookie, proxy, etag, last_modified, timeout 等等抓取調(diào)度控制，可以通過適配類似 phantomjs 的webkit引擎支持渲染
processor	內(nèi)置的pyquery，以jQuery解析頁面，在腳本中完全控制調(diào)度抓取的各項參數(shù)，，可以向后鏈傳遞信息，異常捕獲

pyspider的架構(gòu)主要分為 scheduler（調(diào)度器）, fetcher（抓取器）, processor（腳本執(zhí)行）：

1. 各個組件間使用消息隊列連接，除了scheduler是單點的，fetcher 和 processor 都是可以多實例分布式部署的。 scheduler 負責整體的調(diào)度控制
2. 任務由 scheduler 發(fā)起調(diào)度，fetcher 抓取網(wǎng)頁內(nèi)容， processor 執(zhí)行預先編寫的python腳本，輸出結(jié)果或產(chǎn)生新的提鏈任務（發(fā)往 scheduler），形成閉環(huán)。
3. 每個腳本可以靈活使用各種python庫對頁面進行解析，使用框架API控制下一步抓取動作，通過設(shè)置回調(diào)控制解析動作。

爬蟲pyspider提供一個異常強大的網(wǎng)頁界面（web ui），它允許你編輯和調(diào)試你的腳本，管理整個抓取過程，監(jiān)控正在進行的任務，并最終輸出結(jié)果。

項目和任務

在pyspider中，我們有項目和任務的概念。一個任務指的是一個需要從網(wǎng)站檢索并進行分析的單獨頁面。一個項目指的是一個更大的實體，它包括爬蟲涉及到的所有頁面，分析網(wǎng)頁所需要的python腳本，以及用于存儲數(shù)據(jù)的數(shù)據(jù)庫等等。在pyspider中我們可以同時運行多個項目。

代碼結(jié)構(gòu)分析

?data，空文件夾，它是存放由爬蟲所生成的數(shù)據(jù)的地方。 ?docs，包含該項目文檔，里邊有一些markdown代碼。 ?pyspider，包含項目實際的代碼。 ?test，包含相當多的測試代碼。

這里重點介紹一些重要的文件：

?travis.yml，一個很棒的、連續(xù)性測試的整合。你如何確定你的項目確實有效？畢竟僅在你自己的帶有固定版本的庫的機器上進行測試是不夠的。 ?Dockerfile，同樣很棒的工具！如果我想在我的機器上嘗試一個項目，我只需要運行Docker，我不需要手動安裝任何東西，這是一個使開發(fā)者參與到你的項目中的很好的方式。 ?LICENSE，對于任何開源項目都是必需的，（如果你自己有開源項目的話）不要忘記自己項目中的該文件。 ?requirements.txt，在Python世界中，該文件用于指明為了運行該軟件，需要在你的系統(tǒng)中安裝什么Python包，在任何的Python項目中該文件都是必須的。 ?run.py，該軟件的主入口點。 ?setup.py，該文件是一個Python腳本，用于在你的系統(tǒng)中安裝pyspider項目。

分析完項目的根目錄了，僅根目錄就能說明該項目是以一種非常專業(yè)的方式進行開發(fā)的。如果你正在開發(fā)任何的開源程序，希望你能達到這樣的水準。

文件夾pyspider

讓我們更深入一點兒，一起來分析實際的代碼。在這個文件夾中還能找到其他的文件夾，整個軟件背后的邏輯已經(jīng)被分割，以便更容易的進行管理和擴展。這些文件夾是：database、fetcher、libs、processor、result、scheduler、webui。在這個文件夾中我們也能找到整個項目的主入口點，run.py。

文件run.py

這個文件首先完成所有必需的雜事，以保證爬蟲成功地運行。最終它產(chǎn)生所有必需的計算單元。向下滾動我們可以看到整個項目的入口點，cli()。

函數(shù)cli()

這個函數(shù)好像很復雜，但與我相隨，你會發(fā)現(xiàn)它并沒有你想象中復雜。函數(shù)cli()的主要目的是創(chuàng)建數(shù)據(jù)庫和消息系統(tǒng)的所有連接。它主要解析命令行參數(shù)，并利用所有我們需要的東西創(chuàng)建一個大字典。最后，我們通過調(diào)用函數(shù)all()開始真正的工作。

函數(shù)all()

一個網(wǎng)絡爬蟲會進行大量的IO操作，因此一個好的想法是產(chǎn)生不同的線程或子進程來管理所有的這些工作。通過這種方式，你可以在等待網(wǎng)絡獲取你當前html頁面的同時，提取前一個頁面的有用信息。

函數(shù)all()決定是否運行子進程或者線程，然后調(diào)用不同的線程或子進程里的所有的必要函數(shù)。這時pyspider將產(chǎn)生包括webui在內(nèi)的，爬蟲的所有邏輯模塊所需要的，足夠數(shù)量的線程。當我們完成項目并關(guān)閉webui時，我們將干凈漂亮地關(guān)閉每一個進程。

現(xiàn)在我們的爬蟲就開始運行了，讓我們進行更深入一點兒的探索。

調(diào)度程序

調(diào)度程序從兩個不同的隊列中獲取任務（newtask_queue和status_queue），并把任務加入到另外一個隊列（out_queue），這個隊列稍后會被抓取程序讀取。

調(diào)度程序做的第一件事情是從數(shù)據(jù)庫中加載所需要完成的所有的任務。之后，它開始一個無限循環(huán)。

def run(self):while not self._quit:try:time.sleep(self.LOOP_INTERVAL)self._update_projects()self._check_task_done()self._check_request()while self._check_cronjob():passself._check_select()self._check_delete()self._try_dump_cnt()self._exceptions = 0except KeyboardInterrupt:breakexcept Exception as e:logger.exception(e)self._exceptions += 1if self._exceptions > self.EXCEPTION_LIMIT:breakcontinue

在這個循環(huán)中會調(diào)用幾個方法：

1._update_projects()：嘗試更新的各種設(shè)置，例如，我們想在爬蟲工作的時候調(diào)整爬取速度。 2._check_task_done()：分析已完成的任務并將其保存到數(shù)據(jù)庫，它從status_queue中獲取任務。 3._check_request()：如果內(nèi)容處理程序要求分析更多的頁面，把這些頁面放在隊列newtask_queue中，該函數(shù)會從該隊列中獲得新的任務。 4._check_select()：把新的網(wǎng)頁加入到抓取程序的隊列中。 5._check_delete()：刪除已被用戶標記的任務和項目。 6._try_dump_cnt()：記錄一個文件中已完成任務的數(shù)量。對于防止程序異常所導致的數(shù)據(jù)丟失，這是有必要的。

循環(huán)也會檢查運行過程中的異常，或者我們是否要求 python 停止處理。

finally:# exit components run in subprocessfor each in threads:if not each.is_alive():continueif hasattr(each, 'terminate'):each.terminate()each.join()

抓取程序

抓取程序的目的是檢索網(wǎng)絡資源。

pyspider能夠處理普通HTML文本頁面和基于AJAX的頁面。只有抓取程序能意識到這種差異，了解這一點非常重要。我們將僅專注于普通的html文本抓取，然而大部分的想法可以很容易地移植到Ajax抓取器。

這里的想法在某種形式上類似于調(diào)度程序，我們有分別用于輸入和輸出的兩個隊列，以及一個大的循環(huán)。對于輸入隊列中的所有元素，抓取程序生成一個請求，并將結(jié)果放入輸出隊列中。

它聽起來簡單但有一個大問題。網(wǎng)絡通常是極其緩慢的，如果因為等待一個網(wǎng)頁而阻止了所有的計算，那么整個過程將會運行的極其緩慢。解決方法非常的簡單，即不要在等待網(wǎng)絡的時候阻塞所有的計算。這個想法即在網(wǎng)絡上發(fā)送大量消息，并且相當一部分消息是同時發(fā)送的，然后異步等待響應的返回。一旦我們收回一個響應，我們將會調(diào)用另外的回調(diào)函數(shù)，回調(diào)函數(shù)將會以最適合的方式管理這樣的響應。

爬蟲pyspider中的所有的復雜的異步調(diào)度都是由另一個優(yōu)秀的開源項目tornado完成。

現(xiàn)在我們的腦海里已經(jīng)有了極好的想法了，讓我們更深入地探索這是如何實現(xiàn)的。

def run(self):def queue_loop():if not self.outqueue or not self.inqueue:returnwhile not self._quit:try:if self.outqueue.full():breaktask = self.inqueue.get_nowait()task = utils.decode_unicode_obj(task)self.fetch(task)except queue.Empty:breaktornado.ioloop.PeriodicCallback(queue_loop, 100, io_loop=self.ioloop).start()self._running = Trueself.ioloop.start()

函數(shù)run()是抓取程序fetcher中的一個大的循環(huán)程序。

函數(shù)run()中定義了另外一個函數(shù)queue_loop()，該函數(shù)接收輸入隊列中的所有任務，并抓取它們。同時該函數(shù)也監(jiān)聽中斷信號。函數(shù)queue_loop()作為參數(shù)傳遞給tornado的類PeriodicCallback，如你所猜，PeriodicCallback會每隔一段具體的時間調(diào)用一次queue_loop()函數(shù)。函數(shù)queue_loop()也會調(diào)用另一個能使我們更接近于實際檢索Web資源操作的函數(shù)：fetch()。
函數(shù)fetch(self, task, callback=None)

網(wǎng)絡上的資源必須使用函數(shù)phantomjs_fetch()或簡單的http_fetch()函數(shù)檢索，函數(shù)fetch()只決定檢索該資源的正確方法是什么。接下來我們看一下函數(shù)http_fetch()。

函數(shù)http_fetch(self, url, task, callback)

def http_fetch(self, url, task, callback):'''HTTP fetcher'''fetch = copy.deepcopy(self.default_options)fetch['url'] = urlfetch['headers']['User-Agent'] = self.user_agentdef handle_response(response):...return task, resulttry:request = tornado.httpclient.HTTPRequest(header_callback=header_callback, **fetch) if self.async:self.http_client.fetch(request, handle_response)else:return handle_response(self.http_client.fetch(request))

終于，這里才是完成真正工作的地方。這個函數(shù)的代碼有點長，但有清晰的結(jié)構(gòu)，容易閱讀。

在函數(shù)的開始部分，它設(shè)置了抓取請求的header，比如User-Agent、超時timeout等等。然后定義一個處理響應response的函數(shù)：handle_response()，后邊我們會分析這個函數(shù)。最后我們得到一個tornado的請求對象request，并發(fā)送這個請求對象。請注意在異步和非異步的情況下，是如何使用相同的函數(shù)來處理響應response的。

讓我們往回看一下，分析一下函數(shù)handle_response()做了什么。

函數(shù)handle_response(response)

def handle_response(response):result = {}result['orig_url'] = urlresult['content'] = response.body or ''callback('http', task, result)return task, result

這個函數(shù)以字典的形式保存一個response的所有相關(guān)信息，例如url，狀態(tài)碼和實際響應等，然后調(diào)用回調(diào)函數(shù)。這里的回調(diào)函數(shù)是一個小方法：send_result()。

函數(shù)send_result(self, type, task, result)

def send_result(self, type, task, result):if self.outqueue:self.outqueue.put((task, result))

這個最后的函數(shù)將結(jié)果放入到輸出隊列中，等待內(nèi)容處理程序processor的讀取。

內(nèi)容處理程序processor

內(nèi)容處理程序的目的是分析已經(jīng)抓取回來的頁面。它的過程同樣也是一個大循環(huán)，但輸出中有三個隊列（status_queue, newtask_queue 以及result_queue）而輸入中只有一個隊列（inqueue）。

讓我們稍微深入地分析一下函數(shù)run()中的循環(huán)過程。

函數(shù)run(self)

def run(self):try:task, response = self.inqueue.get(timeout=1)self.on_task(task, response)self._exceptions = 0except KeyboardInterrupt:breakexcept Exception as e:self._exceptions += 1if self._exceptions > self.EXCEPTION_LIMIT:breakcontinue

這個函數(shù)的代碼比較少，易于理解，它簡單地從隊列中得到需要被分析的下一個任務，并利用on_task(task, response)函數(shù)對其進行分析。這個循環(huán)監(jiān)聽中斷信號，只要我們給Python發(fā)送這樣的信號，這個循環(huán)就會終止。最后這個循環(huán)統(tǒng)計它引發(fā)的異常的數(shù)量，異常數(shù)量過多會終止這個循環(huán)。

函數(shù)on_task(self, task, response)

def on_task(self, task, response):response = rebuild_response(response)project = task['project']project_data = self.project_manager.get(project, updatetime)ret = project_data['instance'].run(status_pack = {'taskid': task['taskid'],'project': task['project'],'url': task.get('url'),...}self.status_queue.put(utils.unicode_obj(status_pack))if ret.follows:self.newtask_queue.put([utils.unicode_obj(newtask) for newtask in ret.follows])for project, msg, url in ret.messages:self.inqueue.put(({...},{...}))return True

函數(shù)on_task()是真正干活的方法。

它嘗試利用輸入的任務找到任務所屬的項目。然后它運行項目中的定制腳本。最后它分析定制腳本返回的響應response。如果一切順利，將會創(chuàng)建一個包含所有我們從網(wǎng)頁上得到的信息的字典。最后將字典放到隊列status_queue中，稍后它會被調(diào)度程序重新使用。

如果在分析的頁面中有一些新的鏈接需要處理，新鏈接會被放入到隊列newtask_queue中，并在稍后被調(diào)度程序使用。

現(xiàn)在，如果有需要的話，pyspider會將結(jié)果發(fā)送給其他項目。

最后如果發(fā)生了一些錯誤，像頁面返回錯誤，錯誤信息會被添加到日志中。

Scrapy

Scrapy是一個為了爬取網(wǎng)站數(shù)據(jù)，提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應用框架。可以應用在包括數(shù)據(jù)挖掘，信息處理或存儲歷史數(shù)據(jù)等一系列的程序中。
其最初是為了頁面抓取 (更確切來說, 網(wǎng)絡抓取 )所設(shè)計的，也可以應用在獲取API所返回的數(shù)據(jù)(例如 Amazon Associates Web Services ) 或者通用的網(wǎng)絡爬蟲。Scrapy用途廣泛，可以用于數(shù)據(jù)挖掘、監(jiān)測和自動化測試

Scrapy 使用了 Twisted?異步網(wǎng)絡庫來處理網(wǎng)絡通訊。整體架構(gòu)大致如下

Scrapy主要包括了以下組件：

1. 引擎(Scrapy): 用來處理整個系統(tǒng)的數(shù)據(jù)流處理, 觸發(fā)事務(框架核心)
2. 調(diào)度器(Scheduler): 用來接受引擎發(fā)過來的請求, 壓入隊列中, 并在引擎再次請求的時候返回. 可以想像成一個URL（抓取網(wǎng)頁的網(wǎng)址或者說是鏈接）的優(yōu)先隊列, 由它來決定下一個要抓取的網(wǎng)址是什么, 同時去除重復的網(wǎng)址
3. 下載器(Downloader): 用于下載網(wǎng)頁內(nèi)容, 并將網(wǎng)頁內(nèi)容返回給蜘蛛(Scrapy下載器是建立在twisted這個高效的異步模型上的)
4. 爬蟲(Spiders): 爬蟲是主要干活的, 用于從特定的網(wǎng)頁中提取自己需要的信息, 即所謂的實體(Item)。用戶也可以從中提取出鏈接,讓Scrapy繼續(xù)抓取下一個頁面
5. 項目管道(Pipeline): 負責處理爬蟲從網(wǎng)頁中抽取的實體，主要的功能是持久化實體、驗證實體的有效性、清除不需要的信息。當頁面被爬蟲解析后，將被發(fā)送到項目管道，并經(jīng)過幾個特定的次序處理數(shù)據(jù)。
6. 下載器中間件(Downloader Middlewares): 位于Scrapy引擎和下載器之間的框架，主要是處理Scrapy引擎與下載器之間的請求及響應。
7. 爬蟲中間件(Spider Middlewares): 介于Scrapy引擎和爬蟲之間的框架，主要工作是處理蜘蛛的響應輸入和請求輸出。
8. 調(diào)度中間件(Scheduler Middewares): 介于Scrapy引擎和調(diào)度之間的中間件，從Scrapy引擎發(fā)送到調(diào)度的請求和響應。

Scrapy運行流程大概如下：

1. 首先，引擎從調(diào)度器中取出一個鏈接(URL)用于接下來的抓取
2. 引擎把URL封裝成一個請求(Request)傳給下載器，下載器把資源下載下來，并封裝成應答包(Response)
3. 然后，爬蟲解析Response
4. 若是解析出實體（Item）,則交給實體管道進行進一步的處理。
5. 若是解析出的是鏈接（URL）,則把URL交給Scheduler等待抓取

安裝

1. pip。首先確保你已經(jīng)安裝了pip，若沒有安裝，請參照 pip安裝

2. phantomjs。PhantomJS 是一個基于 WebKit 的服務器端 JavaScript API。它全面支持web而不需瀏覽器支持，其快速、原生支持各種Web標準：DOM 處理、CSS 選擇器、JSON、Canvas 和 SVG。 PhantomJS 可以用于頁面自動化、網(wǎng)絡監(jiān)測、網(wǎng)頁截屏以及無界面測試等。phantomjs安裝

3. pyspider。直接利用 pip 安裝即可：pip install pyspider。如果你是 Ubuntu 用戶，請?zhí)崆鞍惭b好以下支持類庫

sudo apt-get install python python-dev python-distribute python-pip libcurl4-openssl-dev libxml2-dev libxslt1-dev python-lxml

4. 測試。如果安裝過程沒有提示任何錯誤，那就證明一些OK。命令行輸入：pyspider all (這句命令的意思是，運行 pyspider 并啟動它的所有組件。)。然后瀏覽器訪問 http://localhost:5000 觀察一下效果，如果可以正常出現(xiàn) PySpider 的頁面，那證明一切OK，在此附圖一張，這是我寫了幾個爬蟲之后的界面。

接下來我會進一步介紹這個框架的使用。

PySpider的用法

?

1. 抓取淘寶MM照片

PySpider 是一個非常方便并且功能強大的爬蟲框架，支持多線程爬取、JS動態(tài)解析，提供了可操作界面、出錯重試、定時爬取等等的功能，使用非常人性化。

爬取目標網(wǎng)站：https://mm.taobao.com/json/request_top_list.htm?page=1，大家打開之后可以看到許多淘寶MM的列表。

列表有多少？

https://mm.taobao.com/json/request_top_list.htm?page=10000，第10000頁都有，看你想要多少。我什么也不知道。

隨機點擊一位 MM 的姓名，可以看到她的基本資料。

可以看到圖中有一個個性域名，我們復制到瀏覽器打開。mm.taobao.com/tyy6160

嗯，往下拖，海量的 MM 圖片都在這里了，怎么辦你懂得，我們要把她們的照片和個人信息都存下來。

P.S. 注意圖中進度條！你猜有多少圖片～

安裝成功之后，跟我一步步地完成一個網(wǎng)站的抓取，你就會明白 PySpider 的基本用法了。

命令行下執(zhí)行：pyspider all。這句命令的意思是，運行 pyspider 并啟動它的所有組件。

可以發(fā)現(xiàn)程序已經(jīng)正常啟動，并在 5000 這個端口運行。接下來在瀏覽器中輸入 http://localhost:5000，可以看到 PySpider 的主界面，點擊右下角的 Create，命名為 taobaomm，當然名稱你可以隨意取，繼續(xù)點擊 Create。

這樣我們會進入到一個爬取操作的頁面。

整個頁面分為兩欄，左邊是爬取頁面預覽區(qū)域，右邊是代碼編寫區(qū)域。下面對區(qū)塊進行說明：

左側(cè)綠色區(qū)域：這個請求對應的 JSON 變量，在 PySpider 中，其實每個請求都有與之對應的 JSON 變量，包括回調(diào)函數(shù)，方法名，請求鏈接，請求數(shù)據(jù)等等。

綠色區(qū)域右上角Run：點擊右上角的 run 按鈕，就會執(zhí)行這個請求，可以在左邊的白色區(qū)域出現(xiàn)請求的結(jié)果。

左側(cè) enable css selector helper: 抓取頁面之后，點擊此按鈕，可以方便地獲取頁面中某個元素的 CSS 選擇器。

左側(cè) web: 即抓取的頁面的實時預覽圖。

左側(cè) html: 抓取頁面的 HTML 代碼。

左側(cè) follows: 如果當前抓取方法中又新建了爬取請求，那么接下來的請求就會出現(xiàn)在 follows 里。

左側(cè) messages: 爬取過程中輸出的一些信息。

右側(cè)代碼區(qū)域: 你可以在右側(cè)區(qū)域書寫代碼，并點擊右上角的 Save 按鈕保存。

右側(cè) WebDAV Mode: 打開調(diào)試模式，左側(cè)最大化，便于觀察調(diào)試。

依然是上面那個網(wǎng)址，https://mm.taobao.com/json/request_top_list.htm?page=1，其中 page 參數(shù)代表頁碼。所以我們暫時抓取前 30 頁。頁碼到最后可以隨意調(diào)整。

首先我們定義基地址，然后定義爬取的頁碼和總頁碼。

from pyspider.libs.base_handler import *class Handler(BaseHandler):crawl_config = {}def __init__(self):self.base_url = 'https://mm.taobao.com/json/request_top_list.htm?page='self.page_num = 1self.total_num = 30@every(minutes=24 * 60)def on_start(self):while self.page_num <= self.total_num:url = self.base_url + str(self.page_num)print urlself.crawl(url, callback=self.index_page)self.page_num += 1@config(age=10 * 24 * 60 * 60)def index_page(self, response):for each in response.doc('a[href^="http"]').items():self.crawl(each.attr.href, callback=self.detail_page)@config(priority=2)def detail_page(self, response):return {"url": response.url,"title": response.doc('title').text(),}

點擊 save 保存代碼，然后點擊左邊的 run，運行代碼。

運行后我們會發(fā)現(xiàn) follows 出現(xiàn)了 30 這個數(shù)字，說明我們接下來有 30 個新請求，點擊可查看所有爬取列表。另外控制臺也有輸出，將所有要爬取的 URL 打印了出來。

然后我們點擊左側(cè)任意一個綠色箭頭，可以繼續(xù)爬取這個頁面。例如點擊第一個 URL，來爬取這個 URL

點擊之后，再查看下方的 web 頁面，可以預覽實時頁面，這個頁面被我們爬取了下來，并且回調(diào)到 index_page 函數(shù)來處理，目前 index_page 函數(shù)我們還沒有處理，所以是繼續(xù)構(gòu)件了所有的鏈接請求。

好，接下來我們怎么辦？當然是進入到 MM 到個人頁面去爬取了。

爬取到了 MM 的列表，接下來就要進入到 MM 詳情頁了，修改 index_page 方法。

def index_page(self, response):for each in response.doc('.lady-name').items():self.crawl(each.attr.href, callback=self.detail_page)

其中 response 就是剛才爬取的列表頁，response 其實就相當于列表頁的 html 代碼，利用 doc 函數(shù)，其實是調(diào)用了 PyQuery，用 CSS 選擇器得到每一個MM的鏈接，然后重新發(fā)起新的請求。比如，我們這里拿到的 each.attr.href 可能是 mm.taobao.com/self/model_card.htm?user_id=687471686，在這里繼續(xù)調(diào)用了 crawl 方法，代表繼續(xù)抓取這個鏈接的詳情。

self.crawl(each.attr.href, callback=self.detail_page)

然后回調(diào)函數(shù)就是 detail_page，爬取的結(jié)果會作為 response 變量傳過去。detail_page 接到這個變量繼續(xù)下面的分析。

好，我們繼續(xù)點擊 run 按鈕，開始下一個頁面的爬取。得到的結(jié)果是這樣的。

哦，有些頁面沒有加載出來，這是為什么？在之前的文章說過，這個頁面比較特殊，右邊的頁面使用 JS 渲染生成的，而普通的抓取是不能得到 JS 渲染后的頁面的，這可麻煩了。然而，幸運的是，PySpider 提供了動態(tài)解析 JS 的機制。

友情提示：可能有的小伙伴不知道 PhantomJS，可以參考：Python爬蟲利器五之Selenium的用法

如果已經(jīng)裝好了 PhantomJS，這時候就輪到它來出場了。在最開始運行 PySpider 的時候，使用了pyspider all命令，這個命令是把 PySpider 所有的組件啟動起來，其中也包括 PhantomJS。

所以我們代碼怎么改呢？很簡單。

def index_page(self, response):for each in response.doc('.lady-name').items():self.crawl(each.attr.href, callback=self.detail_page, fetch_type='js')

只是簡單地加了一個 fetch_type=’js’，點擊綠色的返回箭頭，重新運行一下?？梢园l(fā)現(xiàn)，頁面已經(jīng)被我們成功加載出來了，簡直不能更帥！

看下面的個性域名，所有我們需要的 MM 圖片都在那里面了，所以我們需要繼續(xù)抓取這個頁面。

好，繼續(xù)修改 detail_page 方法，然后增加一個 domain_page 方法，用來處理每個 MM 的個性域名。

def detail_page(self, response):domain = 'https:' + response.doc('.mm-p-domain-info li > span').text()print domainself.crawl(domain, callback=self.domain_page)def domain_page(self, response):pass

好，繼續(xù)重新 run，預覽一下頁面，終于，我們看到了 MM 的所有圖片。

照片都有了，那么我們就偷偷地下載下來吧～。完善 domain_page 代碼，實現(xiàn)保存簡介和遍歷保存圖片的方法。

在這里，PySpider 有一個特點，所有的 request 都會保存到一個隊列中，并具有去重和自動重試機制。所以，我們最好的解決方法是，把每張圖片的請求都寫成一個 request，然后成功后用文件寫入即可，這樣會避免圖片加載不全的問題。

曾經(jīng)在之前文章寫過圖片下載和文件夾創(chuàng)建的過程，在這里就不多贅述原理了，直接上寫好的工具類，后面會有完整代碼。

import osclass Deal:def __init__(self):self.path = DIR_PATHif not self.path.endswith('/'):self.path = self.path + '/'if not os.path.exists(self.path):os.makedirs(self.path)def mkDir(self, path):path = path.strip()dir_path = self.path + pathexists = os.path.exists(dir_path)if not exists:os.makedirs(dir_path)return dir_pathelse:return dir_pathdef saveImg(self, content, path):f = open(path, 'wb')f.write(content)f.close()def saveBrief(self, content, dir_path, name):file_name = dir_path + "/" + name + ".txt"f = open(file_name, "w+")f.write(content.encode('utf-8'))def getExtension(self, url):extension = url.split('.')[-1]return extension

這里面包含了四個方法。

mkDir：創(chuàng)建文件夾，用來創(chuàng)建 MM 名字對應的文件夾。 saveBrief: 保存簡介，保存 MM 的文字簡介。 saveImg: 傳入圖片二進制流以及保存路徑，存儲圖片。 getExtension: 獲得鏈接的后綴名，通過圖片 URL 獲得。

然后在 domain_page 中具體實現(xiàn)如下

def domain_page(self, response):name = response.doc('.mm-p-model-info-left-top dd > a').text()dir_path = self.deal.mkDir(name)brief = response.doc('.mm-aixiu-content').text()if dir_path:imgs = response.doc('.mm-aixiu-content img').items()count = 1self.deal.saveBrief(brief, dir_path, name)for img in imgs:url = img.attr.srcif url:extension = self.deal.getExtension(url)file_name = name + str(count) + '.' + extensioncount += 1self.crawl(img.attr.src, callback=self.save_img,save={'dir_path': dir_path, 'file_name': file_name})def save_img(self, response):content = response.contentdir_path = response.save['dir_path']file_name = response.save['file_name']file_path = dir_path + '/' + file_nameself.deal.saveImg(content, file_path)

以上方法首先獲取了頁面的所有文字，然后調(diào)用了 saveBrief 方法存儲簡介。

然后遍歷了 MM 所有的圖片，并通過鏈接獲取后綴名，和 MM 的姓名以及自增計數(shù)組合成一個新的文件名，調(diào)用 saveImg 方法保存圖片。

基本的東西都寫好了。接下來。繼續(xù)完善一下代碼。第一版本完成。

版本一功能：按照淘寶MM姓名分文件夾，存儲MM的 txt 文本簡介以及所有美圖至本地。

可配置項：

PAGE_START: 列表開始頁碼 PAGE_END: 列表結(jié)束頁碼 DIR_PATH: 資源保存路徑

代碼：

#!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2016-03-25 00:59:45 # Project: taobaommfrom pyspider.libs.base_handler import *PAGE_START = 1 PAGE_END = 30 DIR_PATH = '/var/py/mm'class Handler(BaseHandler):crawl_config = {}def __init__(self):self.base_url = 'https://mm.taobao.com/json/request_top_list.htm?page='self.page_num = PAGE_STARTself.total_num = PAGE_ENDself.deal = Deal()def on_start(self):while self.page_num <= self.total_num:url = self.base_url + str(self.page_num)self.crawl(url, callback=self.index_page)self.page_num += 1def index_page(self, response):for each in response.doc('.lady-name').items():self.crawl(each.attr.href, callback=self.detail_page, fetch_type='js')def detail_page(self, response):domain = response.doc('.mm-p-domain-info li > span').text()if domain:page_url = 'https:' + domainself.crawl(page_url, callback=self.domain_page)def domain_page(self, response):name = response.doc('.mm-p-model-info-left-top dd > a').text()dir_path = self.deal.mkDir(name)brief = response.doc('.mm-aixiu-content').text()if dir_path:imgs = response.doc('.mm-aixiu-content img').items()count = 1self.deal.saveBrief(brief, dir_path, name)for img in imgs:url = img.attr.srcif url:extension = self.deal.getExtension(url)file_name = name + str(count) + '.' + extensioncount += 1self.crawl(img.attr.src, callback=self.save_img,save={'dir_path': dir_path, 'file_name': file_name})def save_img(self, response):content = response.contentdir_path = response.save['dir_path']file_name = response.save['file_name']file_path = dir_path + '/' + file_nameself.deal.saveImg(content, file_path)import osclass Deal:def __init__(self):self.path = DIR_PATHif not self.path.endswith('/'):self.path = self.path + '/'if not os.path.exists(self.path):os.makedirs(self.path)def mkDir(self, path):path = path.strip()dir_path = self.path + pathexists = os.path.exists(dir_path)if not exists:os.makedirs(dir_path)return dir_pathelse:return dir_pathdef saveImg(self, content, path):f = open(path, 'wb')f.write(content)f.close()def saveBrief(self, content, dir_path, name):file_name = dir_path + "/" + name + ".txt"f = open(file_name, "w+")f.write(content.encode('utf-8'))def getExtension(self, url):extension = url.split('.')[-1]return extension

粘貼到你的 PySpider 中運行吧～。其中有一些知識點，我會在后面作詳細的用法總結(jié)。大家可以先體會一下代碼。

保存之后，點擊下方的 run，你會發(fā)現(xiàn)，海量的 MM 圖片已經(jīng)涌入你的電腦啦～

項目代碼：

TaobaoMM – GitHub

pyspider 爬蟲教程

From:?https://segmentfault.com/a/1190000002477863

（一）：HTML 和 CSS 選擇器

在教程一中，我們將要爬取的網(wǎng)站是豆瓣電影：http://movie.douban.com/

你可以在:?http://demo.pyspider.org/debug/tutorial_douban_movie?獲得完整的代碼，和進行測試。

開始之前

由于教程是基于 pyspider 的，你可以安裝一個 pyspider（Quickstart，也可以直接使用 pyspider 的 demo 環(huán)境：?http://demo.pyspider.org/。

你還應該至少對萬維網(wǎng)是什么有一個簡單的認識：

萬維網(wǎng)是一個由許多互相鏈接的超文本頁面（以下簡稱網(wǎng)頁）組成的系統(tǒng)。
網(wǎng)頁使用網(wǎng)址（URL）定位，并鏈接彼此
網(wǎng)頁使用?HTTP?協(xié)議傳輸
網(wǎng)頁使用?HTML?描述外觀和語義

所以，爬網(wǎng)頁實際上就是：

找到包含我們需要的信息的網(wǎng)址（URL）列表

通過 HTTP 協(xié)議把頁面下載回來

從頁面的 HTML 中解析出需要的信息

找到更多這個的 URL，回到 2 繼續(xù)

選取一個開始網(wǎng)址

既然我們要爬所有的電影，首先我們需要抓一個電影列表，一個好的列表應該：

包含足夠多的電影的 URL
通過翻頁，可以遍歷到所有的電影
一個按照更新時間排序的列表，可以更快抓到最新更新的電影

我們在?http://movie.douban.com/?掃了一遍，發(fā)現(xiàn)并沒有一個列表能包含所有電影，只能退而求其次，通過抓取分類下的所有的標簽列表頁，來遍歷所有的電影：?http://movie.douban.com/tag/

創(chuàng)建一個項目

在 pyspider 的 dashboard 的右下角，點擊 "Create" 按鈕

替換?on_start?函數(shù)的?self.crawl?的 URL：

@every(minutes=24 * 60) def on_start(self):self.crawl('http://movie.douban.com/tag/', callback=self.index_page)

self.crawl?告訴 pyspider 抓取指定頁面，然后使用?callback?函數(shù)對結(jié)果進行解析。
@every?修飾器，表示?on_start?每天會執(zhí)行一次，這樣就能抓到最新的電影了。

點擊綠色的?run?執(zhí)行，你會看到?follows?上面有一個紅色的 1，切換到?follows?面板，點擊綠色的播放按鈕：

Tag 列表頁

在?tag 列表頁?中，我們需要提取出所有的電影列表頁的 URL。你可能已經(jīng)發(fā)現(xiàn)了，sample handler 已經(jīng)提取了非常多大的 URL，所有，一種可行的提取列表頁 URL 的方法就是用正則從中過濾出來：

import re ...@config(age=10 * 24 * 60 * 60)def index_page(self, response):for each in response.doc('a[href^="http"]').items():if re.match("http://movie.douban.com/tag/\w+", each.attr.href, re.U):self.crawl(each.attr.href, callback=self.list_page)

由于電影列表頁和 tag列表頁長的并不一樣，在這里新建了一個?callback?為?self.list_page
@config(age=10 * 24 * 60 * 60)?在這表示我們認為 10 天內(nèi)頁面有效，不會再次進行更新抓取

由于 pyspider 是純 Python 環(huán)境，你可以使用 Python 強大的內(nèi)置庫，或者你熟悉的第三方庫對頁面進行解析。不過更推薦使用 CSS選擇器。

電影列表頁

再次點擊?run?讓我們進入一個電影列表頁(list_page)。在這個頁面中我們需要提取：

電影的鏈接，例如，http://movie.douban.com/subject/1292052/
下一頁的鏈接，用來翻頁

CSS選擇器

CSS選擇器，顧名思義，是?CSS?用來定位需要設(shè)置樣式的元素所使用的表達式。既然前端程序員都使用 CSS選擇器為頁面上的不同元素設(shè)置樣式，我們也可以通過它定位需要的元素。你可以在?CSS 選擇器參考手冊?這里學習更多的 CSS選擇器語法。

在 pyspider 中，內(nèi)置了?response.doc?的?PyQuery?對象，讓你可以使用類似 jQuery 的語法操作 DOM 元素。你可以在?PyQuery?的頁面上找到完整的文檔。

CSS Selector Helper

在 pyspider 中，還內(nèi)置了一個?CSS Selector Helper，當你點擊頁面上的元素的時候，可以幫你生成它的 CSS選擇器表達式。你可以點擊?Enable CSS selector helper?按鈕，然后切換到?web?頁面：

開啟后，鼠標放在元素上，會被黃色高亮，點擊后，所有擁有相同 CSS選擇器表達式的元素會被高亮。表達式會被插入到 python 代碼當前光標位置。創(chuàng)建下面的代碼，將光標停留在單引號中間：

def list_page(self, response):for each in response.doc('').items():

點擊一個電影的鏈接，CSS選擇器表達式將會插入到你的代碼中，如此重復，插入翻頁的鏈接：

def list_page(self, response):for each in response.doc('HTML>BODY>DIV#wrapper>DIV#content>DIV.grid-16-8.clearfix>DIV.article>DIV>TABLE TR.item>TD>DIV.pl2>A').items():self.crawl(each.attr.href, callback=self.detail_page)# 翻頁for each in response.doc('HTML>BODY>DIV#wrapper>DIV#content>DIV.grid-16-8.clearfix>DIV.article>DIV.paginator>A').items():self.crawl(each.attr.href, callback=self.list_page)

翻頁是一個到自己的?callback?回調(diào)

電影詳情頁

再次點擊?run，follow 到詳情頁。使用?css selector helper?分別添加電影標題，打分和導演：

def detail_page(self, response):return {"url": response.url,"title": response.doc('HTML>BODY>DIV#wrapper>DIV#content>H1>SPAN').text(),"rating": response.doc('HTML>BODY>DIV#wrapper>DIV#content>DIV.grid-16-8.clearfix>DIV.article>DIV.indent.clearfix>DIV.subjectwrap.clearfix>DIV#interest_sectl>DIV.rating_wrap.clearbox>P.rating_self.clearfix>STRONG.ll.rating_num').text(),"導演": [x.text() for x in response.doc('a[rel="v:directedBy"]').items()],}

注意，你會發(fā)現(xiàn)?css selector helper?并不是總是能提取到合適的 CSS選擇器表達式。你可以在?Chrome Dev Tools?的幫助下，寫一個合適的表達式：

右鍵點擊需要提取的元素，點擊審查元素。你并不需要像自動生成的表達式那樣寫出所有的祖先節(jié)點，只要寫出那些能區(qū)分你不需要的元素的關(guān)鍵節(jié)點的屬性就可以了。不過這需要抓取和網(wǎng)頁前端的經(jīng)驗。所以，學習抓取的最好方法就是學會這個頁面/網(wǎng)站是怎么寫的。

你也可以在 Chrome Dev Tools 的 Javascript Console 中，使用?$$(a[rel="v:directedBy"])?測試 CSS Selector。

開始抓取

使用?run?單步調(diào)試你的代碼，對于用一個?callback?最好使用多個頁面類型進行測試。然后保存。

回到 Dashboard，找到你的項目

將?status?修改為?DEBUG?或?RUNNING

按?run?按鈕

（二）：AJAX 和 HTTP

From:?https://segmentfault.com/a/1190000002477870

在上面教程中，用?self.crawl?API 抓取豆瓣電影的 HTML 內(nèi)容，并使用 CSS 選擇器解析了一些內(nèi)容。不過，現(xiàn)在的網(wǎng)站通過使用?AJAX?等技術(shù)，在你與服務器交互的同時，不用重新加載整個頁面。但是，這些交互手段，讓抓取變得稍微難了一些：你會發(fā)現(xiàn)，這些網(wǎng)頁在抓回來后，和瀏覽器中的并不相同。你需要的信息并不在返回 HTML 代碼中。

在這一篇教程中，我們會討論這些技術(shù) 和抓取他們的方法。（英文版：AJAX-and-more-HTTP）

AJAX

AJAX?是 Asynchronous JavaScript and XML（異步的 JavaScript 和 XML）的縮寫。AJAX 通過使用原有的 web 標準組件，實現(xiàn)了在不重新加載整個頁面的情況下，與服務器進行數(shù)據(jù)交互。例如在新浪微博中，你可以展開一條微博的評論，而不需要重新加載，或者打開一個新的頁面。但是這些內(nèi)容并不是一開始就在頁面中的（這樣頁面就太大了），而是在你點擊的時候被加載進來的。這就導致了你抓取這個頁面的時候，并不能獲得這些評論信息（因為你沒有『展開』）。

AJAX?的一種常見用法是使用?AJAX?加載?JSON?數(shù)據(jù)，然后在瀏覽器端渲染。如果能直接抓取到?JSON?數(shù)據(jù)，會比 HTML 更容易解析。

當一個網(wǎng)站使用了 AJAX 的時候，除了用 pyspider 抓取到的頁面和瀏覽器看到的不同以外。你在瀏覽器中打開這樣的頁面，或者點擊『展開』的時候，常常會看到『加載中』或者類似的圖標/動畫。例如，當你嘗試抓取：http://movie.douban.com/explore

你會發(fā)現(xiàn)電影是『載入中...』

找到真實的請求

由于 AJAX 實際上也是通過 HTTP 傳輸數(shù)據(jù)的，所以我們可以通過?Chrome Developer Tools?找到真實的請求，直接發(fā)起真實請求的抓取就可以獲得數(shù)據(jù)了。

打開一個新窗口

按?Ctrl+Shift+I?(在 Mac 上請按?Cmd+Opt+I) 打開開發(fā)者工具。

切換到網(wǎng)絡（ Netwotk 面板）

在窗口中打開?http://movie.douban.com/explore

在頁面加載的過程中，你會在面板中看到所有的資源請求。

AJAX 一般是通過?XMLHttpRequest?對象接口發(fā)送請求的，XMLHttpRequest 一般被縮寫為 XHR。點擊網(wǎng)絡面板上漏斗形的過濾按鈕，過濾出 XHR 請求。挨個查看每個請求，通過訪問路徑和預覽，找到包含信息的請求：http://movie.douban.com/j/searchX61Xsubjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0

在豆瓣這個例子中，XHR 請求并不多，可以挨個查看來確認。但在 XHR 請求較多的時候，可能需要結(jié)合觸發(fā)動作的時間，請求的路徑等信息幫助在大量的請求中找到包含信息的關(guān)鍵請求。這需要抓取或者前端的相關(guān)經(jīng)驗。所以，有一個我一直在提的觀點，學習抓取的最好方法是：學會寫網(wǎng)站。

現(xiàn)在可以在新窗口中打開?http://movie.douban.com/j/searchX67Xsubjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0，你會看到包含電影數(shù)據(jù)的?JSON?原始數(shù)據(jù)。推薦安裝?JSONView（Firfox版）插件，這樣可以看到更好看的 JSON 格式，展開折疊列等功能。然后，我們根據(jù)?JSON?數(shù)據(jù)，編寫一個提取電影名和評分的腳本：

class Handler(BaseHandler):def on_start(self):self.crawl('http://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0',callback=self.json_parser)def json_parser(self, response):return [{"title": x['title'],"rate": x['rate'],"url": x['url']} for x in response.json['subjects']]

你可以使用?response.json?將結(jié)果轉(zhuǎn)為一個 python 的?dict?對象

你可以在?http://demo.pyspider.org/debug/tutorial_douban_explore?獲得完整的代碼，并進行調(diào)試。腳本中還有一個使用?PhantomJS?渲染的提取版本，將會在下一篇教程中介紹。

HTTP

HTTP?是用來傳輸網(wǎng)頁內(nèi)容的協(xié)議。在前面已經(jīng)通過?self.crawl?接口提交了 URL 進行了抓取。這些抓取就是通過 HTTP 協(xié)議傳輸?shù)摹?/p>

在抓取過程中，你可能會遇到類似?403 Forbidden，或者需要登錄的情況，這時候你就需要正確的 HTTP 參數(shù)進行抓取了。

一個典型的 HTTP 請求包如下，這個請求是發(fā)往?http://example.com/?的：

GET / HTTP/1.1 Host: example.com Connection: keep-alive Cache-Control: max-age=0 Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8 User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.45 Safari/537.36 Referer: http://en.wikipedia.org/wiki/Example.com Accept-Encoding: gzip, deflate, sdch Accept-Language: zh-CN,zh;q=0.8 If-None-Match: "359670651" If-Modified-Since: Fri, 09 Aug 2013 23:54:35 GMT

請求的第一行包含?method,?path?和 HTTP 協(xié)議的版本信息
余下的行被稱為 header，是以?key: value?的形式呈現(xiàn)的
如果是 POST 請求，在請求結(jié)尾可能還會有?body?內(nèi)容

你可以通過前面用過的?Chrome Developer Tools?工具查看到這些信息：

在大多數(shù)時候，使用正確的?method,?path,?headers?和?body?總是能抓取到你需要的信息的。

HTTP Method

HTTP Method?告訴服務器對 URL 資源期望進行的操作。例如在打開一個 URL 的時候使用的是 GET 方式，而在提交數(shù)據(jù)的時候一般使用 POST。

TODO： need example here

HTTP Headers

HTTP Headers 是請求所帶的一個參數(shù)列表，你可以在?這里?找到完整的常用 Headers 列表。一些常用的需要注意的有：

User-Agent

UA 是標識你使用的瀏覽器，或抓取程序的一段字符串。pyspider 使用的默認 UA 是?pyspider/VERSION (+http://pyspider.org/)。網(wǎng)站常用這個字符串來區(qū)分用戶的操作系統(tǒng)和瀏覽器，以及判斷對方是否是爬蟲。所以在抓取的時候，常常會對 UA 進行偽裝。

在 pyspider 中，你可以通過?self.crawl(URL, headers={'User-Agent': 'pyspider'})，或者是?crawl_config = {'headers': {'User-Agent': 'xxxx'}}?來指定腳本級別的 UA。詳細請查看?API 文檔。

Referer

Referer 用于告訴服務器，你訪問的上一個網(wǎng)頁是什么。常常被用于防盜鏈，在抓取圖片的時候可能會用到。

X-Requested-With

當使用 XHR 發(fā)送 AJAX 請求時會帶上的 Header，常被用于判斷是不是 AJAX 請求。例如在?北郵人論壇?中，你需要：

def on_start(self):self.crawl('http://bbs.byr.cn/board/Python', headers={'X-Requested-With': 'XMLHttpRequest'}, callback=self.index_page)

帶有?headers={'X-Requested-With': 'XMLHttpRequest'}?才能抓取到內(nèi)容。

HTTP Cookie

雖然?Cookie?只是 HTTP Header 中的一個，但是因為非常重要，但是拿出來說一下。Cookie?被 HTTP 請求用來區(qū)分、追蹤用戶的身份，當你在一個網(wǎng)站登錄的時候，就是通過寫入?Cookie?字段來記錄登錄狀態(tài)的。

當遇到需要登錄的網(wǎng)站，你需要通過設(shè)置 Cookie 參數(shù)，來請求需要登錄的內(nèi)容。Cookie 可以通過開發(fā)者工具的請求面板，或者是資源面板中獲得。在 pyspider 中，你也可以使用?response.cookies?獲得返回的 cookie，并使用?self.crawl(URL, cookie={'key': 'value'})?來設(shè)置請求的 Cookie 參數(shù)。

（三）：使用 PhantomJS 渲染帶 JS 的頁面

在上兩篇教程中，我們學習了怎么從 HTML 中提取信息，也學習了怎么處理一些請求復雜的頁面。但是有一些頁面，它實在太復雜了，無論是分析 API 請求的地址，還是渲染時進行了加密，讓直接抓取請求非常麻煩。這時候就是?PhantomJS?大顯身手的時候了。

在使用?PhantomJS?之前，你需要安裝它（安裝文檔）。當你安裝了之后，在運行?all?模式的 pyspider 時就會自動啟用了。當然，你也可以在?demo.pyspider.org?上嘗試。

使用 PhantomJS

當 pyspider 連上 PhantomJS 代理后，你就能通過在?self.crawl?中添加?fetch_type='js'?的參數(shù)，開啟使用 PhantomJS 抓取。例如，在教程二中，我們嘗試抓取的?http://movie.douban.com/explore?就可以通過 PhantomJS 直接抓取：

class Handler(BaseHandler):def on_start(self):self.crawl('http://movie.douban.com/explore',fetch_type='js', callback=self.phantomjs_parser)def phantomjs_parser(self, response):return [{"title": "".join(s for s in x('p').contents() if isinstance(s, basestring)).strip(),"rate": x('p strong').text(),"url": x.attr.href,} for x in response.doc('a.item').items()]

我在這里使用了一些 PyQuery 的 API，你可以在?PyQuery complete API?獲得完整的 API 手冊。

在頁面上執(zhí)行自定義腳本

你會發(fā)現(xiàn)，在上面我們使用?PhantomJS?抓取的豆瓣熱門電影只有 20 條。當你點擊『加載更多』時，能獲得更多的熱門電影。為了獲得更多的電影，我們可以使用?self.crawl?的?js_script?參數(shù)，在頁面上執(zhí)行一段腳本，點擊加載更多：

def on_start(self):self.crawl('http://movie.douban.com/explore#more',fetch_type='js', js_script="""function() {setTimeout("$('.more').click()", 1000);}""", callback=self.phantomjs_parser)

這個腳本默認在頁面加載結(jié)束后執(zhí)行，你可以通過?js_run_at?參數(shù)?修改這個行為
由于是 AJAX 異步加載的，在頁面加載完成時，第一頁的電影可能還沒有加載完，所以我們用?setTimeout?延遲 1 秒執(zhí)行。
你可以間隔一定時間，多次點擊，這樣可以加載更多頁。
由于相同 URL （實際是相同 taskid）的任務會被去重，所以這里為 URL 加了一個?#more

上面兩個例子，都可以在?http://demo.pyspider.org/debug/tutorial_douban_explore?中找到。

漫談Pyspider網(wǎng)絡爬蟲的實踐

轉(zhuǎn)載地址

為什么是Python

寫網(wǎng)絡爬蟲的語言有很多，編程的語言更多。個人認為Python是一種工具型的語言，上手快，語法簡單（相比于C/C++/JAVA族），各種功能庫豐富而且小巧單一（每個獨立的庫只做一件事情），所以編程就像是在玩樂高積木，照著自己設(shè)計好的流程，拼接就行了。當然，這是筆者個人的經(jīng)驗和喜好。如果你有自己擅長并喜歡的，大可用自己的去實現(xiàn)一個網(wǎng)絡爬蟲系統(tǒng)，這個不在本文的討論范圍之類了。
有關(guān)幾種編程語言編寫網(wǎng)絡爬蟲的比較，可以參考知乎上的文章?PHP, Python, Node.js 哪個比較適合寫爬蟲？

為什么是Pyspider

Python有很多成熟的網(wǎng)絡爬蟲框架，知乎上很多大?？偨Y(jié)了一些實踐經(jīng)驗，具體可以參考如何入門 Python 爬蟲？
很多推薦用requests做請求，query／soup做頁面數(shù)據(jù)(Html/Xml)解析，看起來很靈活，然而，一個比較完善的網(wǎng)絡爬蟲系統(tǒng)，所需要提供的功能可能遠遠不止這些。也有推薦Scrapy的，雖然看起來功能非常強大，但是這個框架上手需要一些時間，有一定的學習成本，相對于新手來說，很難快速專注爬蟲業(yè)務的開發(fā)。
Pyspider是Roy Binux開發(fā)的一款開源的網(wǎng)絡爬蟲系統(tǒng)，它不止是一個爬蟲框架，而是一套完備的爬蟲系統(tǒng)，使用這套系統(tǒng)你只需要關(guān)注兩件事情

目標網(wǎng)站上的內(nèi)容元素的解析，而且只需要關(guān)注解析什么，解析框架也有提供，并且提供了可視化工具輔助從目標頁面摳取需要解析的元素CSS屬性
解析出來的內(nèi)容元素如何保存，你只需要關(guān)注數(shù)據(jù)庫表字段的設(shè)計，然后把解析出來的頁面元素內(nèi)容保存到數(shù)據(jù)庫表中
那么，剩下的幾乎所有事情，就交給Pyspider吧

是不是聽上去感覺很簡單，那么，開始動手吧，跟著這篇官方文檔，最快幾分鐘的功夫，你就可以學會從2048（草榴）找到真愛了。

簡單的爬取看官方文檔就可以了，不過，實踐過程中總會遇到各種問題，那么，看看這些如何解決的吧。

如何模擬登陸

有些網(wǎng)站內(nèi)容的展示需要用戶登錄，那么如果需要爬取這樣的頁面內(nèi)容，我們的爬蟲就需要模擬用戶登陸。網(wǎng)站一般在頁面跳轉(zhuǎn)或者刷新的時候，也需要獲取登錄信息以確定這個頁面的訪問用戶是登陸過的。如果每次都需要用戶重新登錄，那么這種體驗就太爛了，需要一種機制把之前用戶登陸的信息保存起來，而且一定是保存在瀏覽器可以訪問的本地存儲上，這樣，用戶在頁面跳轉(zhuǎn)或者頁面刷新的時候，登錄信息被網(wǎng)站自動讀取，就不需要用戶頻繁登錄了。而這個保存的地方，叫做Cookie。
爬蟲需要做的事情，一是模擬登陸，拿到Cookie數(shù)據(jù)，然后保存下來，二是每次去訪問網(wǎng)頁的時候，將Cookie信息傳遞給請求，這樣就可以正常爬到需要用戶登錄的數(shù)據(jù)了。

我們先設(shè)計一個登錄類，用來管理登錄的請求和數(shù)據(jù)

import urllib import urllib2 import lxml.html as HTMLclass Login(object):def __init__(self, username, password, login_url, post_url_prefix):self.username = usernameself.password = passwordself.login_url = login_urlself.post_url_prefix = post_url_prefixdef login(self):post_url, post_data = self.getPostData()post_url = self.post_url_prefix + post_urlreq = urllib2.Request(url = post_url, data = post_data)resp = urllib2.urlopen(req)return Truedef getPostData(self):url = self.login_url.strip()if not re.match(r'^http://', url):return None, Nonereq = urllib2.Request(url)resp = urllib2.urlopen(req)login_page = resp.read()doc = HTML.fromstring (login_page)post_url = doc.xpath("//form[@method='post' and @id='lsform']/@action")[0]cookietime = doc.xpath("//input[@name='cookietime' and @id='ls_cookietime']/@value")[0]username = self.usernamepassword = self.passwordpost_data = urllib.urlencode({'fastloginfield' : 'username','username' : username,'password' : password,'quickforward' : 'no','handlekey' : 'ls','cookietime' : cookietime,})return post_url, post_data

代碼解釋

用戶名username, 密碼password, 目標網(wǎng)站的登錄頁面地址login_url, 目標網(wǎng)站的主域名post_url_prefix，這些參數(shù)從外部傳入，目標網(wǎng)站的登錄頁面地址也有可能就是網(wǎng)站的主頁地址。
getPostData首先向目標網(wǎng)站的登錄頁面地址發(fā)起一個請求，然后解析這個頁面的數(shù)據(jù)，解析出登錄請求的目標地址和post請求的數(shù)據(jù)（登錄請求一般為post請求），然后返回這兩個參數(shù)

設(shè)計一個方法，這個方法用來獲取爬取網(wǎng)頁請求需要的Cookie數(shù)據(jù)。

import os import hashlib import cookielibLOGIN_URL = 'http://登錄頁面地址' USER_NAME = '用戶名' PASSWORD = '密碼'HOST = '目標網(wǎng)頁主域名' REFERER = 'http://目標網(wǎng)頁主域名/' POST_URL_PREFIX = 'http://目標網(wǎng)頁主域名/'# !!! Notice !!! # Tasks that share the same account MUST share the same cookies file COOKIES_FILE = '/tmp/pyspider.%s.%s.cookies' % (HOST, hashlib.md5(USER_NAME).hexdigest()) COOKIES_DOMAIN = HOSTUSER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.135 Safari/537.36' HTTP_HEADERS = {'Accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Encoding' : 'gzip, deflate, sdch','Accept-Language' : 'zh-CN,zh;q=0.8,en;q=0.6','Connection' : 'keep-alive','DNT' : '1','Host' : HOST,'Referer' : REFERER,'User-Agent' : USER_AGENT, }def getCookies():cookiesJar = cookielib.MozillaCookieJar(COOKIES_FILE)if not os.path.isfile(COOKIES_FILE):cookiesJar.save()cookiesJar.load (COOKIES_FILE)cookieProcessor = urllib2.HTTPCookieProcessor(cookiesJar)cookieOpener = urllib2.build_opener(cookieProcessor, urllib2.HTTPHandler)for item in HTTP_HEADERS:cookieOpener.addheaders.append ((item ,HTTP_HEADERS[item]))urllib2.install_opener(cookieOpener)if len(cookiesJar) == 0:login = Login(USER_NAME, PASSWORD, LOGIN_URL, POST_URL_PREFIX)if login.login():cookiesJar.save()else:return NonecookiesDict = {}for cookie in cookiesJar:if COOKIES_DOMAIN in cookie.domain:cookiesDict[cookie.name] = cookie.valuereturn cookiesDict

代碼解釋

USER_NAME PASSWORD LOGIN_URL POST_URL_PREFIX 分別定義了用戶名／密碼／登錄頁面地址／目標網(wǎng)頁前綴
如果從COOKIES_FILE讀取出的Cookie信息為空，那么就調(diào)用Login做登錄流程，并且把獲取到的結(jié)果保存，如果Cookie不為空，就返回Cookie信息到字典cookiesDict中

Pyspider每次爬取請求都帶上Cookie字典，這樣，向目標地址發(fā)請求就可以獲取到需要登錄才能訪問到的數(shù)據(jù)了。

cookies = getCookies() self.crawl(url, cookies = cookies, callback=self.index_page)

如何解析爬取下來的內(nèi)容

爬取的內(nèi)容通過回調(diào)的參數(shù)response返回，response有多種解析方式

如果返回的數(shù)據(jù)是json，則可以通過response.json訪問
response.doc返回的是PyQuery對象
response.etree返回的是lxml對象
response.text返回的是unicode文本
response.content返回的是字節(jié)碼

所以返回數(shù)據(jù)可以是5種形式，unicode和字節(jié)碼不是結(jié)構(gòu)化的數(shù)據(jù)，很難解析，這里就不贅述了，json需要特定的條件，而且解析相對簡單，也不必說。
常用的就是PyQuery和lxml的方式，關(guān)于lxml，可以采用XPath的語法來解析，比如前面模擬登錄中就采用了xpath的語法解析網(wǎng)頁，具體可參考lxml和XPath的相關(guān)文檔。

XPath選擇器參考

選擇器示例示例說明

nodename	bookstore	選擇所有名稱叫做”bookstore”的節(jié)點
/	bookstore/book	選擇”bookstore”的節(jié)點的所有”book”子節(jié)點
//	//book	選擇文檔中所有名稱叫做”book”的節(jié)點，不管它們的父節(jié)點叫做什么
.	?	選擇當前的節(jié)點
..	?	選擇當前節(jié)點的父節(jié)點
@	//@lang	選擇所有名稱叫做”lang”的屬性
?	bookstore//book	選擇節(jié)點”bookstore”所有叫做”book”的子孫節(jié)點，bookstore不一定是book的父節(jié)點
?	/bookstore/book[1]	選擇節(jié)點”bookstore”的第一個叫做”book”的子節(jié)點
?	/bookstore/book[last()]	選擇節(jié)點”bookstore”的最后一個叫做”book”的子節(jié)點
?	//title[@lang]	選擇所有有一個屬性名叫做”lang”的title節(jié)點
?	//title[@lang=’en’]	選擇所有有一個屬性”lang”的值為”en”的title節(jié)點
*	/bookstore/*	選擇”bookstore”節(jié)點的所有子節(jié)點
?	//*	選擇文檔中所有的節(jié)點
@*	//title[@*]	選擇所有的”title”節(jié)點至少含有一個屬性，屬性名稱不限

PyQuery可以采用CSS選擇器作為參數(shù)對網(wǎng)頁進行解析。
類似這樣

response.doc('.ml.mlt.mtw.cl > li').items()

或者這樣

response.doc('.pti > .pdbt > .authi > em > span').attr('title')

關(guān)于PyQuery更多玩法，可以參考PyQuery complete API

CSS選擇器

選擇器示例示例說明

.class	.intro	Selects all elements with class=”intro”
#id	#firstname	Selects the element with id=”firstname”
element	p	Selects all <p> elements
element,element	div, p	Selects all <div> elements and all <p> elements
element element	div p	Selects all <p> elements inside <div> elements
element>element	div > p	Selects all <p> elements where the parent is a <div> element
[attribute]	[target]	Selects all elements with a target attribute
[attribute=value]	[target=_blank]	Selects all elements with target=”_blank”
[attribute^=value]	a[href^=”https”]	Selects every <a> element whose href attribute value begins with “https”
[attribute$=value]	a[href$=”.pdf”]	Selects every <a> element whose href attribute value ends with “.pdf”
[attribute*=value]	a[href*=”w3schools”]	Selects every <a> element whose href attribute value contains the substring “w3schools”
:checked	input:checked	Selects every checked <input> element

更多詳情請參考CSS Selector Reference

如何將數(shù)據(jù)保存到MySQL中

將MySQL的數(shù)據(jù)庫訪問封裝成一個類

import hashlib import unicodedata import mysql.connector from mysql.connector import errorcodeclass MySQLDB:username = '數(shù)據(jù)庫用戶名'password = '數(shù)據(jù)庫密碼'database = '數(shù)據(jù)庫名'host = 'localhost' #數(shù)據(jù)庫主機地址connection = ''isconnect = Trueplaceholder = '%s'def __init__(self):if self.isconnect:MySQLDB.connect(self)MySQLDB.initdb(self)def escape(self,string):return '`%s`' % stringdef connect(self):config = {'user':self.username,'password':self.password,'host':self.host}if self.database != None:config['database'] = self.databasetry:cnx = mysql.connector.connect(**config)self.connection = cnxreturn Trueexcept mysql.connector.Error as err:if (err.errno == errorcode.ER_ACCESS_DENIED_ERROR):print "The credentials you provided are not correct."elif (err.errno == errorcode.ER_BAD_DB_ERROR):print "The database you provided does not exist."else:print "Something went wrong: " , errreturn Falsedef initdb(self):if self.connection == '':print "Please connect first"return Falsecursor = self.connection.cursor()# 創(chuàng)建表的定義sql = 'CREATE TABLE IF NOT EXISTS \table_name ( \id VARCHAR(64) PRIMARY KEY, \url TEXT, \title TEXT, \type TEXT, \thumb TEXT, \count INTEGER, \images TEXT, \tags TEXT, \post_time DATETIME \) ENGINE=INNODB DEFAULT CHARSET=UTF8'try:cursor.execute(sql)self.connection.commit()return Trueexcept mysql.connector.Error as err:print ("An error occured: {}".format(err))return Falsedef cleardb (self):if self.connection == '':print "Please connect first"return Falsecursor = self.connection.cursor()sql = 'DROP TABLE IF EXISTS table_name'try:cursor.execute(sql)self.connection.commit()return Trueexcept mysql.connector.Error as err:print ("An error occured: {}".format(err))return Falsedef insert (self,**values):if self.connection == '':print "Please connect first"return Falsecursor = self.connection.cursor()# 插入數(shù)據(jù)sql = "insert into table_name (id, url, title, type, thumb, count, temperature, images, tags, post_time) values (%s,%s,%s,%s,%s,%s,%s,%s,%s) on duplicate key update id=VALUES(id), url=VALUES(url), title=VALUES(title), type=VALUES(type), thumb=VALUES(thumb), count=VALUES(count), images=VALUES(images), tags=VALUES(tags), post_time=VALUES(post_time)"title = unicodedata.normalize('NFKD', values['title']).encode('ascii','ignore')images = ", ".join('%s' % k for k in values['images'])params = (hashlib.md5(title + images).hexdigest(), values['url'], values['title'], values['type'], values['thumb'], values['count'], images, '', values['date'])try:cursor.execute(sql,params)self.connection.commit()return Trueexcept mysql.connector.Error as err:print ("An error occured: {}".format(err))return Falsedef replace(self,tablename=None,**values):if self.connection == '':print "Please connect first"return Falsetablename = self.escape(tablename)if values:_keys = ", ".join(self.escape(k) for k in values)_values = ", ".join([self.placeholder, ] * len(values))sql_query = "REPLACE INTO %s (%s) VALUES (%s)" % (tablename, _keys, _values)else:sql_query = "REPLACE INTO %s DEFAULT VALUES" % tablenamecur = self.connection.cursor()try:if values:cur.execute(sql_query, list(itervalues(values)))else:cur.execute(sql_query)self.connection.commit()return Trueexcept mysql.connector.Error as err:print ("An error occured: {}".format(err))return False

在處理爬取結(jié)果的回調(diào)中保存到數(shù)據(jù)庫

def on_result(self, result):db = MySQLDB()db.insert(**result)

如何在爬蟲腳本更新后重新運行之前執(zhí)行過的任務

比如這種場景，爬取了一些數(shù)據(jù)，發(fā)現(xiàn)沒有寫保存到數(shù)據(jù)庫的邏輯，然后加上了這段邏輯，卻發(fā)現(xiàn)之前跑過的任務不會在執(zhí)行了。那么如何做到在爬蟲腳本改動后，之前的任務重新自動再跑一遍呢。
在crawl_config中使用itag來標示爬蟲腳本的版本號，如果這個值發(fā)生改變，那么所有的任務都會重新再跑一遍。示例代碼如下

class Handler(BaseHandler):crawl_config = {'headers': {'User-Agent': USER_AGENT,},'itag': 'v1'}

itag也可以用來控制特定的任務是否需要重新執(zhí)行，詳見官方文檔。

如何解析JavaScript代碼

具體如何使用的可以看官方文檔，這里列舉出一些可供參考的JavaScript解析器
基于Webkit的PhantomJS?基于Gecko的SlimerJS
基于PhantomJS和SlimerJS的CasperJS
Nightmare
Selenium
spynner
ghost.py

更多工具／框架請參考Headless Browser and scraping - solutions

參考資料

binux/pyspider
Pyspider官方文檔
pyspider架構(gòu)設(shè)計
pyspider中文腳本編寫指南
Pyspider爬蟲教程
把 pyspider的結(jié)果存入自定義的mysql數(shù)據(jù)庫中
pyspider的mysql數(shù)據(jù)存儲接口
PyQuery complete API
CSS Selector Reference

收集的一些其它網(wǎng)絡爬蟲的資料

Java

雪球股票信息超級爬蟲
一個簡單易用的爬蟲框架,內(nèi)置代理管理模塊,靈活設(shè)置多線程爬取
A scalable web crawler framework for Java
強力 Java 爬蟲，列表分頁、詳細頁分頁、ajax、微內(nèi)核高擴展、配置靈活

Python

Scrapy
a smart stream-like crawler & etl python library
爬視頻音頻神器You-Get
另一款視頻下載神器youtube-dl
youtube-dl圖形界面版
自動抓取Tumblr指定用戶視頻分享
crawley
烏云公開漏洞、知識庫爬蟲和搜索
下載指定的 Tumblr 博客中的圖片，視頻
下載指定的 Tumblr 博客中的圖片，視頻，玄魂修改版
DHT網(wǎng)絡爬蟲
豆瓣電影、書籍、小組、相冊、東西等爬蟲集 writen in Python
如何不用客戶端下載 YouKu 視頻-YouKu 實現(xiàn)下載 Python3 實現(xiàn)
一個可配置的、分布式的爬蟲框架
cloud-based web crawling platform
百度云爬蟲-爬取百度云/百度網(wǎng)盤所有的分享文件
愛絲APP圖片爬蟲，以及免支付破解VIP看圖
微信公眾號爬蟲
拉勾網(wǎng)爬蟲
百度網(wǎng)盤爬蟲（如何爬取百度網(wǎng)盤）

PHP

PHP Crawler
PHPCrawl
Phpfetcher
php spider framework
我用爬蟲一天時間“偷了”知乎一百萬用戶，只為證明PHP是世界上最好的語言
爬蟲組件
PHP Simple HTML DOM Parser
QueryList
Goutte, a simple PHP Web Scraper

Nodejs

Nodejs 編寫的爬蟲工具
批量抓取AV磁鏈或封面的苦勞力
Easily download all the photos from a Tumblr blog.
DHT Spider + BitTorrent Client = P2P Spider
P2P Spider修改版,添加了babel，eslint，gulp等工具來支持es6代碼
一個Node.js福利圖網(wǎng)站爬蟲程序
一個簡單的dht爬蟲，用于搜集infohash
百度云分享爬蟲項目

Ruby

A simple DHT crawler, written in Ruby

C sharp

visualized crawler & ETL IDE written with C#/WPF

Erlang

使用erlang實現(xiàn)P2P磁力搜索

C++

給不了你夢中情人，至少還有硬盤女神：hardseed

Golang

a distributed, high concurrency and powerful web crawler software

網(wǎng)絡爬蟲專題

open-open 網(wǎng)絡爬蟲專題
你想要的爬蟲，都在這里

總結(jié)

以上是生活随笔為你收集整理的Python 爬虫框架 - PySpider的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Python操作MSSQL
下一篇： Python 并行分布式框架 Celer