日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

Python 爬虫框架 - PySpider

發(fā)布時間:2024/7/23 python 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python 爬虫框架 - PySpider 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.


Python爬蟲進階四之PySpider的用法:http://cuiqingcai.com/2652.html
網(wǎng)絡爬蟲剖析,以Pyspider為例:http://python.jobbole.com/81109
Python爬蟲利器六之PyQuery的用法:https://cuiqingcai.com/2636.html

爬蟲框架pyspider個人總結(jié)(詳細)熟悉:https://www.jianshu.com/p/39c7371dd6c2

?

pyspider 和 scrapy 比較起來有什么優(yōu)缺點嗎?:https://www.zhihu.com/question/37686665

pyspider 的優(yōu)點是簡單,立刻就能上手,腳本編寫規(guī)則。懂了的話,一小時寫甚至可以寫十多個爬蟲。
scrapy 的優(yōu)點是自定義程度高,適合學習研究爬蟲技術(shù),要學習的相關(guān)知識也較多,故而完成一個爬蟲的時間較長。

如果不知道使用哪個,可以看這篇文章的比較:
三大主流開源框架,為何Python中Scrapy如此突出:http://3g.163.com/dy/article/DNLM2IP90511HJQ3.html

?

?

PySpider

?

PySpider github地址 ? ?PySpider 官方文檔? ? PySpider 中文文檔

PySpider是binux做的一個爬蟲架構(gòu)的開源化實現(xiàn)。主要的功能需求是:

  • 1. 抓取、更新調(diào)度多站點的特定的頁面
  • 2. 需要對頁面進行結(jié)構(gòu)化信息提取
  • 3. 靈活可擴展,穩(wěn)定可監(jiān)控

而這也是絕大多數(shù) python 爬蟲的需求 —— 定向抓取,結(jié)構(gòu)化化解析。但是面對結(jié)構(gòu)迥異的各種網(wǎng)站,單一的抓取模式并不一定能滿足,靈活的抓取控制是必須的。為了達到這個目的,單純的配置文件往往不夠靈活,于是,通過腳本去控制抓取是最后的選擇。而去重調(diào)度,隊列,抓取,異常處理,監(jiān)控等功能作為框架,提供給抓取腳本,并保證靈活性。最后加上web的編輯調(diào)試環(huán)境,以及web任務監(jiān)控,即成為了這套框架。

?

PySpider 簡介

?

pyspider的設(shè)計基礎(chǔ)是:以python腳本驅(qū)動的抓取環(huán)模型爬蟲

  • 1. 通過python腳本進行結(jié)構(gòu)化信息的提取,follow鏈接調(diào)度抓取控制,實現(xiàn)最大的靈活性
  • 2. 通過web化的腳本編寫、調(diào)試環(huán)境。web展現(xiàn)調(diào)度狀態(tài)
  • 3. 抓取環(huán)模型成熟穩(wěn)定,模塊間相互獨立,通過消息隊列連接,從單進程到多機分布式靈活拓展

pyspider架構(gòu)圖

模塊功能
webuiweb的可視化任務監(jiān)控,web腳本編寫,單步調(diào)試,異常捕獲,log捕獲,print捕獲等
scheduler任務優(yōu)先級,周期定時任務,流量控制,基于時間周期 或 前鏈標簽(例如更新時間)的重抓取調(diào)度
fetcherdataurl支持,用于假抓取模擬傳遞,method, header, cookie, proxy, etag, last_modified, timeout 等等抓取調(diào)度控制,可以通過適配類似 phantomjs 的webkit引擎支持渲染
processor內(nèi)置的pyquery,以jQuery解析頁面,在腳本中完全控制調(diào)度抓取的各項參數(shù),,可以向后鏈傳遞信息,異常捕獲

?

pyspider的架構(gòu)主要分為 scheduler(調(diào)度器), fetcher(抓取器), processor(腳本執(zhí)行):

  • 1. 各個組件間使用消息隊列連接,除了scheduler是單點的,fetcher 和 processor 都是可以多實例分布式部署的。 scheduler 負責整體的調(diào)度控制
  • 2. 任務由 scheduler 發(fā)起調(diào)度,fetcher 抓取網(wǎng)頁內(nèi)容, processor 執(zhí)行預先編寫的python腳本,輸出結(jié)果或產(chǎn)生新的提鏈任務(發(fā)往 scheduler),形成閉環(huán)。
  • 3. 每個腳本可以靈活使用各種python庫對頁面進行解析,使用框架API控制下一步抓取動作,通過設(shè)置回調(diào)控制解析動作。

爬蟲pyspider提供一個異常強大的網(wǎng)頁界面(web ui),它允許你編輯和調(diào)試你的腳本,管理整個抓取過程,監(jiān)控正在進行的任務,并最終輸出結(jié)果。

項目和任務

在pyspider中,我們有項目和任務的概念。 一個任務指的是一個需要從網(wǎng)站檢索并進行分析的單獨頁面。 一個項目指的是一個更大的實體,它包括爬蟲涉及到的所有頁面,分析網(wǎng)頁所需要的python腳本,以及用于存儲數(shù)據(jù)的數(shù)據(jù)庫等等。 在pyspider中我們可以同時運行多個項目。

代碼結(jié)構(gòu)分析

根目錄:在根目錄中可以找到的文件夾有:

?data,空文件夾,它是存放由爬蟲所生成的數(shù)據(jù)的地方。 ?docs,包含該項目文檔,里邊有一些markdown代碼。 ?pyspider,包含項目實際的代碼。 ?test,包含相當多的測試代碼。

這里重點介紹一些重要的文件:

?travis.yml, 一個很棒的、連續(xù)性測試的整合。你如何確定你的項目確實有效?畢竟僅在你自己的帶有固定版本的庫的機器上進行測試是不夠的。 ?Dockerfile,同樣很棒的工具!如果我想在我的機器上嘗試一個項目,我只需要運行Docker,我不需要手動安裝任何東西,這是一個使開發(fā)者參與到你的項目中的很好的方式。 ?LICENSE,對于任何開源項目都是必需的,(如果你自己有開源項目的話)不要忘記自己項目中的該文件。 ?requirements.txt,在Python世界中,該文件用于指明為了運行該軟件,需要在你的系統(tǒng)中安裝什么Python包,在任何的Python項目中該文件都是必須的。 ?run.py, 該軟件的主入口點。 ?setup.py,該文件是一個Python腳本,用于在你的系統(tǒng)中安裝pyspider項目。

分析完項目的根目錄了,僅根目錄就能說明該項目是以一種非常專業(yè)的方式進行開發(fā)的。如果你正在開發(fā)任何的開源程序,希望你能達到這樣的水準。

文件夾pyspider

讓我們更深入一點兒,一起來分析實際的代碼。 在這個文件夾中還能找到其他的文件夾,整個軟件背后的邏輯已經(jīng)被分割,以便更容易的進行管理和擴展。 這些文件夾是:database、fetcher、libs、processor、result、scheduler、webui。 在這個文件夾中我們也能找到整個項目的主入口點,run.py。

文件run.py

這個文件首先完成所有必需的雜事,以保證爬蟲成功地運行。最終它產(chǎn)生所有必需的計算單元。 向下滾動我們可以看到整個項目的入口點,cli()。

函數(shù)cli()

這個函數(shù)好像很復雜,但與我相隨,你會發(fā)現(xiàn)它并沒有你想象中復雜。 函數(shù)cli()的主要目的是創(chuàng)建數(shù)據(jù)庫和消息系統(tǒng)的所有連接。 它主要解析命令行參數(shù),并利用所有我們需要的東西創(chuàng)建一個大字典。 最后,我們通過調(diào)用函數(shù)all()開始真正的工作。

函數(shù)all()

一個網(wǎng)絡爬蟲會進行大量的IO操作,因此一個好的想法是產(chǎn)生不同的線程或子進程來管理所有的這些工作。 通過這種方式,你可以在等待網(wǎng)絡獲取你當前html頁面的同時,提取前一個頁面的有用信息。

函數(shù)all()決定是否運行子進程或者線程,然后調(diào)用不同的線程或子進程里的所有的必要函數(shù)。這時pyspider將產(chǎn)生包括webui在內(nèi)的,爬蟲的所有邏輯模塊所需要的,足夠數(shù)量的線程。當我們完成項目并關(guān)閉webui時,我們將干凈漂亮地關(guān)閉每一個進程。

現(xiàn)在我們的爬蟲就開始運行了,讓我們進行更深入一點兒的探索。

調(diào)度程序

調(diào)度程序從兩個不同的隊列中獲取任務(newtask_queue和status_queue),并把任務加入到另外一個隊列(out_queue),這個隊列稍后會被抓取程序讀取。

調(diào)度程序做的第一件事情是從數(shù)據(jù)庫中加載所需要完成的所有的任務。之后,它開始一個無限循環(huán)。

def run(self):while not self._quit:try:time.sleep(self.LOOP_INTERVAL)self._update_projects()self._check_task_done()self._check_request()while self._check_cronjob():passself._check_select()self._check_delete()self._try_dump_cnt()self._exceptions = 0except KeyboardInterrupt:breakexcept Exception as e:logger.exception(e)self._exceptions += 1if self._exceptions > self.EXCEPTION_LIMIT:breakcontinue

在這個循環(huán)中會調(diào)用幾個方法:

1._update_projects():嘗試更新的各種設(shè)置,例如,我們想在爬蟲工作的時候調(diào)整爬取速度。 2._check_task_done():分析已完成的任務并將其保存到數(shù)據(jù)庫,它從status_queue中獲取任務。 3._check_request():如果內(nèi)容處理程序要求分析更多的頁面,把這些頁面放在隊列newtask_queue中,該函數(shù)會從該隊列中獲得新的任務。 4._check_select():把新的網(wǎng)頁加入到抓取程序的隊列中。 5._check_delete():刪除已被用戶標記的任務和項目。 6._try_dump_cnt():記錄一個文件中已完成任務的數(shù)量。對于防止程序異常所導致的數(shù)據(jù)丟失,這是有必要的。

循環(huán)也會檢查運行過程中的異常,或者我們是否要求 python 停止處理。

finally:# exit components run in subprocessfor each in threads:if not each.is_alive():continueif hasattr(each, 'terminate'):each.terminate()each.join()

?

抓取程序

抓取程序的目的是檢索網(wǎng)絡資源。

pyspider能夠處理普通HTML文本頁面和基于AJAX的頁面。只有抓取程序能意識到這種差異,了解這一點非常重要。我們將僅專注于普通的html文本抓取,然而大部分的想法可以很容易地移植到Ajax抓取器。

這里的想法在某種形式上類似于調(diào)度程序,我們有分別用于輸入和輸出的兩個隊列,以及一個大的循環(huán)。對于輸入隊列中的所有元素,抓取程序生成一個請求,并將結(jié)果放入輸出隊列中。

它聽起來簡單但有一個大問題。網(wǎng)絡通常是極其緩慢的,如果因為等待一個網(wǎng)頁而阻止了所有的計算,那么整個過程將會運行的極其緩慢。解決方法非常的簡單,即不要在等待網(wǎng)絡的時候阻塞所有的計算。這個想法即在網(wǎng)絡上發(fā)送大量消息,并且相當一部分消息是同時發(fā)送的,然后異步等待響應的返回。一旦我們收回一個響應,我們將會調(diào)用另外的回調(diào)函數(shù),回調(diào)函數(shù)將會以最適合的方式管理這樣的響應。

爬蟲pyspider中的所有的復雜的異步調(diào)度都是由另一個優(yōu)秀的開源項目tornado完成。

現(xiàn)在我們的腦海里已經(jīng)有了極好的想法了,讓我們更深入地探索這是如何實現(xiàn)的。

def run(self):def queue_loop():if not self.outqueue or not self.inqueue:returnwhile not self._quit:try:if self.outqueue.full():breaktask = self.inqueue.get_nowait()task = utils.decode_unicode_obj(task)self.fetch(task)except queue.Empty:breaktornado.ioloop.PeriodicCallback(queue_loop, 100, io_loop=self.ioloop).start()self._running = Trueself.ioloop.start()

函數(shù)run()是抓取程序fetcher中的一個大的循環(huán)程序。

函數(shù)run()中定義了另外一個函數(shù)queue_loop(),該函數(shù)接收輸入隊列中的所有任務,并抓取它們。同時該函數(shù)也監(jiān)聽中斷信號。函數(shù)queue_loop()作為參數(shù)傳遞給tornado的類PeriodicCallback,如你所猜,PeriodicCallback會每隔一段具體的時間調(diào)用一次queue_loop()函數(shù)。函數(shù)queue_loop()也會調(diào)用另一個能使我們更接近于實際檢索Web資源操作的函數(shù):fetch()。
函數(shù)fetch(self, task, callback=None)

網(wǎng)絡上的資源必須使用函數(shù)phantomjs_fetch()或簡單的http_fetch()函數(shù)檢索,函數(shù)fetch()只決定檢索該資源的正確方法是什么。接下來我們看一下函數(shù)http_fetch()。

函數(shù)http_fetch(self, url, task, callback)

def http_fetch(self, url, task, callback):'''HTTP fetcher'''fetch = copy.deepcopy(self.default_options)fetch['url'] = urlfetch['headers']['User-Agent'] = self.user_agentdef handle_response(response):...return task, resulttry:request = tornado.httpclient.HTTPRequest(header_callback=header_callback, **fetch) if self.async:self.http_client.fetch(request, handle_response)else:return handle_response(self.http_client.fetch(request))

終于,這里才是完成真正工作的地方。這個函數(shù)的代碼有點長,但有清晰的結(jié)構(gòu),容易閱讀。

在函數(shù)的開始部分,它設(shè)置了抓取請求的header,比如User-Agent、超時timeout等等。然后定義一個處理響應response的函數(shù):handle_response(),后邊我們會分析這個函數(shù)。最后我們得到一個tornado的請求對象request,并發(fā)送這個請求對象。請注意在異步和非異步的情況下,是如何使用相同的函數(shù)來處理響應response的。

讓我們往回看一下,分析一下函數(shù)handle_response()做了什么。

函數(shù)handle_response(response)

def handle_response(response):result = {}result['orig_url'] = urlresult['content'] = response.body or ''callback('http', task, result)return task, result

這個函數(shù)以字典的形式保存一個response的所有相關(guān)信息,例如url,狀態(tài)碼和實際響應等,然后調(diào)用回調(diào)函數(shù)。這里的回調(diào)函數(shù)是一個小方法:send_result()。

函數(shù)send_result(self, type, task, result)

def send_result(self, type, task, result):if self.outqueue:self.outqueue.put((task, result))

這個最后的函數(shù)將結(jié)果放入到輸出隊列中,等待內(nèi)容處理程序processor的讀取。

?

內(nèi)容處理程序processor

內(nèi)容處理程序的目的是分析已經(jīng)抓取回來的頁面。它的過程同樣也是一個大循環(huán),但輸出中有三個隊列(status_queue, newtask_queue 以及result_queue)而輸入中只有一個隊列(inqueue)。

讓我們稍微深入地分析一下函數(shù)run()中的循環(huán)過程。

函數(shù)run(self)

def run(self):try:task, response = self.inqueue.get(timeout=1)self.on_task(task, response)self._exceptions = 0except KeyboardInterrupt:breakexcept Exception as e:self._exceptions += 1if self._exceptions > self.EXCEPTION_LIMIT:breakcontinue

這個函數(shù)的代碼比較少,易于理解,它簡單地從隊列中得到需要被分析的下一個任務,并利用on_task(task, response)函數(shù)對其進行分析。這個循環(huán)監(jiān)聽中斷信號,只要我們給Python發(fā)送這樣的信號,這個循環(huán)就會終止。最后這個循環(huán)統(tǒng)計它引發(fā)的異常的數(shù)量,異常數(shù)量過多會終止這個循環(huán)。

函數(shù)on_task(self, task, response)

def on_task(self, task, response):response = rebuild_response(response)project = task['project']project_data = self.project_manager.get(project, updatetime)ret = project_data['instance'].run(status_pack = {'taskid': task['taskid'],'project': task['project'],'url': task.get('url'),...}self.status_queue.put(utils.unicode_obj(status_pack))if ret.follows:self.newtask_queue.put([utils.unicode_obj(newtask) for newtask in ret.follows])for project, msg, url in ret.messages:self.inqueue.put(({...},{...}))return True

函數(shù)on_task()是真正干活的方法。

它嘗試利用輸入的任務找到任務所屬的項目。然后它運行項目中的定制腳本。最后它分析定制腳本返回的響應response。如果一切順利,將會創(chuàng)建一個包含所有我們從網(wǎng)頁上得到的信息的字典。最后將字典放到隊列status_queue中,稍后它會被調(diào)度程序重新使用。

如果在分析的頁面中有一些新的鏈接需要處理,新鏈接會被放入到隊列newtask_queue中,并在稍后被調(diào)度程序使用。

現(xiàn)在,如果有需要的話,pyspider會將結(jié)果發(fā)送給其他項目。

最后如果發(fā)生了一些錯誤,像頁面返回錯誤,錯誤信息會被添加到日志中。

?

?

Scrapy

?

Scrapy是一個為了爬取網(wǎng)站數(shù)據(jù),提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應用框架。 可以應用在包括數(shù)據(jù)挖掘,信息處理或存儲歷史數(shù)據(jù)等一系列的程序中。
其最初是為了頁面抓取 (更確切來說, 網(wǎng)絡抓取 )所設(shè)計的, 也可以應用在獲取API所返回的數(shù)據(jù)(例如 Amazon Associates Web Services ) 或者通用的網(wǎng)絡爬蟲。Scrapy用途廣泛,可以用于數(shù)據(jù)挖掘、監(jiān)測和自動化測試

Scrapy 使用了 Twisted?異步網(wǎng)絡庫來處理網(wǎng)絡通訊。整體架構(gòu)大致如下

?

Scrapy主要包括了以下組件:

  • 1. 引擎(Scrapy): 用來處理整個系統(tǒng)的數(shù)據(jù)流處理, 觸發(fā)事務(框架核心)
  • 2. 調(diào)度器(Scheduler): 用來接受引擎發(fā)過來的請求, 壓入隊列中, 并在引擎再次請求的時候返回. 可以想像成一個URL(抓取網(wǎng)頁的網(wǎng)址或者說是鏈接)的優(yōu)先隊列, 由它來決定下一個要抓取的網(wǎng)址是什么, 同時去除重復的網(wǎng)址
  • 3. 下載器(Downloader): 用于下載網(wǎng)頁內(nèi)容, 并將網(wǎng)頁內(nèi)容返回給蜘蛛(Scrapy下載器是建立在twisted這個高效的異步模型上的)
  • 4. 爬蟲(Spiders): 爬蟲是主要干活的, 用于從特定的網(wǎng)頁中提取自己需要的信息, 即所謂的實體(Item)。用戶也可以從中提取出鏈接,讓Scrapy繼續(xù)抓取下一個頁面
  • 5. 項目管道(Pipeline): 負責處理爬蟲從網(wǎng)頁中抽取的實體,主要的功能是持久化實體、驗證實體的有效性、清除不需要的信息。當頁面被爬蟲解析后,將被發(fā)送到項目管道,并經(jīng)過幾個特定的次序處理數(shù)據(jù)。
  • 6. 下載器中間件(Downloader Middlewares): 位于Scrapy引擎和下載器之間的框架,主要是處理Scrapy引擎與下載器之間的請求及響應。
  • 7. 爬蟲中間件(Spider Middlewares): 介于Scrapy引擎和爬蟲之間的框架,主要工作是處理蜘蛛的響應輸入和請求輸出。
  • 8. 調(diào)度中間件(Scheduler Middewares): 介于Scrapy引擎和調(diào)度之間的中間件,從Scrapy引擎發(fā)送到調(diào)度的請求和響應。

Scrapy運行流程大概如下:

  • 1. 首先,引擎從調(diào)度器中取出一個鏈接(URL)用于接下來的抓取
  • 2. 引擎把URL封裝成一個請求(Request)傳給下載器,下載器把資源下載下來,并封裝成應答包(Response)
  • 3. 然后,爬蟲解析Response
  • 4. 若是解析出實體(Item),則交給實體管道進行進一步的處理。
  • 5. 若是解析出的是鏈接(URL),則把URL交給Scheduler等待抓取

?

安裝

?

1. pip。首先確保你已經(jīng)安裝了pip,若沒有安裝,請參照 pip安裝

2. phantomjs。PhantomJS 是一個基于 WebKit 的服務器端 JavaScript API。它全面支持web而不需瀏覽器支持,其快速、原生支持各種Web標準:DOM 處理、CSS 選擇器、JSON、Canvas 和 SVG。 PhantomJS 可以用于頁面自動化、網(wǎng)絡監(jiān)測、網(wǎng)頁截屏以及無界面測試等。phantomjs安裝

3. pyspider。直接利用 pip 安裝即可:pip install pyspider。如果你是 Ubuntu 用戶,請?zhí)崆鞍惭b好以下支持類庫

sudo apt-get install python python-dev python-distribute python-pip libcurl4-openssl-dev libxml2-dev libxslt1-dev python-lxml

4. 測試。如果安裝過程沒有提示任何錯誤,那就證明一些OK。命令行輸入:pyspider all (這句命令的意思是,運行 pyspider 并 啟動它的所有組件。)。然后瀏覽器訪問 http://localhost:5000 觀察一下效果,如果可以正常出現(xiàn) PySpider 的頁面,那證明一切OK,在此附圖一張,這是我寫了幾個爬蟲之后的界面。

接下來我會進一步介紹這個框架的使用。

?

?

PySpider的用法

?

1. 抓取淘寶MM照片

PySpider 是一個非常方便并且功能強大的爬蟲框架,支持多線程爬取、JS動態(tài)解析,提供了可操作界面、出錯重試、定時爬取等等的功能,使用非常人性化。

爬取目標網(wǎng)站:https://mm.taobao.com/json/request_top_list.htm?page=1,大家打開之后可以看到許多淘寶MM的列表。

列表有多少?

https://mm.taobao.com/json/request_top_list.htm?page=10000,第10000頁都有,看你想要多少。我什么也不知道。

隨機點擊一位 MM 的姓名,可以看到她的基本資料。

可以看到圖中有一個個性域名,我們復制到瀏覽器打開。mm.taobao.com/tyy6160

嗯,往下拖,海量的 MM 圖片都在這里了,怎么辦你懂得,我們要把她們的照片和個人信息都存下來。

P.S. 注意圖中進度條!你猜有多少圖片~

安裝成功之后,跟我一步步地完成一個網(wǎng)站的抓取,你就會明白 PySpider 的基本用法了。

命令行下執(zhí)行:pyspider all。這句命令的意思是,運行 pyspider 并 啟動它的所有組件。

可以發(fā)現(xiàn)程序已經(jīng)正常啟動,并在 5000 這個端口運行。接下來在瀏覽器中輸入 http://localhost:5000,可以看到 PySpider 的主界面,點擊右下角的 Create,命名為 taobaomm,當然名稱你可以隨意取,繼續(xù)點擊 Create。

這樣我們會進入到一個爬取操作的頁面。

?

整個頁面分為兩欄,左邊是爬取頁面預覽區(qū)域,右邊是代碼編寫區(qū)域。下面對區(qū)塊進行說明:

左側(cè)綠色區(qū)域:這個請求對應的 JSON 變量,在 PySpider 中,其實每個請求都有與之對應的 JSON 變量,包括回調(diào)函數(shù),方法名,請求鏈接,請求數(shù)據(jù)等等。

綠色區(qū)域右上角Run:點擊右上角的 run 按鈕,就會執(zhí)行這個請求,可以在左邊的白色區(qū)域出現(xiàn)請求的結(jié)果。

左側(cè) enable css selector helper: 抓取頁面之后,點擊此按鈕,可以方便地獲取頁面中某個元素的 CSS 選擇器。

左側(cè) web: 即抓取的頁面的實時預覽圖。

左側(cè) html: 抓取頁面的 HTML 代碼。

左側(cè) follows: 如果當前抓取方法中又新建了爬取請求,那么接下來的請求就會出現(xiàn)在 follows 里。

左側(cè) messages: 爬取過程中輸出的一些信息。

右側(cè)代碼區(qū)域: 你可以在右側(cè)區(qū)域書寫代碼,并點擊右上角的 Save 按鈕保存。

右側(cè) WebDAV Mode: 打開調(diào)試模式,左側(cè)最大化,便于觀察調(diào)試。

依然是上面那個網(wǎng)址,https://mm.taobao.com/json/request_top_list.htm?page=1,其中 page 參數(shù)代表頁碼。所以我們暫時抓取前 30 頁。頁碼到最后可以隨意調(diào)整。

首先我們定義基地址,然后定義爬取的頁碼和總頁碼。

from pyspider.libs.base_handler import *class Handler(BaseHandler):crawl_config = {}def __init__(self):self.base_url = 'https://mm.taobao.com/json/request_top_list.htm?page='self.page_num = 1self.total_num = 30@every(minutes=24 * 60)def on_start(self):while self.page_num <= self.total_num:url = self.base_url + str(self.page_num)print urlself.crawl(url, callback=self.index_page)self.page_num += 1@config(age=10 * 24 * 60 * 60)def index_page(self, response):for each in response.doc('a[href^="http"]').items():self.crawl(each.attr.href, callback=self.detail_page)@config(priority=2)def detail_page(self, response):return {"url": response.url,"title": response.doc('title').text(),}

點擊 save 保存代碼,然后點擊左邊的 run,運行代碼。

運行后我們會發(fā)現(xiàn) follows 出現(xiàn)了 30 這個數(shù)字,說明我們接下來有 30 個新請求,點擊可查看所有爬取列表。另外控制臺也有輸出,將所有要爬取的 URL 打印了出來。

然后我們點擊左側(cè)任意一個綠色箭頭,可以繼續(xù)爬取這個頁面。例如點擊第一個 URL,來爬取這個 URL

點擊之后,再查看下方的 web 頁面,可以預覽實時頁面,這個頁面被我們爬取了下來,并且回調(diào)到 index_page 函數(shù)來處理,目前 index_page 函數(shù)我們還沒有處理,所以是繼續(xù)構(gòu)件了所有的鏈接請求。

好,接下來我們怎么辦?當然是進入到 MM 到個人頁面去爬取了。

爬取到了 MM 的列表,接下來就要進入到 MM 詳情頁了,修改 index_page 方法。

def index_page(self, response):for each in response.doc('.lady-name').items():self.crawl(each.attr.href, callback=self.detail_page)

其中 response 就是剛才爬取的列表頁,response 其實就相當于列表頁的 html 代碼,利用 doc 函數(shù),其實是調(diào)用了 PyQuery,用 CSS 選擇器得到每一個MM的鏈接,然后重新發(fā)起新的請求。比如,我們這里拿到的 each.attr.href 可能是 mm.taobao.com/self/model_card.htm?user_id=687471686,在這里繼續(xù)調(diào)用了 crawl 方法,代表繼續(xù)抓取這個鏈接的詳情。

self.crawl(each.attr.href, callback=self.detail_page)

然后回調(diào)函數(shù)就是 detail_page,爬取的結(jié)果會作為 response 變量傳過去。detail_page 接到這個變量繼續(xù)下面的分析。

好,我們繼續(xù)點擊 run 按鈕,開始下一個頁面的爬取。得到的結(jié)果是這樣的。

哦,有些頁面沒有加載出來,這是為什么?在之前的文章說過,這個頁面比較特殊,右邊的頁面使用 JS 渲染生成的,而普通的抓取是不能得到 JS 渲染后的頁面的,這可麻煩了。然而,幸運的是,PySpider 提供了動態(tài)解析 JS 的機制。

友情提示:可能有的小伙伴不知道 PhantomJS,可以參考:Python爬蟲利器五之Selenium的用法

如果已經(jīng)裝好了 PhantomJS,這時候就輪到它來出場了。在最開始運行 PySpider 的時候,使用了pyspider all命令,這個命令是把 PySpider 所有的組件啟動起來,其中也包括 PhantomJS。

所以我們代碼怎么改呢?很簡單。

def index_page(self, response):for each in response.doc('.lady-name').items():self.crawl(each.attr.href, callback=self.detail_page, fetch_type='js')

只是簡單地加了一個 fetch_type=’js’,點擊綠色的返回箭頭,重新運行一下??梢园l(fā)現(xiàn),頁面已經(jīng)被我們成功加載出來了,簡直不能更帥!

看下面的個性域名,所有我們需要的 MM 圖片都在那里面了,所以我們需要繼續(xù)抓取這個頁面。

好,繼續(xù)修改 detail_page 方法,然后增加一個 domain_page 方法,用來處理每個 MM 的個性域名。

def detail_page(self, response):domain = 'https:' + response.doc('.mm-p-domain-info li > span').text()print domainself.crawl(domain, callback=self.domain_page)def domain_page(self, response):pass

好,繼續(xù)重新 run,預覽一下頁面,終于,我們看到了 MM 的所有圖片。

照片都有了,那么我們就偷偷地下載下來吧~。完善 domain_page 代碼,實現(xiàn)保存簡介和遍歷保存圖片的方法。

在這里,PySpider 有一個特點,所有的 request 都會保存到一個隊列中,并具有去重和自動重試機制。所以,我們最好的解決方法是,把每張圖片的請求都寫成一個 request,然后成功后用文件寫入即可,這樣會避免圖片加載不全的問題。

曾經(jīng)在之前文章寫過圖片下載和文件夾創(chuàng)建的過程,在這里就不多贅述原理了,直接上寫好的工具類,后面會有完整代碼。

import osclass Deal:def __init__(self):self.path = DIR_PATHif not self.path.endswith('/'):self.path = self.path + '/'if not os.path.exists(self.path):os.makedirs(self.path)def mkDir(self, path):path = path.strip()dir_path = self.path + pathexists = os.path.exists(dir_path)if not exists:os.makedirs(dir_path)return dir_pathelse:return dir_pathdef saveImg(self, content, path):f = open(path, 'wb')f.write(content)f.close()def saveBrief(self, content, dir_path, name):file_name = dir_path + "/" + name + ".txt"f = open(file_name, "w+")f.write(content.encode('utf-8'))def getExtension(self, url):extension = url.split('.')[-1]return extension

這里面包含了四個方法。

mkDir:創(chuàng)建文件夾,用來創(chuàng)建 MM 名字對應的文件夾。 saveBrief: 保存簡介,保存 MM 的文字簡介。 saveImg: 傳入圖片二進制流以及保存路徑,存儲圖片。 getExtension: 獲得鏈接的后綴名,通過圖片 URL 獲得。

然后在 domain_page 中具體實現(xiàn)如下

def domain_page(self, response):name = response.doc('.mm-p-model-info-left-top dd > a').text()dir_path = self.deal.mkDir(name)brief = response.doc('.mm-aixiu-content').text()if dir_path:imgs = response.doc('.mm-aixiu-content img').items()count = 1self.deal.saveBrief(brief, dir_path, name)for img in imgs:url = img.attr.srcif url:extension = self.deal.getExtension(url)file_name = name + str(count) + '.' + extensioncount += 1self.crawl(img.attr.src, callback=self.save_img,save={'dir_path': dir_path, 'file_name': file_name})def save_img(self, response):content = response.contentdir_path = response.save['dir_path']file_name = response.save['file_name']file_path = dir_path + '/' + file_nameself.deal.saveImg(content, file_path)

以上方法首先獲取了頁面的所有文字,然后調(diào)用了 saveBrief 方法存儲簡介。

然后遍歷了 MM 所有的圖片,并通過鏈接獲取后綴名,和 MM 的姓名以及自增計數(shù)組合成一個新的文件名,調(diào)用 saveImg 方法保存圖片。

基本的東西都寫好了。接下來。繼續(xù)完善一下代碼。第一版本完成。

版本一功能:按照淘寶MM姓名分文件夾,存儲MM的 txt 文本簡介以及所有美圖至本地。

可配置項:

PAGE_START: 列表開始頁碼 PAGE_END: 列表結(jié)束頁碼 DIR_PATH: 資源保存路徑

代碼:

#!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2016-03-25 00:59:45 # Project: taobaommfrom pyspider.libs.base_handler import *PAGE_START = 1 PAGE_END = 30 DIR_PATH = '/var/py/mm'class Handler(BaseHandler):crawl_config = {}def __init__(self):self.base_url = 'https://mm.taobao.com/json/request_top_list.htm?page='self.page_num = PAGE_STARTself.total_num = PAGE_ENDself.deal = Deal()def on_start(self):while self.page_num <= self.total_num:url = self.base_url + str(self.page_num)self.crawl(url, callback=self.index_page)self.page_num += 1def index_page(self, response):for each in response.doc('.lady-name').items():self.crawl(each.attr.href, callback=self.detail_page, fetch_type='js')def detail_page(self, response):domain = response.doc('.mm-p-domain-info li > span').text()if domain:page_url = 'https:' + domainself.crawl(page_url, callback=self.domain_page)def domain_page(self, response):name = response.doc('.mm-p-model-info-left-top dd > a').text()dir_path = self.deal.mkDir(name)brief = response.doc('.mm-aixiu-content').text()if dir_path:imgs = response.doc('.mm-aixiu-content img').items()count = 1self.deal.saveBrief(brief, dir_path, name)for img in imgs:url = img.attr.srcif url:extension = self.deal.getExtension(url)file_name = name + str(count) + '.' + extensioncount += 1self.crawl(img.attr.src, callback=self.save_img,save={'dir_path': dir_path, 'file_name': file_name})def save_img(self, response):content = response.contentdir_path = response.save['dir_path']file_name = response.save['file_name']file_path = dir_path + '/' + file_nameself.deal.saveImg(content, file_path)import osclass Deal:def __init__(self):self.path = DIR_PATHif not self.path.endswith('/'):self.path = self.path + '/'if not os.path.exists(self.path):os.makedirs(self.path)def mkDir(self, path):path = path.strip()dir_path = self.path + pathexists = os.path.exists(dir_path)if not exists:os.makedirs(dir_path)return dir_pathelse:return dir_pathdef saveImg(self, content, path):f = open(path, 'wb')f.write(content)f.close()def saveBrief(self, content, dir_path, name):file_name = dir_path + "/" + name + ".txt"f = open(file_name, "w+")f.write(content.encode('utf-8'))def getExtension(self, url):extension = url.split('.')[-1]return extension

粘貼到你的 PySpider 中運行吧~。其中有一些知識點,我會在后面作詳細的用法總結(jié)。大家可以先體會一下代碼。

保存之后,點擊下方的 run,你會發(fā)現(xiàn),海量的 MM 圖片已經(jīng)涌入你的電腦啦~

項目代碼:

TaobaoMM – GitHub

?

?

?

pyspider 爬蟲教程

?

From:?https://segmentfault.com/a/1190000002477863

?

(一):HTML 和 CSS 選擇器

?

在 教程一 中,我們將要爬取的網(wǎng)站是豆瓣電影:http://movie.douban.com/

你可以在:?http://demo.pyspider.org/debug/tutorial_douban_movie?獲得完整的代碼,和進行測試。

開始之前

由于教程是基于 pyspider 的,你可以安裝一個 pyspider(Quickstart,也可以直接使用 pyspider 的 demo 環(huán)境:?http://demo.pyspider.org/。

你還應該至少對萬維網(wǎng)是什么有一個簡單的認識:

  • 萬維網(wǎng)是一個由許多互相鏈接的超文本頁面(以下簡稱網(wǎng)頁)組成的系統(tǒng)。
  • 網(wǎng)頁使用網(wǎng)址(URL)定位,并鏈接彼此
  • 網(wǎng)頁使用?HTTP?協(xié)議傳輸
  • 網(wǎng)頁使用?HTML?描述外觀和語義

所以,爬網(wǎng)頁實際上就是:

  • 找到包含我們需要的信息的網(wǎng)址(URL)列表
  • 通過 HTTP 協(xié)議把頁面下載回來
  • 從頁面的 HTML 中解析出需要的信息
  • 找到更多這個的 URL,回到 2 繼續(xù)
  • ?

    選取一個開始網(wǎng)址

    既然我們要爬所有的電影,首先我們需要抓一個電影列表,一個好的列表應該:

    • 包含足夠多的電影的 URL
    • 通過翻頁,可以遍歷到所有的電影
    • 一個按照更新時間排序的列表,可以更快抓到最新更新的電影

    我們在?http://movie.douban.com/?掃了一遍,發(fā)現(xiàn)并沒有一個列表能包含所有電影,只能退而求其次,通過抓取分類下的所有的標簽列表頁,來遍歷所有的電影:?http://movie.douban.com/tag/

    ?

    創(chuàng)建一個項目

    在 pyspider 的 dashboard 的右下角,點擊 "Create" 按鈕

    替換?on_start?函數(shù)的?self.crawl?的 URL:

    @every(minutes=24 * 60) def on_start(self):self.crawl('http://movie.douban.com/tag/', callback=self.index_page)
    • self.crawl?告訴 pyspider 抓取指定頁面,然后使用?callback?函數(shù)對結(jié)果進行解析。
    • @every?修飾器,表示?on_start?每天會執(zhí)行一次,這樣就能抓到最新的電影了。

    點擊綠色的?run?執(zhí)行,你會看到?follows?上面有一個紅色的 1,切換到?follows?面板,點擊綠色的播放按鈕:

    ?

    Tag 列表頁

    在?tag 列表頁?中,我們需要提取出所有的 電影列表頁 的 URL。你可能已經(jīng)發(fā)現(xiàn)了,sample handler 已經(jīng)提取了非常多大的 URL,所有,一種可行的提取列表頁 URL 的方法就是用正則從中過濾出來:

    import re ...@config(age=10 * 24 * 60 * 60)def index_page(self, response):for each in response.doc('a[href^="http"]').items():if re.match("http://movie.douban.com/tag/\w+", each.attr.href, re.U):self.crawl(each.attr.href, callback=self.list_page)
    • 由于 電影列表頁和 tag列表頁長的并不一樣,在這里新建了一個?callback?為?self.list_page
    • @config(age=10 * 24 * 60 * 60)?在這表示我們認為 10 天內(nèi)頁面有效,不會再次進行更新抓取

    由于 pyspider 是純 Python 環(huán)境,你可以使用 Python 強大的內(nèi)置庫,或者你熟悉的第三方庫對頁面進行解析。不過更推薦使用 CSS選擇器。

    ?

    電影列表頁

    再次點擊?run?讓我們進入一個電影列表頁(list_page)。在這個頁面中我們需要提取:

    • 電影的鏈接,例如,http://movie.douban.com/subject/1292052/
    • 下一頁的鏈接,用來翻頁

    CSS選擇器

    CSS選擇器,顧名思義,是?CSS?用來定位需要設(shè)置樣式的元素 所使用的表達式。既然前端程序員都使用 CSS選擇器 為頁面上的不同元素設(shè)置樣式,我們也可以通過它定位需要的元素。你可以在?CSS 選擇器參考手冊?這里學習更多的 CSS選擇器 語法。

    在 pyspider 中,內(nèi)置了?response.doc?的?PyQuery?對象,讓你可以使用類似 jQuery 的語法操作 DOM 元素。你可以在?PyQuery?的頁面上找到完整的文檔。

    CSS Selector Helper

    在 pyspider 中,還內(nèi)置了一個?CSS Selector Helper,當你點擊頁面上的元素的時候,可以幫你生成它的 CSS選擇器 表達式。你可以點擊?Enable CSS selector helper?按鈕,然后切換到?web?頁面:

    ?

    ?

    開啟后,鼠標放在元素上,會被黃色高亮,點擊后,所有擁有相同 CSS選擇器 表達式的元素會被高亮。表達式會被插入到 python 代碼當前光標位置。創(chuàng)建下面的代碼,將光標停留在單引號中間:

    def list_page(self, response):for each in response.doc('').items():

    點擊一個電影的鏈接,CSS選擇器 表達式將會插入到你的代碼中,如此重復,插入翻頁的鏈接:

    def list_page(self, response):for each in response.doc('HTML>BODY>DIV#wrapper>DIV#content>DIV.grid-16-8.clearfix>DIV.article>DIV>TABLE TR.item>TD>DIV.pl2>A').items():self.crawl(each.attr.href, callback=self.detail_page)# 翻頁for each in response.doc('HTML>BODY>DIV#wrapper>DIV#content>DIV.grid-16-8.clearfix>DIV.article>DIV.paginator>A').items():self.crawl(each.attr.href, callback=self.list_page)
    • 翻頁是一個到自己的?callback?回調(diào)

    電影詳情頁

    再次點擊?run,follow 到詳情頁。使用?css selector helper?分別添加電影標題,打分和導演:

    def detail_page(self, response):return {"url": response.url,"title": response.doc('HTML>BODY>DIV#wrapper>DIV#content>H1>SPAN').text(),"rating": response.doc('HTML>BODY>DIV#wrapper>DIV#content>DIV.grid-16-8.clearfix>DIV.article>DIV.indent.clearfix>DIV.subjectwrap.clearfix>DIV#interest_sectl>DIV.rating_wrap.clearbox>P.rating_self.clearfix>STRONG.ll.rating_num').text(),"導演": [x.text() for x in response.doc('a[rel="v:directedBy"]').items()],}

    注意,你會發(fā)現(xiàn)?css selector helper?并不是總是能提取到合適的 CSS選擇器 表達式。你可以在?Chrome Dev Tools?的幫助下,寫一個合適的表達式:

    右鍵點擊需要提取的元素,點擊審查元素。你并不需要像自動生成的表達式那樣寫出所有的祖先節(jié)點,只要寫出那些能區(qū)分你不需要的元素的關(guān)鍵節(jié)點的屬性就可以了。不過這需要抓取和網(wǎng)頁前端的經(jīng)驗。所以,學習抓取的最好方法就是學會這個頁面/網(wǎng)站是怎么寫的。

    你也可以在 Chrome Dev Tools 的 Javascript Console 中,使用?$$(a[rel="v:directedBy"])?測試 CSS Selector。

    開始抓取

  • 使用?run?單步調(diào)試你的代碼,對于用一個?callback?最好使用多個頁面類型進行測試。然后保存。
  • 回到 Dashboard,找到你的項目
  • 將?status?修改為?DEBUG?或?RUNNING
  • 按?run?按鈕
  • ?

    ?

    ?

    (二):AJAX 和 HTTP

    ?

    From:?https://segmentfault.com/a/1190000002477870

    在上面教程中,用?self.crawl?API 抓取豆瓣電影的 HTML 內(nèi)容,并使用 CSS 選擇器解析了一些內(nèi)容。不過,現(xiàn)在的網(wǎng)站通過使用?AJAX?等技術(shù),在你與服務器交互的同時,不用重新加載整個頁面。但是,這些交互手段,讓抓取變得稍微難了一些:你會發(fā)現(xiàn),這些網(wǎng)頁在抓回來后,和瀏覽器中的并不相同。你需要的信息并不在返回 HTML 代碼中。

    在這一篇教程中,我們會討論這些技術(shù) 和 抓取他們的方法。(英文版:AJAX-and-more-HTTP

    ?

    AJAX

    AJAX?是 Asynchronous JavaScript and XML(異步的 JavaScript 和 XML)的縮寫。AJAX 通過使用原有的 web 標準組件,實現(xiàn)了在不重新加載整個頁面的情況下,與服務器進行數(shù)據(jù)交互。例如在新浪微博中,你可以展開一條微博的評論,而不需要重新加載,或者打開一個新的頁面。但是這些內(nèi)容并不是一開始就在頁面中的(這樣頁面就太大了),而是在你點擊的時候被加載進來的。這就導致了你抓取這個頁面的時候,并不能獲得這些評論信息(因為你沒有『展開』)。

    AJAX?的一種常見用法是使用?AJAX?加載?JSON?數(shù)據(jù),然后在瀏覽器端渲染。如果能直接抓取到?JSON?數(shù)據(jù),會比 HTML 更容易解析。

    當一個網(wǎng)站使用了 AJAX 的時候,除了用 pyspider 抓取到的頁面和瀏覽器看到的不同以外。你在瀏覽器中打開這樣的頁面,或者點擊『展開』的時候,常常會看到『加載中』或者類似的圖標/動畫。例如,當你嘗試抓取:http://movie.douban.com/explore

    ?

    你會發(fā)現(xiàn)電影是『載入中...』

    ?

    找到真實的請求

    由于 AJAX 實際上也是通過 HTTP 傳輸數(shù)據(jù)的,所以我們可以通過?Chrome Developer Tools?找到真實的請求,直接發(fā)起真實請求的抓取就可以獲得數(shù)據(jù)了。

  • 打開一個新窗口
  • 按?Ctrl+Shift+I?(在 Mac 上請按?Cmd+Opt+I) 打開開發(fā)者工具。
  • 切換到網(wǎng)絡( Netwotk 面板)
  • 在窗口中打開?http://movie.douban.com/explore
  • 在頁面加載的過程中,你會在面板中看到所有的資源請求。

    AJAX 一般是通過?XMLHttpRequest?對象接口發(fā)送請求的,XMLHttpRequest 一般被縮寫為 XHR。點擊網(wǎng)絡面板上漏斗形的過濾按鈕,過濾出 XHR 請求。挨個查看每個請求,通過訪問路徑和預覽,找到包含信息的請求:http://movie.douban.com/j/searchX61Xsubjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0

    ?

    在豆瓣這個例子中,XHR 請求并不多,可以挨個查看來確認。但在 XHR 請求較多的時候,可能需要結(jié)合觸發(fā)動作的時間,請求的路徑等信息幫助在大量的請求中找到包含信息的關(guān)鍵請求。這需要抓取或者前端的相關(guān)經(jīng)驗。所以,有一個我一直在提的觀點,學習抓取的最好方法是:學會寫網(wǎng)站。

    現(xiàn)在可以在新窗口中打開?http://movie.douban.com/j/searchX67Xsubjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0,你會看到包含電影數(shù)據(jù)的?JSON?原始數(shù)據(jù)。推薦安裝?JSONView(Firfox版)插件,這樣可以看到更好看的 JSON 格式,展開折疊列等功能。然后,我們根據(jù)?JSON?數(shù)據(jù),編寫一個提取電影名和評分的腳本:

    class Handler(BaseHandler):def on_start(self):self.crawl('http://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0',callback=self.json_parser)def json_parser(self, response):return [{"title": x['title'],"rate": x['rate'],"url": x['url']} for x in response.json['subjects']]
    • 你可以使用?response.json?將結(jié)果轉(zhuǎn)為一個 python 的?dict?對象

    你可以在?http://demo.pyspider.org/debug/tutorial_douban_explore?獲得完整的代碼,并進行調(diào)試。腳本中還有一個使用?PhantomJS?渲染的提取版本,將會在下一篇教程中介紹。

    ?

    HTTP

    HTTP?是用來傳輸網(wǎng)頁內(nèi)容的協(xié)議。在前面已經(jīng)通過?self.crawl?接口提交了 URL 進行了抓取。這些抓取就是通過 HTTP 協(xié)議傳輸?shù)摹?/p>

    在抓取過程中,你可能會遇到類似?403 Forbidden,或者需要登錄的情況,這時候你就需要正確的 HTTP 參數(shù)進行抓取了。

    一個典型的 HTTP 請求包如下,這個請求是發(fā)往?http://example.com/?的:

    GET / HTTP/1.1 Host: example.com Connection: keep-alive Cache-Control: max-age=0 Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8 User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.45 Safari/537.36 Referer: http://en.wikipedia.org/wiki/Example.com Accept-Encoding: gzip, deflate, sdch Accept-Language: zh-CN,zh;q=0.8 If-None-Match: "359670651" If-Modified-Since: Fri, 09 Aug 2013 23:54:35 GMT
    • 請求的第一行包含?method,?path?和 HTTP 協(xié)議的版本信息
    • 余下的行被稱為 header,是以?key: value?的形式呈現(xiàn)的
    • 如果是 POST 請求,在請求結(jié)尾可能還會有?body?內(nèi)容

    你可以通過前面用過的?Chrome Developer Tools?工具查看到這些信息:

    ?

    ?

    在大多數(shù)時候,使用正確的?method,?path,?headers?和?body?總是能抓取到你需要的信息的。

    HTTP Method

    HTTP Method?告訴服務器對 URL 資源期望進行的操作。例如在打開一個 URL 的時候使用的是 GET 方式,而在提交數(shù)據(jù)的時候一般使用 POST。

    TODO: need example here

    HTTP Headers

    HTTP Headers 是請求所帶的一個參數(shù)列表,你可以在?這里?找到完整的常用 Headers 列表。一些常用的需要注意的有:

    User-Agent

    UA 是標識你使用的瀏覽器,或抓取程序的一段字符串。pyspider 使用的默認 UA 是?pyspider/VERSION (+http://pyspider.org/)。網(wǎng)站常用這個字符串來區(qū)分用戶的操作系統(tǒng)和瀏覽器,以及判斷對方是否是爬蟲。所以在抓取的時候,常常會對 UA 進行偽裝。

    在 pyspider 中,你可以通過?self.crawl(URL, headers={'User-Agent': 'pyspider'}),或者是?crawl_config = {'headers': {'User-Agent': 'xxxx'}}?來指定腳本級別的 UA。詳細請查看?API 文檔。

    Referer

    Referer 用于告訴服務器,你訪問的上一個網(wǎng)頁是什么。常常被用于防盜鏈,在抓取圖片的時候可能會用到。

    X-Requested-With

    當使用 XHR 發(fā)送 AJAX 請求時會帶上的 Header,常被用于判斷是不是 AJAX 請求。例如在?北郵人論壇?中,你需要:

    def on_start(self):self.crawl('http://bbs.byr.cn/board/Python', headers={'X-Requested-With': 'XMLHttpRequest'}, callback=self.index_page)

    帶有?headers={'X-Requested-With': 'XMLHttpRequest'}?才能抓取到內(nèi)容。

    HTTP Cookie

    雖然?Cookie?只是 HTTP Header 中的一個,但是因為非常重要,但是拿出來說一下。Cookie?被 HTTP 請求用來區(qū)分、追蹤用戶的身份,當你在一個網(wǎng)站登錄的時候,就是通過寫入?Cookie?字段來記錄登錄狀態(tài)的。

    當遇到需要登錄的網(wǎng)站,你需要通過設(shè)置 Cookie 參數(shù),來請求需要登錄的內(nèi)容。Cookie 可以通過開發(fā)者工具的請求面板,或者是資源面板中獲得。在 pyspider 中,你也可以使用?response.cookies?獲得返回的 cookie,并使用?self.crawl(URL, cookie={'key': 'value'})?來設(shè)置請求的 Cookie 參數(shù)。

    ?

    ?

    (三):使用 PhantomJS 渲染帶 JS 的頁面

    ?

    在上兩篇教程中,我們學習了怎么從 HTML 中提取信息,也學習了怎么處理一些請求復雜的頁面。但是有一些頁面,它實在太復雜了,無論是分析 API 請求的地址,還是渲染時進行了加密,讓直接抓取請求非常麻煩。這時候就是?PhantomJS?大顯身手的時候了。

    在使用?PhantomJS?之前,你需要安裝它(安裝文檔)。當你安裝了之后,在運行?all?模式的 pyspider 時就會自動啟用了。當然,你也可以在?demo.pyspider.org?上嘗試。

    使用 PhantomJS

    當 pyspider 連上 PhantomJS 代理后,你就能通過在?self.crawl?中添加?fetch_type='js'?的參數(shù),開啟使用 PhantomJS 抓取。例如,在教程二中,我們嘗試抓取的?http://movie.douban.com/explore?就可以通過 PhantomJS 直接抓取:

    class Handler(BaseHandler):def on_start(self):self.crawl('http://movie.douban.com/explore',fetch_type='js', callback=self.phantomjs_parser)def phantomjs_parser(self, response):return [{"title": "".join(s for s in x('p').contents() if isinstance(s, basestring)).strip(),"rate": x('p strong').text(),"url": x.attr.href,} for x in response.doc('a.item').items()]
    • 我在這里使用了一些 PyQuery 的 API,你可以在?PyQuery complete API?獲得完整的 API 手冊。

    在頁面上執(zhí)行自定義腳本

    你會發(fā)現(xiàn),在上面我們使用?PhantomJS?抓取的豆瓣熱門電影只有 20 條。當你點擊『加載更多』時,能獲得更多的熱門電影。為了獲得更多的電影,我們可以使用?self.crawl?的?js_script?參數(shù),在頁面上執(zhí)行一段腳本,點擊加載更多:

    def on_start(self):self.crawl('http://movie.douban.com/explore#more',fetch_type='js', js_script="""function() {setTimeout("$('.more').click()", 1000);}""", callback=self.phantomjs_parser)
    • 這個腳本默認在頁面加載結(jié)束后執(zhí)行,你可以通過?js_run_at?參數(shù)?修改這個行為
    • 由于是 AJAX 異步加載的,在頁面加載完成時,第一頁的電影可能還沒有加載完,所以我們用?setTimeout?延遲 1 秒執(zhí)行。
    • 你可以間隔一定時間,多次點擊,這樣可以加載更多頁。
    • 由于相同 URL (實際是相同 taskid) 的任務會被去重,所以這里為 URL 加了一個?#more

    上面兩個例子,都可以在?http://demo.pyspider.org/debug/tutorial_douban_explore?中找到。

    ?

    ?

    漫談Pyspider網(wǎng)絡爬蟲的實踐

    轉(zhuǎn)載地址

    為什么是Python

    寫網(wǎng)絡爬蟲的語言有很多,編程的語言更多。個人認為Python是一種工具型的語言,上手快,語法簡單(相比于C/C++/JAVA族),各種功能庫豐富而且小巧單一(每個獨立的庫只做一件事情),所以編程就像是在玩樂高積木,照著自己設(shè)計好的流程,拼接就行了。當然,這是筆者個人的經(jīng)驗和喜好。如果你有自己擅長并喜歡的,大可用自己的去實現(xiàn)一個網(wǎng)絡爬蟲系統(tǒng),這個不在本文的討論范圍之類了。
    有關(guān)幾種編程語言編寫網(wǎng)絡爬蟲的比較,可以參考知乎上的文章?PHP, Python, Node.js 哪個比較適合寫爬蟲?

    ?

    為什么是Pyspider

    Python有很多成熟的網(wǎng)絡爬蟲框架, 知乎上很多大??偨Y(jié)了一些實踐經(jīng)驗,具體可以參考如何入門 Python 爬蟲?
    很多推薦用requests做請求,query/soup做頁面數(shù)據(jù)(Html/Xml)解析,看起來很靈活,然而,一個比較完善的網(wǎng)絡爬蟲系統(tǒng),所需要提供的功能可能遠遠不止這些。也有推薦Scrapy的,雖然看起來功能非常強大,但是這個框架上手需要一些時間,有一定的學習成本,相對于新手來說,很難快速專注爬蟲業(yè)務的開發(fā)。
    Pyspider是Roy Binux開發(fā)的一款開源的網(wǎng)絡爬蟲系統(tǒng),它不止是一個爬蟲框架,而是一套完備的爬蟲系統(tǒng),使用這套系統(tǒng)你只需要關(guān)注兩件事情

    • 目標網(wǎng)站上的內(nèi)容元素的解析,而且只需要關(guān)注解析什么,解析框架也有提供,并且提供了可視化工具輔助從目標頁面摳取需要解析的元素CSS屬性
    • 解析出來的內(nèi)容元素如何保存,你只需要關(guān)注數(shù)據(jù)庫表字段的設(shè)計,然后把解析出來的頁面元素內(nèi)容保存到數(shù)據(jù)庫表中
    • 那么,剩下的幾乎所有事情,就交給Pyspider吧

    是不是聽上去感覺很簡單,那么,開始動手吧,跟著這篇官方文檔,最快幾分鐘的功夫,你就可以學會從2048(草榴)找到真愛了。

    簡單的爬取看官方文檔就可以了,不過,實踐過程中總會遇到各種問題,那么,看看這些如何解決的吧。

    如何模擬登陸

    有些網(wǎng)站內(nèi)容的展示需要用戶登錄,那么如果需要爬取這樣的頁面內(nèi)容,我們的爬蟲就需要模擬用戶登陸。網(wǎng)站一般在頁面跳轉(zhuǎn)或者刷新的時候,也需要獲取登錄信息以確定這個頁面的訪問用戶是登陸過的。如果每次都需要用戶重新登錄,那么這種體驗就太爛了,需要一種機制把之前用戶登陸的信息保存起來,而且一定是保存在瀏覽器可以訪問的本地存儲上,這樣,用戶在頁面跳轉(zhuǎn)或者頁面刷新的時候,登錄信息被網(wǎng)站自動讀取,就不需要用戶頻繁登錄了。而這個保存的地方,叫做Cookie。
    爬蟲需要做的事情,一是模擬登陸,拿到Cookie數(shù)據(jù),然后保存下來,二是每次去訪問網(wǎng)頁的時候,將Cookie信息傳遞給請求,這樣就可以正常爬到需要用戶登錄的數(shù)據(jù)了。

    我們先設(shè)計一個登錄類,用來管理登錄的請求和數(shù)據(jù)

    import urllib import urllib2 import lxml.html as HTMLclass Login(object):def __init__(self, username, password, login_url, post_url_prefix):self.username = usernameself.password = passwordself.login_url = login_urlself.post_url_prefix = post_url_prefixdef login(self):post_url, post_data = self.getPostData()post_url = self.post_url_prefix + post_urlreq = urllib2.Request(url = post_url, data = post_data)resp = urllib2.urlopen(req)return Truedef getPostData(self):url = self.login_url.strip()if not re.match(r'^http://', url):return None, Nonereq = urllib2.Request(url)resp = urllib2.urlopen(req)login_page = resp.read()doc = HTML.fromstring (login_page)post_url = doc.xpath("//form[@method='post' and @id='lsform']/@action")[0]cookietime = doc.xpath("//input[@name='cookietime' and @id='ls_cookietime']/@value")[0]username = self.usernamepassword = self.passwordpost_data = urllib.urlencode({'fastloginfield' : 'username','username' : username,'password' : password,'quickforward' : 'no','handlekey' : 'ls','cookietime' : cookietime,})return post_url, post_data

    代碼解釋

    • 用戶名username, 密碼password, 目標網(wǎng)站的登錄頁面地址login_url, 目標網(wǎng)站的主域名post_url_prefix,這些參數(shù)從外部傳入,目標網(wǎng)站的登錄頁面地址也有可能就是網(wǎng)站的主頁地址。
    • getPostData首先向目標網(wǎng)站的登錄頁面地址發(fā)起一個請求,然后解析這個頁面的數(shù)據(jù),解析出登錄請求的目標地址和post請求的數(shù)據(jù)(登錄請求一般為post請求),然后返回這兩個參數(shù)

    設(shè)計一個方法,這個方法用來獲取爬取網(wǎng)頁請求需要的Cookie數(shù)據(jù)。

    import os import hashlib import cookielibLOGIN_URL = 'http://登錄頁面地址' USER_NAME = '用戶名' PASSWORD = '密碼'HOST = '目標網(wǎng)頁主域名' REFERER = 'http://目標網(wǎng)頁主域名/' POST_URL_PREFIX = 'http://目標網(wǎng)頁主域名/'# !!! Notice !!! # Tasks that share the same account MUST share the same cookies file COOKIES_FILE = '/tmp/pyspider.%s.%s.cookies' % (HOST, hashlib.md5(USER_NAME).hexdigest()) COOKIES_DOMAIN = HOSTUSER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.135 Safari/537.36' HTTP_HEADERS = {'Accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Encoding' : 'gzip, deflate, sdch','Accept-Language' : 'zh-CN,zh;q=0.8,en;q=0.6','Connection' : 'keep-alive','DNT' : '1','Host' : HOST,'Referer' : REFERER,'User-Agent' : USER_AGENT, }def getCookies():cookiesJar = cookielib.MozillaCookieJar(COOKIES_FILE)if not os.path.isfile(COOKIES_FILE):cookiesJar.save()cookiesJar.load (COOKIES_FILE)cookieProcessor = urllib2.HTTPCookieProcessor(cookiesJar)cookieOpener = urllib2.build_opener(cookieProcessor, urllib2.HTTPHandler)for item in HTTP_HEADERS:cookieOpener.addheaders.append ((item ,HTTP_HEADERS[item]))urllib2.install_opener(cookieOpener)if len(cookiesJar) == 0:login = Login(USER_NAME, PASSWORD, LOGIN_URL, POST_URL_PREFIX)if login.login():cookiesJar.save()else:return NonecookiesDict = {}for cookie in cookiesJar:if COOKIES_DOMAIN in cookie.domain:cookiesDict[cookie.name] = cookie.valuereturn cookiesDict

    代碼解釋

    • USER_NAME PASSWORD LOGIN_URL POST_URL_PREFIX 分別定義了用戶名/密碼/登錄頁面地址/目標網(wǎng)頁前綴
    • 如果從COOKIES_FILE讀取出的Cookie信息為空,那么就調(diào)用Login做登錄流程,并且把獲取到的結(jié)果保存,如果Cookie不為空,就返回Cookie信息到字典cookiesDict中

    Pyspider每次爬取請求都帶上Cookie字典,這樣,向目標地址發(fā)請求就可以獲取到需要登錄才能訪問到的數(shù)據(jù)了。

    cookies = getCookies() self.crawl(url, cookies = cookies, callback=self.index_page)

    如何解析爬取下來的內(nèi)容

    爬取的內(nèi)容通過回調(diào)的參數(shù)response返回,response有多種解析方式

    • 如果返回的數(shù)據(jù)是json,則可以通過response.json訪問
    • response.doc返回的是PyQuery對象
    • response.etree返回的是lxml對象
    • response.text返回的是unicode文本
    • response.content返回的是字節(jié)碼

    所以返回數(shù)據(jù)可以是5種形式,unicode和字節(jié)碼不是結(jié)構(gòu)化的數(shù)據(jù),很難解析,這里就不贅述了,json需要特定的條件,而且解析相對簡單,也不必說。
    常用的就是PyQuery和lxml的方式,關(guān)于lxml,可以采用XPath的語法來解析,比如前面模擬登錄中就采用了xpath的語法解析網(wǎng)頁,具體可參考lxml和XPath的相關(guān)文檔。

    XPath選擇器參考

    選擇器示例示例說明
    nodenamebookstore選擇所有名稱叫做”bookstore”的節(jié)點
    /bookstore/book選擇”bookstore”的節(jié)點的所有”book”子節(jié)點
    ////book選擇文檔中所有名稱叫做”book”的節(jié)點,不管它們的父節(jié)點叫做什么
    .?選擇當前的節(jié)點
    ..?選擇當前節(jié)點的父節(jié)點
    @//@lang選擇所有名稱叫做”lang”的屬性
    ?bookstore//book選擇節(jié)點”bookstore”所有叫做”book”的子孫節(jié)點,bookstore不一定是book的父節(jié)點
    ?/bookstore/book[1]選擇節(jié)點”bookstore”的第一個叫做”book”的子節(jié)點
    ?/bookstore/book[last()]選擇節(jié)點”bookstore”的最后一個叫做”book”的子節(jié)點
    ?//title[@lang]選擇所有有一個屬性名叫做”lang”的title節(jié)點
    ?//title[@lang=’en’]選擇所有有一個屬性”lang”的值為”en”的title節(jié)點
    */bookstore/*選擇”bookstore”節(jié)點的所有子節(jié)點
    ?//*選擇文檔中所有的節(jié)點
    @*//title[@*]選擇所有的”title”節(jié)點至少含有一個屬性,屬性名稱不限

    PyQuery可以采用CSS選擇器作為參數(shù)對網(wǎng)頁進行解析。
    類似這樣

    response.doc('.ml.mlt.mtw.cl > li').items()

    或者這樣

    response.doc('.pti > .pdbt > .authi > em > span').attr('title')

    關(guān)于PyQuery更多玩法,可以參考PyQuery complete API

    CSS選擇器

    選擇器示例示例說明
    .class.introSelects all elements with class=”intro”
    #id#firstnameSelects the element with id=”firstname”
    elementpSelects all <p> elements
    element,elementdiv, pSelects all <div> elements and all <p> elements
    element elementdiv pSelects all <p> elements inside <div> elements
    element>elementdiv > pSelects all <p> elements where the parent is a <div> element
    [attribute][target]Selects all elements with a target attribute
    [attribute=value][target=_blank]Selects all elements with target=”_blank”
    [attribute^=value]a[href^=”https”]Selects every <a> element whose href attribute value begins with “https”
    [attribute$=value]a[href$=”.pdf”]Selects every <a> element whose href attribute value ends with “.pdf”
    [attribute*=value]a[href*=”w3schools”]Selects every <a> element whose href attribute value contains the substring “w3schools”
    :checkedinput:checkedSelects every checked <input> element

    更多詳情請參考CSS Selector Reference

    如何將數(shù)據(jù)保存到MySQL中

    將MySQL的數(shù)據(jù)庫訪問封裝成一個類

    import hashlib import unicodedata import mysql.connector from mysql.connector import errorcodeclass MySQLDB:username = '數(shù)據(jù)庫用戶名'password = '數(shù)據(jù)庫密碼'database = '數(shù)據(jù)庫名'host = 'localhost' #數(shù)據(jù)庫主機地址connection = ''isconnect = Trueplaceholder = '%s'def __init__(self):if self.isconnect:MySQLDB.connect(self)MySQLDB.initdb(self)def escape(self,string):return '`%s`' % stringdef connect(self):config = {'user':self.username,'password':self.password,'host':self.host}if self.database != None:config['database'] = self.databasetry:cnx = mysql.connector.connect(**config)self.connection = cnxreturn Trueexcept mysql.connector.Error as err:if (err.errno == errorcode.ER_ACCESS_DENIED_ERROR):print "The credentials you provided are not correct."elif (err.errno == errorcode.ER_BAD_DB_ERROR):print "The database you provided does not exist."else:print "Something went wrong: " , errreturn Falsedef initdb(self):if self.connection == '':print "Please connect first"return Falsecursor = self.connection.cursor()# 創(chuàng)建表的定義sql = 'CREATE TABLE IF NOT EXISTS \table_name ( \id VARCHAR(64) PRIMARY KEY, \url TEXT, \title TEXT, \type TEXT, \thumb TEXT, \count INTEGER, \images TEXT, \tags TEXT, \post_time DATETIME \) ENGINE=INNODB DEFAULT CHARSET=UTF8'try:cursor.execute(sql)self.connection.commit()return Trueexcept mysql.connector.Error as err:print ("An error occured: {}".format(err))return Falsedef cleardb (self):if self.connection == '':print "Please connect first"return Falsecursor = self.connection.cursor()sql = 'DROP TABLE IF EXISTS table_name'try:cursor.execute(sql)self.connection.commit()return Trueexcept mysql.connector.Error as err:print ("An error occured: {}".format(err))return Falsedef insert (self,**values):if self.connection == '':print "Please connect first"return Falsecursor = self.connection.cursor()# 插入數(shù)據(jù)sql = "insert into table_name (id, url, title, type, thumb, count, temperature, images, tags, post_time) values (%s,%s,%s,%s,%s,%s,%s,%s,%s) on duplicate key update id=VALUES(id), url=VALUES(url), title=VALUES(title), type=VALUES(type), thumb=VALUES(thumb), count=VALUES(count), images=VALUES(images), tags=VALUES(tags), post_time=VALUES(post_time)"title = unicodedata.normalize('NFKD', values['title']).encode('ascii','ignore')images = ", ".join('%s' % k for k in values['images'])params = (hashlib.md5(title + images).hexdigest(), values['url'], values['title'], values['type'], values['thumb'], values['count'], images, '', values['date'])try:cursor.execute(sql,params)self.connection.commit()return Trueexcept mysql.connector.Error as err:print ("An error occured: {}".format(err))return Falsedef replace(self,tablename=None,**values):if self.connection == '':print "Please connect first"return Falsetablename = self.escape(tablename)if values:_keys = ", ".join(self.escape(k) for k in values)_values = ", ".join([self.placeholder, ] * len(values))sql_query = "REPLACE INTO %s (%s) VALUES (%s)" % (tablename, _keys, _values)else:sql_query = "REPLACE INTO %s DEFAULT VALUES" % tablenamecur = self.connection.cursor()try:if values:cur.execute(sql_query, list(itervalues(values)))else:cur.execute(sql_query)self.connection.commit()return Trueexcept mysql.connector.Error as err:print ("An error occured: {}".format(err))return False

    在處理爬取結(jié)果的回調(diào)中保存到數(shù)據(jù)庫

    def on_result(self, result):db = MySQLDB()db.insert(**result)

    如何在爬蟲腳本更新后重新運行之前執(zhí)行過的任務

    比如這種場景,爬取了一些數(shù)據(jù),發(fā)現(xiàn)沒有寫保存到數(shù)據(jù)庫的邏輯,然后加上了這段邏輯,卻發(fā)現(xiàn)之前跑過的任務不會在執(zhí)行了。那么如何做到在爬蟲腳本改動后,之前的任務重新自動再跑一遍呢。
    crawl_config中使用itag來標示爬蟲腳本的版本號,如果這個值發(fā)生改變,那么所有的任務都會重新再跑一遍。示例代碼如下

    class Handler(BaseHandler):crawl_config = {'headers': {'User-Agent': USER_AGENT,},'itag': 'v1'}

    itag也可以用來控制特定的任務是否需要重新執(zhí)行,詳見官方文檔

    如何解析JavaScript代碼

    具體如何使用的可以看官方文檔,這里列舉出一些可供參考的JavaScript解析器
    基于Webkit的PhantomJS?基于Gecko的SlimerJS
    基于PhantomJSSlimerJS的CasperJS
    Nightmare
    Selenium
    spynner
    ghost.py

    更多工具/框架請參考Headless Browser and scraping - solutions

    參考資料

    binux/pyspider
    Pyspider官方文檔
    pyspider架構(gòu)設(shè)計
    pyspider中文腳本編寫指南
    Pyspider爬蟲教程
    把 pyspider的結(jié)果存入自定義的mysql數(shù)據(jù)庫中
    pyspider的mysql數(shù)據(jù)存儲接口
    PyQuery complete API
    CSS Selector Reference

    ?

    收集的一些其它網(wǎng)絡爬蟲的資料

    Java

    雪球股票信息超級爬蟲
    一個簡單易用的爬蟲框架,內(nèi)置代理管理模塊,靈活設(shè)置多線程爬取
    A scalable web crawler framework for Java
    強力 Java 爬蟲,列表分頁、詳細頁分頁、ajax、微內(nèi)核高擴展、配置靈活

    Python

    Scrapy
    a smart stream-like crawler & etl python library
    爬視頻音頻神器You-Get
    另一款視頻下載神器youtube-dl
    youtube-dl圖形界面版
    自動抓取Tumblr指定用戶視頻分享
    crawley
    烏云公開漏洞、知識庫爬蟲和搜索
    下載指定的 Tumblr 博客中的圖片,視頻
    下載指定的 Tumblr 博客中的圖片,視頻,玄魂修改版
    DHT網(wǎng)絡爬蟲
    豆瓣電影、書籍、小組、相冊、東西等爬蟲集 writen in Python
    如何不用客戶端下載 YouKu 視頻-YouKu 實現(xiàn)下載 Python3 實現(xiàn)
    一個可配置的、分布式的爬蟲框架
    cloud-based web crawling platform
    百度云爬蟲-爬取百度云/百度網(wǎng)盤所有的分享文件
    愛絲APP圖片爬蟲,以及免支付破解VIP看圖
    微信公眾號爬蟲
    拉勾網(wǎng)爬蟲
    百度網(wǎng)盤爬蟲(如何爬取百度網(wǎng)盤)

    PHP

    PHP Crawler
    PHPCrawl
    Phpfetcher
    php spider framework
    我用爬蟲一天時間“偷了”知乎一百萬用戶,只為證明PHP是世界上最好的語言
    爬蟲組件
    PHP Simple HTML DOM Parser
    QueryList
    Goutte, a simple PHP Web Scraper

    Nodejs

    Nodejs 編寫的爬蟲工具
    批量抓取AV磁鏈或封面的苦勞力
    Easily download all the photos from a Tumblr blog.
    DHT Spider + BitTorrent Client = P2P Spider
    P2P Spider修改版,添加了babel,eslint,gulp等工具來支持es6代碼
    一個Node.js福利圖網(wǎng)站爬蟲程序
    一個簡單的dht爬蟲,用于搜集infohash
    百度云分享爬蟲項目

    Ruby

    A simple DHT crawler, written in Ruby

    C sharp

    visualized crawler & ETL IDE written with C#/WPF

    Erlang

    使用erlang實現(xiàn)P2P磁力搜索

    C++

    給不了你夢中情人,至少還有硬盤女神:hardseed

    Golang

    a distributed, high concurrency and powerful web crawler software

    網(wǎng)絡爬蟲專題

    open-open 網(wǎng)絡爬蟲專題
    你想要的爬蟲,都在這里

    ?

    ?

    ?

    總結(jié)

    以上是生活随笔為你收集整理的Python 爬虫框架 - PySpider的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

    国产精品麻豆三级一区视频 | 婷婷网五月天 | 三级av免费看| 手机在线视频福利 | 色先锋av资源中文字幕 | 在线导航av | 久久精品久久精品久久 | 九九精品视频在线看 | 欧美久久久久久久久中文字幕 | 四虎国产 | 中文在线中文a | 国产小视频在线观看 | 成年美女黄网站色大片免费看 | 夜添久久精品亚洲国产精品 | 手机av在线不卡 | 色婷婷激婷婷情综天天 | 亚洲黄色片一级 | 国产在线播放一区二区三区 | 成人在线观看资源 | 四虎在线观看视频 | 成人在线一区二区三区 | 久久久精品免费观看 | 91试看| av黄色免费网站 | 夜夜夜草 | 黄色一级网 | 99久久999久久久精玫瑰 | 四虎在线观看精品视频 | 国产精品21区 | 日韩一区二区三区免费视频 | 欧美日韩xxxxx | 99re中文字幕 | 亚洲国产一二三 | 91自拍视频在线观看 | 在线观看免费av网站 | 天天综合色网 | 国产呻吟在线 | 四虎影视av| 亚洲 欧洲 国产 精品 | 99精品免费网 | 99久久精品免费看国产免费软件 | 婷久久 | 国产黄色大片免费看 | www.色的| 在线精品视频免费播放 | 久久免费黄色 | 日韩黄视频 | 天天av资源 | 91精品免费在线视频 | 国产激情免费 | 日日夜日日干 | 字幕网av | www毛片com| 精壮的侍卫呻吟h | 521色香蕉网站在线观看 | 成人免费观看视频网站 | 久久精品视频在线免费观看 | 国产精品久久久久一区二区国产 | 亚洲3级| 在线播放 日韩专区 | www..com毛片 | 国产露脸91国语对白 | av在线一二三区 | 午夜色场 | 国产精品99久久久久久人免费 | 久久美女精品 | 97在线观视频免费观看 | 成人h电影在线观看 | 欧美综合在线视频 | 欧美一区二区三区激情视频 | 91视频中文字幕 | 国产成人综合图片 | 黄色资源在线观看 | 日日噜噜噜噜夜夜爽亚洲精品 | 亚洲乱码在线观看 | 麻豆视频一区二区 | 久久精品亚洲 | 久热av在线| 九七人人干 | 日韩电影在线一区二区 | 4438全国亚洲精品在线观看视频 | 日韩久久午夜一级啪啪 | 在线观看亚洲国产精品 | 久热只有精品 | 国产精品视频999 | 国产在线国偷精品产拍免费yy | 91传媒在线 | 国产99在线播放 | 69国产成人综合久久精品欧美 | 中文字幕麻豆 | 色婷婷福利视频 | 国产高清 不卡 | 国产午夜三级一区二区三 | 亚洲区二区 | 麻豆91在线播放 | 国产在线播放不卡 | 色多多污污在线观看 | 成人免费在线播放 | 日精品在线观看 | 亚洲欧洲久久久 | 亚洲狠狠干 | 天天拍天天色 | 在线导航福利 | 91看片在线| 久久99视频 | 国产网站在线免费观看 | 福利电影久久 | 久久久国产精品一区二区三区 | 久热免费在线观看 | 亚洲精品高清视频 | 91热精品 | 91在线影视 | 成人久久18免费网站图片 | 日韩综合视频在线观看 | 亚洲免费公开视频 | 国产免费中文字幕 | 麻豆果冻剧传媒在线播放 | 欧美日韩不卡在线视频 | 天天天天天天操 | 国产一区电影在线观看 | 成人国产亚洲 | 天天操天天摸天天爽 | 婷婷综合久久 | 园产精品久久久久久久7电影 | 午夜精品久久久久久 | 久久免费视屏 | 日韩一区二区三 | 成人在线观看日韩 | 亚洲精品在线观 | 97在线精品国自产拍中文 | 免费在线精品视频 | 国产区精品 | 黄污在线看 | 91麻豆网站 | 国产精品一区二区三区久久 | 国产录像在线观看 | 欧美在线free | 在线观看视频国产一区 | 国产字幕在线看 | 免费观看的黄色 | 精品国产伦一区二区三区 | 国产精品夜夜夜一区二区三区尤 | 国产视频一区二区在线观看 | 国产精品videoxxxx | 亚洲精品色视频 | 日韩欧美xxxx | 国产一级片免费视频 | 亚洲黄色软件 | 中文字幕视频免费观看 | 亚洲国产精彩中文乱码av | 欧美一级在线看 | 999久久久久久久久 69av视频在线观看 | 国产精品永久免费在线 | 人人澡视频 | 久久精品视频免费 | 国产精品视频专区 | 久久艹影院| 在线综合色 | 手机看片午夜 | 2019中文最近的2019中文在线 | 国产aa免费视频 | 最新av免费在线观看 | 欧美精品黑人性xxxx | 在线网站黄 | a视频在线播放 | 在线视频一二区 | 婷婷色五 | 麻豆免费精品视频 | 色综合久久88色综合天天人守婷 | 美女黄频视频大全 | 91色网址| 国产一区二区精品久久91 | 欧美在线视频一区二区三区 | 免费看片网址 | 亚洲视频一 | 一本一本久久a久久精品综合 | 日本中文字幕系列 | 日本精品在线 | 在线亚洲精品 | 99精品福利| 亚洲精品777| 国产成人黄色 | 婷婷午夜 | 亚洲第一成网站 | 国产99久久久国产精品免费看 | 成人av日韩 | 色综合久久88 | 国产又粗又硬又爽视频 | 免费人成在线观看 | 亚洲 欧美 精品 | 国产成人精品亚洲日本在线观看 | 久久久久国产成人精品亚洲午夜 | 天堂av在线免费 | 亚洲国产精品va在线 | 亚洲国产精品一区二区尤物区 | 91桃色免费视频 | 久久视频国产 | 日韩电影中文,亚洲精品乱码 | 最近2019好看的中文字幕免费 | 在线91播放 | 91传媒免费观看 | 四虎永久网站 | 日韩精品视频免费在线观看 | 久草网站 | 日韩乱色精品一区二区 | 中文字幕在线视频免费播放 | 免费日韩在线 | 激情视频91 | 97激情影院 | 91精品视频免费看 | 91九色自拍 | av免费成人| 久久免费成人网 | 992tv人人网tv亚洲精品 | 久久综合久久久久88 | 免费色视频网站 | 国产精品女人久久久久久 | 天堂视频一区 | 精品久久久久一区二区国产 | 美女视频黄免费的 | 亚洲精区二区三区四区麻豆 | 波多野结衣电影一区二区三区 | 亚洲视频免费在线观看 | 色噜噜日韩精品一区二区三区视频 | 欧美在线观看视频免费 | 国产精品成人免费一区久久羞羞 | 色婷婷福利视频 | 国产不卡免费视频 | 91视频91蝌蚪 | 一区二区三区在线免费播放 | 精品中文字幕在线观看 | 超碰在线人人 | 精品欧美小视频在线观看 | 国产精品嫩草影院123 | 久久久综合电影 | 亚洲成人精品 | 欧美日韩亚洲在线 | 最新国产中文字幕 | 五月婷婷综合网 | 久久久免费在线观看 | 91九色视频在线播放 | 久久精品一区二区三区视频 | 日日噜噜噜噜夜夜爽亚洲精品 | www.久久久.cum | 黄色的视频 | 91中文视频 | 亚洲日韩欧美视频 | 最近日本mv字幕免费观看 | 成人av在线直播 | 久久五月天婷婷 | 黄色片网站av | 欧美精品天堂 | 正在播放国产91 | 欧美日韩精品影院 | 日本久久电影 | 在线观看va | 欧美一级片在线 | 国产精品一区二区三区四 | 国产区高清在线 | 九九99 | 国产一级免费播放 | 久草9视频 | 一级a性色生活片久久毛片波多野 | 国产手机视频在线 | 在线视频欧美日韩 | 综合五月| 国产在线精品福利 | 香蕉视频网址 | 91精品视频在线 | 三级黄色a| 91成人免费在线 | 亚洲欧美在线观看视频 | 日韩欧美视频在线观看免费 | 视频三区在线 | 麻豆视频一区 | 国产一级在线免费观看 | 久草在线免费看视频 | 欧美精品一区二区三区四区在线 | 丁香色婷 | 亚洲一区视频在线播放 | 97视频免费在线观看 | 免费亚洲片 | 色吊丝在线永久观看最新版本 | 成人午夜免费剧场 | 中文字幕在线免费播放 | 激情九九 | 亚洲午夜精品久久久久久久久 | 伊人超碰在线 | 欧美日韩高清 | 成人黄色毛片 | 日韩精品久久一区二区三区 | 国产亚洲精品久久久久久移动网络 | 国产精品av电影 | 欧美日韩中文国产 | av成人动漫在线观看 | 国产美女主播精品一区二区三区 | 日韩av电影国产 | 99热在线这里只有精品 | 全久久久久久久久久久电影 | 亚洲专区 国产精品 | 成人免费视频视频在线观看 免费 | 久久婷婷国产色一区二区三区 | 在线亚洲日本 | 美女视频黄的免费的 | 美女网站久久 | 91香蕉视频污在线 | 久久视频在线免费观看 | 国产一区国产二区在线观看 | 日韩不卡高清视频 | 99国产在线 | 国产麻豆精品久久一二三 | 日韩在线一二三区 | 超碰在线中文字幕 | 一区二区不卡 | 国产成人一区二区三区影院在线 | 国产精品99久久久久久久久久久久 | 国产资源在线免费观看 | 久久精品精品电影网 | 亚洲午夜久久久久久久久 | 久草在线资源观看 | 日韩欧美一区二区三区视频 | 九九精品视频在线看 | 欧美极品久久 | 日本一区二区三区视频在线播放 | 久操视频在线 | 亚洲成a人片在线观看中文 中文字幕在线视频第一页 狠狠色丁香婷婷综合 | 91久久久久久国产精品 | 91x色| 成人动漫视频在线 | 成人国产电影在线观看 | 天天干天天上 | av免费在线看网站 | 日韩欧美xxx | 色诱亚洲精品久久久久久 | 国产专区欧美专区 | 蜜桃麻豆www久久囤产精品 | 91精品国产99久久久久久红楼 | 夜夜爽88888免费视频4848 | 欧美一区免费观看 | 欧美精品久久久久久久免费 | 久久久久久久99精品免费观看 | 欧美综合色在线图区 | 国产对白av | 亚洲美女免费精品视频在线观看 | 色婷婷激婷婷情综天天 | 亚一亚二国产专区 | 婷婷激情综合五月天 | 91精品国产92久久久久 | 天天综合网 天天综合色 | 婷婷中文在线 | 国产亚洲人成网站在线观看 | 人人干人人超 | 亚洲一区免费在线 | 国产精品久久久久久久久免费 | 丝袜美腿一区 | 91在线免费观看网站 | 国产91精品一区二区麻豆网站 | 深爱激情久久 | 狠狠狠色丁香婷婷综合激情 | 中文字幕一区二区在线播放 | 日韩在线视频网址 | 99精品视频精品精品视频 | 成人一区在线观看 | 中文字幕在线观看第二页 | 亚洲精品久久久久久中文传媒 | 国产精品专区在线观看 | 国产va在线 | 麻豆传媒电影在线观看 | 97在线看片| 狠狠的日日 | 精品亚洲免费视频 | 国产不卡网站 | 久久国产精品一区二区三区 | 黄色毛片在线 | 天天摸夜夜操 | 日韩免费高清 | 欧美五月婷婷 | 中文字幕亚洲高清 | 日本在线精品视频 | 婷婷综合激情 | 国产精品入口66mio女同 | 久久成人免费电影 | 国产韩国精品一区二区三区 | 久久91网| 97视频免费在线观看 | 久久亚洲综合国产精品99麻豆的功能介绍 | 亚洲国产中文字幕在线观看 | 久久免费一级片 | 九九九九热精品免费视频点播观看 | 99r在线精品 | 亚洲欧美日韩一级 | 狠狠伊人 | 国产在线观看二区 | 在线观看久久久久久 | 久久久精品国产免费观看一区二区 | 久久综合色天天久久综合图片 | 午夜av网站 | 欧美综合在线观看 | 精品久久一区二区 | 国产男女爽爽爽免费视频 | 亚洲污视频 | 国产高清不卡在线 | 黄网站污 | 久久涩视频 | www.成人久久 | 国产精品久久久久999 | 日韩精品一区二区三区第95 | 成人小视频免费在线观看 | 337p西西人体大胆瓣开下部 | 91精选 | 免费观看黄 | 国产成人一区二区精品非洲 | 国产一区二区三区免费在线观看 | 欧美午夜精品久久久久久浪潮 | 午夜精品久久久99热福利 | 三日本三级少妇三级99 | 99成人精品 | 午夜精品久久久久久久99婷婷 | 亚洲综合情| 99久久电影 | 日韩欧美电影在线观看 | 丁香视频全集免费观看 | 色婷婷狠 | 天天干夜夜想 | 五月婷婷六月丁香激情 | 国产成人av在线 | 日韩精品一区二区三区在线视频 | 伊人射| 在线看片中文字幕 | 欧美特一级片 | 亚洲色图av| 国产一级片不卡 | 国产98色在线 | 日韩 | 首页av在线 | 成人在线播放免费观看 | 成年人在线免费看视频 | 久久黄色片子 | 日本韩国中文字幕 | 国产精品第52页 | 91精品国产乱码 | 九九激情视频 | 中文字幕视频网 | 特级毛片在线免费观看 | 免费观看成人网 | 日韩在线一二三区 | 日本中文字幕系列 | 国产精品久久久久av免费 | 亚洲日本成人 | 又黄又网站 | 精品国产亚洲日本 | 成人在线网站观看 | 欧美在线不卡一区 | 日本特黄一级片 | 国产中文字幕视频 | 中文字幕a∨在线乱码免费看 | 99欧美视频 | 亚洲视频在线免费观看 | 五月婷婷视频 | 在线观看视频日韩 | 999久久久| 麻豆传媒视频在线 | 国产涩涩网站 | 一区二区三区在线观看中文字幕 | 国产在线毛片 | 精品爱爱 | 成人一级视频在线观看 | 欧美99热| 国产欧美久久久精品影院 | 国产精品亚州 | 中文综合在线 | 在线观看视频你懂 | 日韩a在线 | 国产伦理久久精品久久久久_ | 人人爱人人做人人爽 | 天堂在线一区二区三区 | 在线观看视频三级 | 亚洲资源网| 成人污视频在线观看 | 人人草人 | 91精品视频一区二区三区 | 九九热在线视频免费观看 | 久久色网站 | 一区二区精品久久 | 免费久久视频 | 亚洲三级网 | 香蕉视频最新网址 | 日韩城人在线 | 97国产在线视频 | 91私密保健| 91污污视频在线观看 | 天天操天天操一操 | 日韩中文字幕一区 | 亚洲精品在线免费看 | 精品人妖videos欧美人妖 | 免费精品在线视频 | 国产精品久久久久久99 | 91九色在线视频 | 国产黄色免费 | 亚洲永久精品在线观看 | 亚洲精品麻豆视频 | 国产成视频在线观看 | 五月婷婷另类国产 | 亚洲精品美女 | 国产在线视频不卡 | 亚洲三级影院 | 超碰97中文 | 一二区电影| 久草在线观看 | 青春草视频在线播放 | 国产精品一区二 | 国产欧美精品一区aⅴ影院 99视频国产精品免费观看 | 超碰在线资源 | 夜夜躁日日躁狠狠久久av | 亚洲五月综合 | 成人影片在线免费观看 | 最新av免费在线观看 | 亚洲国产日韩欧美在线 | 亚洲国产久 | 在线久草视频 | 手机看片国产日韩 | 日韩精品一区二区在线观看视频 | 国产精品va在线观看入 | 激情网站五月天 | 日本中文字幕在线播放 | 中文在线免费一区三区 | 在线a人v观看视频 | 国内精品美女在线观看 | 日韩精品在线视频免费观看 | 91精品一区国产高清在线gif | 欧美成人h版电影 | 日韩黄色免费电影 | 黄色免费视频在线观看 | 欧美精品亚洲精品 | 激情自拍av| 国产精品一区二区在线看 | 97超视频免费观看 | 手机在线日韩视频 | 天天综合天天综合 | 免费午夜网站 | 成人免费观看完整版电影 | 国产小视频你懂的 | 欧美成人手机版 | 国产特黄色片 | 91精品高清| 久久久久久久久免费视频 | 国色天香在线观看 | 美国三级黄色大片 | 欧美精品免费在线 | 久久国产精品99久久久久久老狼 | 91久久精品一区二区三区 | 亚洲一二三区精品 | 探花视频免费观看高清视频 | 日韩色爱| 免费黄a大片 | 国产日韩欧美在线 | 久久午夜影院 | 人人爽人人爽人人片av | 国内揄拍国产精品 | 字幕网在线观看 | 国产又黄又猛又粗 | 亚洲jizzjizz日本少妇 | 狠狠干免费 | 在线精品亚洲一区二区 | 在线不卡中文字幕播放 | 人成电影网 | 日本三级不卡视频 | 在线a亚洲视频播放在线观看 | 久综合网 | 激情网第四色 | 国语黄色片 | 黄色a视频免费 | 91精品视频在线免费观看 | 国产香蕉视频在线观看 | 就要色综合 | 高清国产午夜精品久久久久久 | 久草在线一免费新视频 | 国产黄色高清 | 91丨九色丨勾搭 | 久久6精品| 国产午夜精品理论片在线 | 91麻豆操 | 国产视频在线观看一区二区 | 精品久久国产一区 | 在线观看黄污 | 一区二区欧美日韩 | 久久综合狠狠综合久久激情 | av网址最新 | 亚洲综合精品视频 | 成人中文字幕在线 | 91精品在线播放 | 欧美精品久久久久久久亚洲调教 | 婷婷五情天综123 | 久久er99热精品一区二区三区 | 9色在线视频 | 精品美女在线视频 | 亚洲伊人av | 免费在线观看亚洲视频 | 日韩av片无码一区二区不卡电影 | 精品影院一区二区久久久 | 国产91成人 | 亚洲最新合集 | 国产亚洲精品av | 毛片网站免费在线观看 | 亚洲最新av| 免费在线成人av | 99久久精品久久久久久清纯 | 欧美激情视频一区二区三区免费 | 视频99爱 | 国产一区av在线 | 五月婷在线| 色婷婷激情综合 | 一区二区亚洲精品 | 日韩在线欧美在线 | 99精品一级欧美片免费播放 | 丝袜美腿在线 | 亚洲精品视频在线播放 | 久久久综合| 五月婷婷开心中文字幕 | 日韩免费播放 | 51久久成人国产精品麻豆 | 免费欧美高清视频 | 在线观看视频国产一区 | 久久精品亚洲国产 | 91av福利视频 | 一区二区三区在线免费观看视频 | 色婷婷狠狠五月综合天色拍 | 欧美精品免费在线 | 日日爱av | 亚洲精品久久久蜜臀下载官网 | 伊人午夜视频 | 国产精品2区 | 中文字幕在线日本 | 日韩视频一二三区 | 亚洲高清国产视频 | 成人99免费视频 | 色综合中文字幕 | 69国产精品成人在线播放 | 久久一线 | 黄色综合 | 可以免费观看的av片 | 又黄又爽又刺激视频 | 果冻av在线| 国产打女人屁股调教97 | 久久久久久久综合色一本 | 少妇性色午夜淫片aaaze | av色影院| 日本三级在线观看中文字 | 欧美热久久 | 激情影院在线观看 | 久久精品艹 | 69av网| 96久久欧美麻豆网站 | 亚洲精品 在线视频 | 超碰在线最新网址 | 色综合久久88色综合天天人守婷 | 日韩一区二区三区观看 | 成人9ⅰ免费影视网站 | aa一级片 | 久久久精品 | 99精品区| 一区二区视频在线观看免费 | 国产不卡视频在线 | 国产精品久久99综合免费观看尤物 | 国产成人av片 | 又黄又爽又色无遮挡免费 | 日韩.com| 欧美精品久久久久久久久久久 | 成人午夜精品久久久久久久3d | 深夜免费福利 | 91在线一区二区 | 国产午夜精品av一区二区 | 成人a免费看| 精品视频123区在线观看 | 国产免费一区二区三区网站免费 | 久热香蕉视频 | 日韩精品中文字幕一区二区 | 亚洲午夜小视频 | 国产99一区视频免费 | 美女搞黄国产视频网站 | 国产91精品看黄网站 | 人人射| 国产精品免费观看视频 | 久久久久女人精品毛片 | 天天色视频 | 黄色软件在线观看免费 | 久久视影| 国产精品av电影 | 日本午夜在线亚洲.国产 | 国产一级久久久 | 精品久久久久久亚洲 | 天天干天天拍天天操天天拍 | 日日操天天操夜夜操 | 国产成人区 | 国产一区观看 | 91精品爽啪蜜夜国产在线播放 | 精品一区二区6 | 国产成人精品av在线观 | 韩国一区二区三区在线观看 | 国产精品18久久久 | 色噜噜日韩精品一区二区三区视频 | 精品国产乱码久久久久 | 日韩一区二区免费在线观看 | 欧美91精品久久久久国产性生爱 | 99在线精品视频观看 | 欧美一级片在线观看视频 | 午夜av影院 | 国产黄在线免费观看 | 国产女人免费看a级丨片 | 日韩电影中文,亚洲精品乱码 | 免费a一级| 亚洲黄色片在线 | 日韩精品久久一区二区三区 | 免费97视频 | 国内揄拍国内精品 | 丁香免费视频 | 婷婷在线视频 | 波多野结衣在线视频免费观看 | 亚洲精品久久久久www | 91亚洲永久精品 | 亚州中文av | 九九免费精品视频 | 国产丝袜制服在线 | 激情五月五月婷婷 | 国产专区视频在线 | 久久毛片网| 国产美女精品 | 午夜少妇一区二区三区 | 欧美另类69 | 免费不卡中文字幕视频 | 亚洲最新合集 | 综合久久影院 | 99精品亚洲 | 亚洲爱视频 | 热久久免费视频 | 国产精品久久久久久久久久直播 | 久久er99热精品一区二区 | 91高清完整版在线观看 | 亚洲爱爱视频 | 国产伦精品一区二区三区无广告 | 精品一区二区三区四区在线 | 亚洲激情综合 | 久久综合久色欧美综合狠狠 | 国产网站在线免费观看 | 天天综合网天天综合色 | 五月香视频在线观看 | 成人性生交视频 | 一级片黄色片网站 | 在线精品视频免费播放 | 91av在线电影| 成人av电影在线播放 | 久久国产福利 | 国产不卡av在线播放 | 99999精品| 在线观看国产福利片 | 在线看片91 | 在线免费观看黄 | 激情丁香综合五月 | 精品电影一区二区 | 天天射天天爱天天干 | 狠狠躁天天躁综合网 | 一二三区高清 | 国产精品久久久精品 | 免费麻豆网站 | 亚洲精品影院在线观看 | 伊人久久在线观看 | 免费看亚洲毛片 | 激情 一区二区 | 三级免费黄色 | 久久精品视频播放 | 日韩av福利在线 | 日韩av免费一区 | 中文字幕 欧美性 | 91亚州 | 久久久受www免费人成 | 日本激情动作片免费看 | 欧美日韩99 | 精品日韩在线 | 国产精品毛片一区二区三区 | 亚洲精品国偷拍自产在线观看蜜桃 | 亚洲精品理论 | a级国产毛片 | 日本黄色免费网站 | 五月婷婷网站 | 欧美精品v国产精品v日韩精品 | 久久久午夜精品理论片中文字幕 | 国产精品毛片一区视频播不卡 | 手机看片福利 | 成人午夜精品福利免费 | 午夜精品久久久久久久久久 | 少妇bbbb搡bbbb桶 | 欧美色黄 | 黄色小说在线免费观看 | 国产精品乱码一区二三区 | 久久精品中文字幕 | 国内精品久久久久影院优 | 中文字幕一区二区三区四区视频 | 999久久国产 | av免费看看 | 日本黄色片一区二区 | 久久日韩精品 | 中文在线天堂资源 | 欧美极品一区二区三区 | 99这里精品 | 国产日韩欧美在线影视 | 婷婷日| 成人欧美一区二区三区黑人麻豆 | 国产在线a不卡 | 狠狠色狠狠色综合系列 | 天天做天天爱天天综合网 | 9在线观看免费高清完整版 玖玖爱免费视频 | 九九欧美视频 | 久久精品女人毛片国产 | 欧美日韩视频免费 | 人人澡人 | 人人爱在线视频 | 久久精品视频在线观看免费 | 欧美精品一区二区三区一线天视频 | 中文在线www| 亚洲一区二区三区在线看 | 亚洲激情 在线 | 91精品国产一区二区在线观看 | 精品一区二区三区久久 | 91探花系列在线播放 | 在线看片一区 | 欧美性做爰猛烈叫床潮 | 一级黄色大片在线观看 | 中文字幕在线观看日本 | 免费视频 三区 | 激情综合网色播五月 | 国产一区二区三区免费在线 | 国产成人1区 | 97超碰在线人人 | 亚洲电影一区二区 | 一区二区精品在线观看 | 亚洲天天看 | 亚洲高清视频在线播放 | 右手影院亚洲欧美 | 免费观看www小视频的软件 | 成人国产精品一区二区 | 国产精品欧美在线 | 美女视频黄,久久 | 久久久久成人免费 | 亚洲天堂网站 | www日韩高清 | 久久国产精品一国产精品 | 一级做a视频 | 日本激情视频中文字幕 | 日韩免费高清在线观看 | 亚洲无线视频 | 日本公妇色中文字幕 | 亚洲草视频 | 国产经典三级 | 久久性生活片 | 久久黄色网页 | 不卡av在线免费观看 | 国产成人精品一区二三区 | 天天草天天干天天 | 免费影视大全推荐 | 96视频在线| 亚洲精品乱码久久久久久9色 | 国产精品中文字幕av | 女人18毛片a级毛片一区二区 | a v在线观看| 国色天香在线观看 | 97av视频在线观看 | 毛片精品免费在线观看 | 国产一二三区av | 五月天中文在线 | 人人爱人人爽 | 成年人在线观看网站 | 在线观看日韩免费视频 | 高清不卡毛片 | 久久久久久综合网天天 | 国产成人av网址 | 日韩午夜小视频 | 欧美激情视频一区二区三区免费 | 国产一级特黄电影 | 日日婷婷夜日日天干 | 日韩三级视频 | 中文字幕视频三区 | 在线国产视频一区 | 亚洲精品在线免费播放 | 五月婷婷一区 | 久久99热精品 | 午夜色场 | 国产精品高清在线 | 91久久国产综合精品女同国语 | 国产电影一区二区三区四区 | 国产夫妻性生活自拍 | 99久久99久久精品国产片果冰 | 成年人免费看片网站 | 天天射天天 | 毛片网站免费 | 国产亚洲精品中文字幕 | 四虎免费在线观看视频 | 五月婷婷狠狠 | 黄色日批网站 | 久久成人福利 | 91精品啪在线观看国产81旧版 | 国产一级电影免费观看 | 在线观看一区 | www.久热| 天天干天天射天天爽 | 欧美一级高清片 | 久久免费视频99 | 免费视频a | 亚洲欧美国产精品18p | 一区二区三区www | 黄污网 | 国产免费美女 | 国产 日韩 在线 亚洲 字幕 中文 | 国产一区在线免费观看视频 | 免费日韩 精品中文字幕视频在线 | 成人免费在线网 | 天天插天天干天天操 | 9在线观看免费高清完整 | 日韩天天操 | 狠狠狠狠狠狠狠 | 欧美乱码精品一区二区 | 91在线精品秘密一区二区 | 日韩av一区二区在线播放 | 国产高清不卡 | 久久夜视频 | 99精品色 | 99精品免费视频 | 激情欧美一区二区三区免费看 | 天堂网一区 | 日韩性xxxx | 国产免费区 | 日韩精品欧美专区 | 午夜12点| 欧美一区成人 | 久久国产精品免费一区二区三区 | 亚洲成人蜜桃 | 激情综合亚洲精品 | 欧美一区二区三区在线 | 深夜免费小视频 | 天天爱天天爽 | 色婷婷久久久 | 在线观看久久 | 香蕉精品在线观看 | 91九色porny蝌蚪视频 | 精品二区视频 | 亚洲成人黄 | 亚洲欧美在线综合 | 国产vs久久| 国产精品二区三区 | 999久久久久久久久久久 | 精品a级片| 国产美女无遮挡永久免费 | 亚洲精品在线一区二区 | 亚洲高清视频在线播放 | 最新国产在线视频 | 国产精久久久 | 久久99精品国产麻豆宅宅 | 日韩在线色视频 | 97成人超碰 | 最新91在线视频 | 亚洲精品视频中文字幕 | 成人黄色在线 | 成人影视免费看 | 久久神马影院 | 色婷婷综合久久久 | 亚洲美女免费精品视频在线观看 | 中文字幕在线观看完整版电影 | 婷婷丁香导航 | 91麻豆传媒 | 三上悠亚一区二区在线观看 | 美女国产精品 | 久久手机视频 | 国产中文字幕av | 免费人成在线观看网站 | 亚洲一级电影视频 | 麻豆久久| 在线成人中文字幕 | 美女视频一区二区 | 日韩电影在线观看中文字幕 | 亚洲精品字幕 | 久久精品久久精品久久精品 | 在线观看免费成人av | 久久久国产精品网站 | 欧美色综合天天久久综合精品 | 亚洲在线视频免费 | 色噜噜在线观看视频 | 久久丁香 | 精品国产一区二区三区久久 | 2019中文在线观看 | 国产一区二区在线免费播放 | 香蕉视频4aa| 久久66热这里只有精品 | av高清在线观看 | 成人午夜免费福利 | 韩国精品一区二区三区六区色诱 | 天天激情天天干 | 久久国内免费视频 | 美女一级毛片视频 | 天天天天色综合 | 日韩精品久久久久 |