日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python中scrapy框架_python的scrapy框架

發布時間:2025/6/17 python 69 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python中scrapy框架_python的scrapy框架 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

scrapy是python中數據抓取的框架。簡單的邏輯如下所示

scrapy的結構如圖所示,包括scrapy engine、scheduler、downloader、spider、item pipeline。

scrapy engine:引擎,是負責scheduler、downloader、spider、item pipeline之間的消息的傳遞等等

scheduler:調度器,是負責接受scrapy engine 的request請求,并將request進行整理排列,入隊,等待scrapy engine來請求時,交給引擎

downloader:下載器,是用來下載scrapy engine的請求,并將response返回給spider。

spider:爬蟲,是將downloader的response,由spider分析并提取item所要抓取的數據,并將所要跟進的url再次交給scrapy engine,再次進入scheduler。

item pipeline:項目管道,是將spider中提取到的數據,進行處理,存儲。

還有兩個:

download middlewares:下載中間件,是一個可以擴展的下載功能的組件,介于Scrapy引擎和調度之間的中間件,從Scrapy引擎發送到調度的請求和響應

spider middlewares:spider的中間件:是一個可以擴展和操作引擎和spider中間通信的功能組件(比如進入spider的response,和從spider傳出去的request),介于Scrapy引擎和蜘蛛之間的鉤子框架,主要工作是處理蜘蛛的響應輸入和請求輸出

這倆當前還沒有試過~

經過:

1.scrapy engine獲取到spider要獲取的第一個url

2.scrapy engine將要獲取的url給scheduler,并將url入隊,整理,并將處理好的request請求返回

3.scrapy engine將處理好的request給downloader,通過downloader下載數據,如果下載失敗,會將下載失敗的結果告訴scrapy engine,然后會讓scrapy engine等會再次請求下載。

4.scrapy engine獲取到downloader下載的數據,并且將數據給spider,經由spider進行數據處理,spider將需要跟進的request交給scrapy engine,將處理的結果返回給item pipeline

5.item pipeline將spider反悔的結果進行去重,持久化,寫入數據庫等操作。

只有當scheduler中沒有任何request了,整個過程才會停止。

總結

以上是生活随笔為你收集整理的python中scrapy框架_python的scrapy框架的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。