日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

scrapy框架架构

發布時間:2025/3/17 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 scrapy框架架构 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

介紹

Scrapy一個開源和協作的框架,其最初是為了頁面抓取 (更確切來說, 網絡抓取 )所設計的,使用它可以以快速、簡單、可擴展的方式從網站中提取所需的數據。但目前Scrapy的用途十分廣泛,可用于如數據挖掘、監測和自動化測試等領域,也可以應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網絡爬蟲。

Scrapy 是基于twisted框架開發而來,twisted是一個流行的事件驅動的python網絡框架。因此Scrapy使用了一種非阻塞(又名異步)的代碼來實現并發。

架構

流程解析

  • The Engine gets the initial Requests to crawl from the Spider. (引擎從爬蟲獲取初始Requests )
  • The Engine schedules the Requests in the Scheduler and asks for the next Requests to crawl. (引擎將該Requests 放入調度器中,并請求下一個Requests來爬取 )
  • The Scheduler returns the next Requests to the Engine. (調度器將下一個Requests 返回給引擎)
  • The Engine sends the Requests to the Downloader, passing through the Downloader Middlewares (see process_request()). (經過中間件,引擎將Requests發送給下載器,)
  • Once the page finishes downloading the Downloader generates a Response (with that page) and sends it to the Engine, passing through the Downloader Middlewares (see process_response()). (一旦頁面爬取完成,下載器就會生成一個Response,再經過中間件,發送給引擎 )
  • The Engine receives the Response from the Downloader and sends it to the Spider for processing, passing through the Spider Middleware (see process_spider_input()). (引擎收到下載器返回的Response 后,經過中間件,發送給爬蟲處理)
  • The Spider processes the Response and returns scraped items and new Requests (to follow) to the Engine, passing through the Spider Middleware (see process_spider_output()). (爬蟲處理Response,經過中間件,返回處理后的items 或新的Requests給引擎)
  • The Engine sends processed items to Item Pipelines, then send processed Requests to the Scheduler and asks for possible next Requests to crawl. (引擎將處理后的items發送給項目管道,將Requests 發送給調度器,并請求下一個Requests 來爬取)
  • The process repeats (from step 1) until there are no more requests from the Scheduler. (不斷重復以上流程,直到調度器中沒有requests 為止)
  • 組件說明

  • 引擎(EGINE):

    引擎負責控制系統所有組件之間的數據流,并在某些動作發生時觸發事件。

  • 調度器(SCHEDULER):

    用來接受引擎發過來的請求, 壓入隊列中, 并在引擎再次請求的時候返回. 可以想像成一個URL的優先級隊列, 由它來決定下一個要抓取的網址是什么, 同時去除重復的網址

  • 下載器(DOWLOADER)

    用于下載網頁內容, 并將網頁內容返回給EGINE,下載器是建立在twisted這個高效的異步模型上的

  • 爬蟲(SPIDERS)

    SPIDERS是開發人員自定義的類,用來解析responses,并且提取items,或者發送新的請求

  • 項目管道(ITEM PIPLINES)

    在items被提取后負責處理它們,主要包括清理、驗證、持久化(比如存到數據庫)等操作

  • 下載器中間件(Downloader Middlewares)

    位于Scrapy引擎和下載器之間,主要用來處理從EGINE傳到DOWLOADER的請求request,已經從DOWNLOADER傳到EGINE的響應response,你可用該中間件做以下幾件事:

    • 在request發往下載器之前對requests進行處理(也就是在爬取網站之前)
    • 在response 傳遞給爬蟲之前,修改response
    • 不給爬蟲發送收到的response, 而是給它發送新的request,
    • 不爬取網頁,直接給爬蟲返回response
    • 丟棄一些request
  • 爬蟲中間件(Spider Middlewares)

    位于EGINE和SPIDERS之間,主要工作是處理SPIDERS的輸入(即responses)和輸出(即requests)

  • 命令行工具

    全局命令

  • startproject 創建項目

  • genspider: scrapy genspider [-t template] <name> <domain>生成爬蟲,-l 查看模板; -t 指定模板,name爬蟲名,domain域名

  • settings 查看設置

  • runspider 運行爬蟲(運行一個獨立的python文件,不必創建項目)

  • shell :scrapy shell [url]進入交互式命令行,可以方便調試

  • –spider=SPIDER 忽略爬蟲自動檢測,強制使用指定的爬蟲

  • -c 評估代碼,打印結果并退出:

    $ scrapy shell --nolog http://www.example.com/ -c '(response.status, response.url)' (200, 'http://www.example.com/')
  • –no-redirect 拒絕重定向

  • –nolog 不打印日志

  • response.status 查看響應碼

  • response.url

  • response.text; response.body 響應文本;響應二進制

  • view(response) 打開下載到本地的頁面,方便分析頁面(比如非靜態元素)

    ?

  • fetch 查看爬蟲是如何獲取頁面的,常見選項如下:

  • –spider=SPIDER 忽略爬蟲自動檢測,強制使用指定的爬蟲
  • –headers 查看響應頭信息
  • –no-redirect 拒絕重定向
  • view 同交互式命令中的view

  • version

  • 項目命令

  • crawl : scrapy crawl <spider> 指定爬蟲開始爬取(確保配置文件中ROBOTSTXT_OBEY = False)
  • check: scrapy check [-l] <spider>檢查語法錯誤
  • list 爬蟲list
  • edit 命令行模式編輯爬蟲(沒啥用)
  • parse: scrapy parse <url> [options] 爬取并用指定的回掉函數解析(可以驗證我們的回調函數是否正確)
  • –callback 或者 -c 指定回調函數
  • bench 測試爬蟲性能
  • 項目結構和爬蟲應用簡介

    scrapy startproject tutorial tutorial/scrapy.cfg # 項目的主配置信息,用來部署scrapy時使用,爬蟲相關的配置信息在settings.py文件中tutorial/ # 項目模塊__init__.pyitems.py # 設置數據存儲模板,用于結構化數據,類似Django的Modelpipelines.py # 數據處理行為,如:一般結構化的數據持久化settings.py # project settings filespiders/ # a directory where you'll later put your spiders__init__.py

    待更新

    總結

    以上是生活随笔為你收集整理的scrapy框架架构的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 亚洲狼人色 | 精品麻豆视频 | xxxxx国产 | 一级片亚洲| 日韩在线视频免费 | 色欧美色| 久久久久久久久久99 | 欧洲激情网 | 免费涩涩视频 | 黄色仓库av| 综合网av| 国产精品天天干 | 精品网站999www | 久久精品一区二区三 | 美女精品久久久 | 调教亲女小嫩苞h文小说 | 亚洲欧美精品 | 亚洲色图在线观看 | 五月天丁香婷 | 肉丝袜脚交视频一区二区 | 欧美亚洲国产日韩 | 三级全黄做爰龚玥菲在线 | 日本少妇一级 | 中国特级黄色大片 | 国产黄色小视频在线观看 | 午夜视频在线免费 | 三级网站 | 国产免费内射又粗又爽密桃视频 | 色哟哟免费观看 | 台湾少妇xxxx做受 | 日韩jizz| 亚洲国产精品美女 | 国产极品视频在线观看 | 中文字幕无码精品亚洲 | 欧美激情电影一区二区 | 麻豆一区二区三区在线观看 | 污污网站在线观看视频 | 亚洲福利在线视频 | 精品国产视频一区二区 | 天天射日 | 亚洲国产精品成人va在线观看 | 女人被狂躁c到高潮 | 雪花飘电影在线观看免费高清 | 少女与动物高清版在线观看 | 无码一区二区三区 | 91欧美视频| 不卡的av电影 | 国产精品自拍区 | 国产精品视频区 | 久草一本| 在线干 | 欧美视频在线观看一区二区 | 丰满双乳秘书被老板狂揉捏 | 黄色一级在线观看 | 特级淫片裸体免费看 | 欧美日韩免费高清一区色橹橹 | 黄频在线免费观看 | 女女调教被c哭捆绑喷水百合 | 亚洲精品视频在线看 | 国产精品亚洲欧美 | 美女爆乳18禁www久久久久久 | 亚洲色图综合在线 | 欧美精品aaa | 国产男男一区二区三区 | 日本在线不卡一区二区 | 免费观看一区二区三区视频 | 日本精品视频一区二区 | 69午夜| 亚洲精品久久久久av无码 | 日本高清在线观看 | 先锋资源av网 | 99热1| 香港av在线 | 亚洲人成人一区二区在线观看 | 欧洲精品一区二区 | 草草影院ccyycom | av手机免费看 | 久久久精品一区二区三区 | 亚洲天堂影院在线观看 | 亚洲蜜桃在线 | 51精品国产 | 黄色大全在线观看 | 极品少妇xxxx | 天天插天天操天天干 | 国产精品一二三四五区 | 少妇被黑人到高潮喷出白浆 | www.四虎. | 欧美七区| 激情小说图片视频 | 久久潮 | 日韩夜夜 | 欧美区一区二区三 | 国产精品毛片 | 久久人人精品 | 欧美com| 中文字幕第一页亚洲 | 韩国黄色网| 免费看污黄网站在线观看 | 日韩精品免费在线视频 |