當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

scrapy 工作流程

發(fā)布時(shí)間：2024/7/19 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了 scrapy 工作流程小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Scrapy的整個(gè)數(shù)據(jù)處理流程由Scrapy引擎進(jìn)行控制，其主要的運(yùn)行方式為：

引擎打開(kāi)一個(gè)域名，蜘蛛處理這個(gè)域名，然后獲取第一個(gè)待爬取的URL。

引擎從蜘蛛那獲取第一個(gè)需要爬取的URL，然后作為請(qǐng)求在調(diào)度中進(jìn)行調(diào)度。

引擎從調(diào)度那獲取接下來(lái)進(jìn)行爬取的頁(yè)面。

調(diào)度將下一個(gè)爬取的URL返回給引擎，引擎將他們通過(guò)下載中間件發(fā)送到下載器。

當(dāng)網(wǎng)頁(yè)被下載器下載完成以后，響應(yīng)內(nèi)容通過(guò)下載中間件被發(fā)送到引擎。

引擎收到下載器的響應(yīng)并將它通過(guò)蜘蛛中間件發(fā)送到蜘蛛進(jìn)行處理。

蜘蛛處理響應(yīng)并返回爬取到的項(xiàng)目，然后給引擎發(fā)送新的請(qǐng)求。

引擎將抓取到的項(xiàng)目項(xiàng)目管道，并向調(diào)度發(fā)送請(qǐng)求。

系統(tǒng)重復(fù)第二部后面的操作，直到調(diào)度中沒(méi)有請(qǐng)求，然后斷開(kāi)引擎與域之間的聯(lián)系。

轉(zhuǎn)載于:https://www.cnblogs.com/bushe/p/4003002.html

以上是生活随笔為你收集整理的scrapy 工作流程的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。