當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

第41讲：Scrapy框架的介绍

發布時間：2024/4/11 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了第41讲：Scrapy框架的介绍小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在前面編寫爬蟲的時候，如果我們使用 requests、aiohttp 等庫，需要從頭至尾把爬蟲完整地實現一遍，比如說異常處理、爬取調度等，如果寫的多了，的確會比較麻煩。

那么有沒有什么辦法可以提升我們編寫爬蟲的效率呢？當然是有的，那就是利用現有的爬蟲框架。

說到 Python 的爬蟲框架，Scrapy 當之無愧是最流行最強大的框架了。本節我們就來初步認識一下 Scrapy，后面的課時我們會對 Scrapy 的功能模塊進行詳細介紹。

Scrapy 是一個基于 Twisted 的異步處理框架，是純 Python 實現的爬蟲框架，其架構清晰，模塊之間的耦合程度低，可擴展性極強，可以靈活完成各種需求。我們只需要定制開發幾個模塊就可以輕松實現一個爬蟲。

首先我們來看下 Scrapy 框架的架構，如圖所示：

它可以分為如下的幾個部分。

初看起來的確比較懵，不過不用擔心，我們在后文會結合案例來對 Scrapy 的功能模塊進行介紹，相信你會慢慢地理解各個模塊的含義及功能。

了解了架構，下一步就是要了解它是怎樣進行數據爬取和處理的，所以我們接下來需要了解 Scrapy 的數據流機制。

Scrapy 中的數據流由引擎控制，其過程如下：

Engine 首先打開一個網站，找到處理該網站的 Spider 并向該 Spider 請求第一個要爬取的 URL。
Engine 從 Spider 中獲取到第一個要爬取的 URL 并通過 Scheduler 以 Request 的形式調度。
Engine 向 Scheduler 請求下一個要爬取的 URL。
Scheduler 返回下一個要爬取的 URL 給 Engine，Engine 將 URL 通過 Downloader Middlewares 轉發給 Downloader 下載。
一旦頁面下載完畢， Downloader 生成一個該頁面的 Response，并將其通過 Downloader Middlewares 發送給 Engine。
Engine 從下載器中接收到 Response 并通過 Spider Middlewares 發送給 Spider 處理。
Spider 處理 Response 并返回爬取到的 Item 及新的 Request 給 Engine。
Engine 將 Spider 返回的 Item 給 Item Pipeline，將新的 Request 給 Scheduler。
重復第二步到最后一步，直到 Scheduler 中沒有更多的 Request，Engine 關閉該網站，爬取結束。

通過多個組件的相互協作、不同組件完成工作的不同、組件對異步處理的支持，Scrapy 最大限度地利用了網絡帶寬，大大提高了數據爬取和處理的效率。

了解了 Scrapy 的基本情況之后，下一步讓我們來動手安裝一下吧。

Scrapy 的安裝方法當然首推官方文檔，其地址為：https://docs.scrapy.org/en/latest/intro/install.html，另外也可以參考 https://cuiqingcai.com/5421.html。

安裝完成之后，如果可以正常使用 scrapy 命令，那就是可以了。

既然 Scrapy 是框架，那么 Scrapy 一定幫我們預先配置好了很多可用的組件和編寫爬蟲時所用的腳手架，也就是預生成一個項目框架，我們可以基于這個框架來快速編寫爬蟲。

Scrapy 框架是通過命令行來創建項目的，創建項目的命令如下：

scrapy startproject demo

執行完成之后，在當前運行目錄下便會出現一個文件夾，叫作 demo，這就是一個 Scrapy 項目框架，我們可以基于這個項目框架來編寫爬蟲。

項目文件結構如下所示：

scrapy.cfg project/__init__.pyitems.pypipelines.pysettings.pymiddlewares.pyspiders/__init__.pyspider1.pyspider2.py...

在此要將各個文件的功能描述如下：

好了，到現在為止我們就大體知道了 Scrapy 的基本架構并實操創建了一個 Scrapy 項目，后面我們會詳細了解 Scrapy 的用法，感受它的強大，下節課見。

以上是生活随笔為你收集整理的第41讲：Scrapy框架的介绍的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。