當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

一、scrapy爬虫框架——概念作用和工作流程 scrapy的入门使用

發布時間：2024/7/5 编程问答 53 豆豆

生活随笔收集整理的這篇文章主要介紹了一、scrapy爬虫框架——概念作用和工作流程 scrapy的入门使用小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

scrapy的概念和流程

學習目標：

了解 scrapy的概念

了解 scrapy框架的作用

掌握 scrapy框架的運行流程

掌握 scrapy中每個模塊的作用

1. scrapy的概念

Scrapy是一個Python編寫的開源網絡爬蟲框架。它是一個被設計用于爬取網絡數據、提取結構性數據的框架。

Scrapy 使用了Twisted['tw?st?d]異步網絡框架，可以加快我們的下載速度。

Scrapy文檔地址：http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html

2. scrapy框架的作用

少量的代碼，就能夠快速的抓取

3. scrapy的工作流程

3.1 回顧之前的爬蟲流程

3.2 上面的流程可以改寫為

3.3 scrapy的流程

其流程可以描述如下：

爬蟲中起始的url構造成request對象–>爬蟲中間件–>引擎–>調度器

調度器把request–>引擎–>下載中間件—>下載器

下載器發送請求，獲取response響應---->下載中間件---->引擎—>爬蟲中間件—>爬蟲

爬蟲提取url地址，組裝成request對象---->爬蟲中間件—>引擎—>調度器，重復步驟2

爬蟲提取數據—>引擎—>管道處理和保存數據

注意：

圖中中文是為了方便理解后加上去的
圖中綠色線條的表示數據的傳遞
注意圖中中間件的位置，決定了其作用
注意其中引擎的位置，所有的模塊之前相互獨立，只和引擎進行交互

3.4 scrapy的三個內置對象

request請求對象：由url method post_data headers等構成
response響應對象：由url body status headers等構成
item數據對象：本質是個字典

3.5 scrapy中每個模塊的具體作用

注意：

爬蟲中間件和下載中間件只是運行邏輯的位置不同，作用是重復的：如替換UA等

小結

scrapy的概念：Scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應用框架

scrapy框架的運行流程以及數據傳遞過程：

爬蟲中起始的url構造成request對象–>爬蟲中間件–>引擎–>調度器

調度器把request–>引擎–>下載中間件—>下載器

下載器發送請求，獲取response響應---->下載中間件---->引擎—>爬蟲中間件—>爬蟲

爬蟲提取url地址，組裝成request對象---->爬蟲中間件—>引擎—>調度器，重復步驟2

爬蟲提取數據—>引擎—>管道處理和保存數據

scrapy框架的作用：通過少量代碼實現快速抓取

掌握scrapy中每個模塊的作用：
引擎(engine)：負責數據和信號在不腰痛模塊間的傳遞
調度器(scheduler)：實現一個隊列，存放引擎發過來的request請求對象
下載器(downloader)：發送引擎發過來的request請求，獲取響應，并將響應交給引擎
爬蟲(spider)：處理引擎發過來的response，提取數據，提取url，并交給引擎
管道(pipeline)：處理引擎傳遞過來的數據，比如存儲
下載中間件(downloader middleware)：可以自定義的下載擴展，比如設置代理ip
爬蟲中間件(spider middleware)：可以自定義request請求和進行response過濾，與下載中間件作用重復

二、scrapy的入門使用

學習目標：

掌握 scrapy的安裝

應用創建scrapy的項目

應用創建scrapy爬蟲

應用運行scrapy爬蟲

應用 scrapy定位以及提取數據或屬性值的方法

掌握 response響應對象的常用屬性

1 安裝scrapy

命令:

????sudo apt-get install scrapy

或者：

????pip/pip3 install scrapy

2 scrapy項目開發流程

創建項目:

????scrapy startproject mySpider

生成一個爬蟲:

????scrapy genspider itcast itcast.cn

提取數據:

????根據網站結構在spider中實現數據采集相關內容

保存數據:

????使用pipeline進行數據后續處理和保存

3. 創建項目

通過命令將scrapy項目的的文件生成出來，后續步驟都是在項目文件中進行相關操作，下面以抓取傳智師資庫來學習scrapy的入門使用：http://www.itcast.cn/channel/teacher.shtml

創建scrapy項目的命令：

????scrapy startproject <項目名字>

示例：

????scrapy startproject myspider

生成的目錄和文件結果如下：

4. 創建爬蟲

通過命令創建出爬蟲文件，爬蟲文件為主要的代碼作業文件，通常一個網站的爬取動作都會在爬蟲文件中進行編寫。

命令：

????在項目路徑下執行:

????scrapy genspider <爬蟲名字> <允許爬取的域名>

爬蟲名字: 作為爬蟲運行時的參數

允許爬取的域名: 為對于爬蟲設置的爬取范圍，設置之后用于過濾要爬取的url，如果爬取的url與允許的域不通則被過濾掉。

示例：

cd myspiderscrapy genspider itcast itcast.cn

生成的目錄和文件結果如下：

5. 完善爬蟲

在上一步生成出來的爬蟲文件中編寫指定網站的數據采集操作，實現數據提取

5.1 在/myspider/myspider/spiders/itcast.py中修改內容如下:

import scrapyclass ItcastSpider(scrapy.Spider): # 繼承scrapy.spider# 爬蟲名字 name = 'itcast' # 允許爬取的范圍allowed_domains = ['itcast.cn'] # 開始爬取的url地址start_urls = ['http://www.itcast.cn/channel/teacher.shtml']# 數據提取的方法，接受下載中間件傳過來的responsedef parse(self, response): # scrapy的response對象可以直接進行xpathnames = response.xpath('//div[@class="tea_con"]//li/div/h3/text()') print(names)# 獲取具體數據文本的方式如下# 分組li_list = response.xpath('//div[@class="tea_con"]//li') for li in li_list:# 創建一個數據字典item = {}# 利用scrapy封裝好的xpath選擇器定位元素，并通過extract()或extract_first()來獲取結果item['name'] = li.xpath('.//h3/text()').extract_first() # 老師的名字item['level'] = li.xpath('.//h4/text()').extract_first() # 老師的級別item['text'] = li.xpath('.//p/text()').extract_first() # 老師的介紹print(item)

注意：

scrapy.Spider爬蟲類中必須有名為parse的解析
如果網站結構層次比較復雜，也可以自定義其他解析函數
在解析函數中提取的url地址如果要發送請求，則必須屬于allowed_domains范圍內，但是start_urls中的url地址不受這個限制，我們會在后續的課程中學習如何在解析函數中構造發送請求
啟動爬蟲的時候注意啟動的位置，是在項目路徑下啟動
parse()函數中使用yield返回數據，注意：解析函數中的yield能夠傳遞的對象只能是：BaseItem, Request, dict, None

5.2 定位元素以及提取數據、屬性值的方法

解析并獲取scrapy爬蟲中的數據: 利用xpath規則字符串進行定位和提取

response.xpath方法的返回結果是一個類似list的類型，其中包含的是selector對象，操作和列表一樣，但是有一些額外的方法

額外方法extract()：返回一個包含有字符串的列表

額外方法extract_first()：返回列表中的第一個字符串，列表為空沒有返回None

5.3 response響應對象的常用屬性

response.url：當前響應的url地址
response.request.url：當前響應對應的請求的url地址
response.headers：響應頭
response.requests.headers：當前響應的請求頭
response.body：響應體，也就是html代碼，byte類型
response.status：響應狀態碼

6 保存數據

利用管道pipeline來處理(保存)數據

6.1 在pipelines.py文件中定義對數據的操作

定義一個管道類

重寫管道類的process_item方法

process_item方法處理完item之后必須返回給引擎

import jsonclass ItcastPipeline():# 爬蟲文件中提取數據的方法每yield一次item，就會運行一次# 該方法為固定名稱函數def process_item(self, item, spider):print(item)return item

6.2 在settings.py配置啟用管道

ITEM_PIPELINES = {'myspider.pipelines.ItcastPipeline': 400 }

配置項中鍵為使用的管道類，管道類使用.進行分割，第一個為項目目錄，第二個為文件，第三個為定義的管道類。

配置項中值為管道的使用順序，設置的數值約小越優先執行，該值一般設置為1000以內。

7. 運行scrapy

命令：在項目目錄下執行scrapy crawl <爬蟲名字>

示例：scrapy crawl itcast

小結

scrapy的安裝：pip install scrapy

創建scrapy的項目: scrapy startproject myspider

創建scrapy爬蟲：在項目目錄下執行 scrapy genspider itcast itcast.cn

運行scrapy爬蟲：在項目目錄下執行 scrapy crawl itcast

解析并獲取scrapy爬蟲中的數據：

response.xpath方法的返回結果是一個類似list的類型，其中包含的是selector對象，操作和列表一樣，但是有一些額外的方法

extract() 返回一個包含有字符串的列表

extract_first() 返回列表中的第一個字符串，列表為空沒有返回None

scrapy管道的基本使用:

完善pipelines.py中的process_item函數

在settings.py中設置開啟pipeline

response響應對象的常用屬性

response.url：當前響應的url地址

response.request.url：當前響應對應的請求的url地址

response.headers：響應頭

response.requests.headers：當前響應的請求頭

response.body：響應體，也就是html代碼，byte類型

response.status：響應狀態碼

總結

以上是生活随笔為你收集整理的一、scrapy爬虫框架——概念作用和工作流程 scrapy的入门使用的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：七、matplotlib的使用
下一篇：二、在jQuery中使用mockjs

编程问答

一、scrapy爬虫框架——概念作用和工作流程 scrapy的入门使用

scrapy的概念和流程

學習目標：

1. scrapy的概念

2. scrapy框架的作用

3. scrapy的工作流程

3.1 回顧之前的爬蟲流程

3.2 上面的流程可以改寫為

3.3 scrapy的流程

其流程可以描述如下：

注意：

3.4 scrapy的三個內置對象

3.5 scrapy中每個模塊的具體作用

注意：

小結

二、scrapy的入門使用

學習目標：

1 安裝scrapy

2 scrapy項目開發流程

3. 創建項目

4. 創建爬蟲

5. 完善爬蟲

5.1 在/myspider/myspider/spiders/itcast.py中修改內容如下:

注意：

5.2 定位元素以及提取數據、屬性值的方法

5.3 response響應對象的常用屬性

6 保存數據

6.1 在pipelines.py文件中定義對數據的操作

6.2 在settings.py配置啟用管道

7. 運行scrapy

小結

總結

二、scrapy的入門使用