當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

python的scrapy框架的安装_Python爬虫基础（四）--Scrapy框架的安装及介绍

發(fā)布時(shí)間：2024/1/23 python 35 豆豆

生活随笔收集整理的這篇文章主要介紹了 python的scrapy框架的安装_Python爬虫基础（四）--Scrapy框架的安装及介绍小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Scrapy框架的介紹

安裝：

pip3 install Scrapy

安裝測試：

cmd命令行界面，輸入：scrapy -h

框架安裝完成；

scrapy框架：

分為五個模塊+兩個中間件（5+2結(jié)構(gòu)）：

spiders(用戶入口，需要配置)：

解析download返回的響應(yīng)

產(chǎn)生爬取項(xiàng)

產(chǎn)生額外的爬取請求

spider middleware中間件（用戶配置）--在spider和engine模塊之間：

對請求和爬取項(xiàng)的再處理：修改、丟棄、新增請求或爬取項(xiàng)

engine(不需要修改)：

控制所有模塊之間的數(shù)據(jù)流

根據(jù)條件觸發(fā)事件

download middleware中間件（用戶配置）--在engine和downloader模塊之間：

實(shí)時(shí)engine、scheduler、download之間進(jìn)行用戶可配置的控制，用于修改、丟棄、新增請求或相應(yīng)

downloader(不需要修改)：

根據(jù)請求下載網(wǎng)頁

scheduler(不需要修改)：

對所有爬取請求進(jìn)行調(diào)度管理

item pipelines(出口，需要配置):

以流水線方式處理spiders產(chǎn)生的爬取項(xiàng)

由一組操作順序組成，類似流水線，每個操作是一個item pipelines類型

可能操作包括：清理、檢驗(yàn)和查重爬取項(xiàng)中的html數(shù)據(jù)，將數(shù)據(jù)存儲到數(shù)據(jù)庫

用戶重點(diǎn)編寫spider模塊和item piplines模塊，并且通過編寫中間件對數(shù)據(jù)流進(jìn)行操作

scrapy爬蟲常用命令：

startproject:創(chuàng)建一個項(xiàng)目 scrapy startproject [dir]scrapy startproject pythondemo1

genspider:創(chuàng)建一個爬蟲 scrapy genspider [options]

setting:獲得爬蟲配置信息 scrapy setting [options]

crawl:運(yùn)行一個爬蟲 scrapy crawl

list:列出所有的爬蟲 scrapy list

shell:啟動url調(diào)試命令 scrapy shell [url]

scrapy框架爬蟲示例：

1、創(chuàng)建一個爬蟲工程：scrapy startproject pythondemo123

工程目錄下結(jié)構(gòu)：

最外層的pythondemo123為外層目錄

----pythondemo123/ scrapy框架的用戶自定義python代碼

--------__init__.py 初始化腳本，不需要修改

--------items.py item代碼模板（繼承類）一般情況下不需要修改

--------middlewares.py middlewares模板（繼承類）如果需要擴(kuò)展這個模塊的功能，則需要修改

--------pipelines.py pipelines代碼模板（繼承類）

--------setting.py scrapy爬蟲的配置文件如果優(yōu)化爬蟲功能，需要修改對應(yīng)的配置項(xiàng)

--------spiders/ spiders代碼模板目錄（繼承類）

------------__init__.py

-----------pycache文件

----scrapy.py 部署scrapy爬蟲的配置文件（要執(zhí)行scrapy服務(wù)器的配置信息，在本機(jī)執(zhí)行的話不需要配置）

2、生成一個爬蟲：

scrapy genspider demo python123.io #在spiders文件夾下生成demo.py 域名為python123.io

3、配置產(chǎn)生的爬蟲

4、運(yùn)行爬蟲，獲取網(wǎng)頁

scrapy crawl demo

最終獲取到demo.html

總結(jié)

以上是生活随笔為你收集整理的python的scrapy框架的安装_Python爬虫基础（四）--Scrapy框架的安装及介绍的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： sqlalchemy limit_SQL
下一篇： python列表和字典_python使用

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

python的scrapy框架的安装_Python爬虫基础（四）--Scrapy框架的安装及介绍

總結(jié)