python的scrapy框架的安装_Python爬虫基础(四)--Scrapy框架的安装及介绍
Scrapy框架的介紹
安裝:
pip3 install Scrapy
安裝測試:
cmd命令行界面,輸入:scrapy -h
框架安裝完成;
scrapy框架:
分為五個模塊+兩個中間件(5+2結(jié)構(gòu)):
spiders(用戶入口,需要配置):
解析download返回的響應(yīng)
產(chǎn)生爬取項(xiàng)
產(chǎn)生額外的爬取請求
spider middleware中間件(用戶配置)--在spider和engine模塊之間:
對請求和爬取項(xiàng)的再處理:修改、丟棄、新增請求或爬取項(xiàng)
engine(不需要修改):
控制所有模塊之間的數(shù)據(jù)流
根據(jù)條件觸發(fā)事件
download middleware中間件(用戶配置)--在engine和downloader模塊之間:
實(shí)時(shí)engine、scheduler、download之間進(jìn)行用戶可配置的控制,用于修改、丟棄、新增請求或相應(yīng)
downloader(不需要修改):
根據(jù)請求下載網(wǎng)頁
scheduler(不需要修改):
對所有爬取請求進(jìn)行調(diào)度管理
item pipelines(出口,需要配置):
以流水線方式處理spiders產(chǎn)生的爬取項(xiàng)
由一組操作順序組成,類似流水線,每個操作是一個item pipelines類型
可能操作包括:清理、檢驗(yàn)和查重爬取項(xiàng)中的html數(shù)據(jù),將數(shù)據(jù)存儲到數(shù)據(jù)庫
用戶重點(diǎn)編寫spider模塊和item piplines模塊,并且通過編寫中間件對數(shù)據(jù)流進(jìn)行操作
scrapy爬蟲常用命令:
startproject:創(chuàng)建一個項(xiàng)目 scrapy startproject [dir]scrapy startproject pythondemo1
genspider:創(chuàng)建一個爬蟲 scrapy genspider [options]
setting:獲得爬蟲配置信息 scrapy setting [options]
crawl:運(yùn)行一個爬蟲 scrapy crawl
list:列出所有的爬蟲 scrapy list
shell:啟動url調(diào)試命令 scrapy shell [url]
scrapy框架爬蟲示例:
1、創(chuàng)建一個爬蟲工程:scrapy startproject pythondemo123
工程目錄下結(jié)構(gòu):
最外層的pythondemo123為外層目錄
----pythondemo123/ scrapy框架的用戶自定義python代碼
--------__init__.py 初始化腳本,不需要修改
--------items.py item代碼模板(繼承類)一般情況下不需要修改
--------middlewares.py middlewares模板(繼承類) 如果需要擴(kuò)展這個模塊的功能,則需要修改
--------pipelines.py pipelines代碼模板(繼承類)
--------setting.py scrapy爬蟲的配置文件 如果優(yōu)化爬蟲功能,需要修改對應(yīng)的配置項(xiàng)
--------spiders/ spiders代碼模板目錄(繼承類)
------------__init__.py
-----------pycache文件
----scrapy.py 部署scrapy爬蟲的配置文件(要執(zhí)行scrapy服務(wù)器的配置信息,在本機(jī)執(zhí)行的話不需要配置)
2、生成一個爬蟲:
scrapy genspider demo python123.io #在spiders文件夾下生成demo.py 域名為python123.io
3、配置產(chǎn)生的爬蟲
4、運(yùn)行爬蟲,獲取網(wǎng)頁
scrapy crawl demo
最終獲取到demo.html
總結(jié)
以上是生活随笔為你收集整理的python的scrapy框架的安装_Python爬虫基础(四)--Scrapy框架的安装及介绍的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: sqlalchemy limit_SQL
- 下一篇: python列表和字典_python使用