當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

Python爬虫框架--Scrapy

發(fā)布時(shí)間：2025/3/21 python 25 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python爬虫框架--Scrapy 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

常用命令

startproject??創(chuàng)建一個(gè)新工程 ????scrapy startproject [dir]
genspider?????創(chuàng)建一個(gè)爬蟲 ???????scrapy genspider [options]
settings ????????獲得爬蟲配置信息 scrapy settings [options] crawl

建立步驟

步驟1：建立一個(gè)Scrapy爬蟲工程

選取一個(gè)目錄（D:\pycodes\），然后執(zhí)行如下命令

> scrapy startproject python123demo

目錄結(jié)構(gòu)

再來(lái)看一下 spider/文件夾

步驟2：在工程中產(chǎn)生一個(gè)Scrapy爬蟲

進(jìn)入工程目錄（D:\pycodes\python123demo），然后執(zhí)行如下命令,也可以手動(dòng)創(chuàng)建

> scrapy genspider demo python123.io

該命令作用：
(1) 生成一個(gè)名稱為demo的spider
(2) 在spiders目錄下增加代碼文件demo.py
(3)上述命令中demo是文件名,python123.io是demo.py文件中的start_urls

步驟3：配置產(chǎn)生的spider爬蟲

配置：（1）初始URL地址（2）獲取頁(yè)面后的解析方式

# -*- coding: utf-8 -*- import scrapyclass DemoSpider(scrapy.Spider):name = 'demo'#allowed_domains = ['python123.io']start_urls = ['http://python123.io/ws/demo.html']def parse(self, response):fname = response.url.split('/')[-1]with open(fname,'wb') as f:f.write(response.body)self.log('Savad file %s.' % name)

步驟4：運(yùn)行爬蟲，獲取網(wǎng)頁(yè)

在命令行下，執(zhí)行如下命令：
demo是/spiders/demo.py中的name變量的值

scrapy crawl demo

demo爬蟲被執(zhí)行，捕獲頁(yè)面存儲(chǔ)在demo.html

完整的demo.py代碼

yield關(guān)鍵字的使用見
http://blog.csdn.net/co_zy/article/details/77191480

總結(jié)

以上是生活随笔為你收集整理的Python爬虫框架--Scrapy的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： win10安装scrapy
下一篇： Python--yield关键字的使用