Python爬虫框架--Scrapy
常用命令
startproject??創(chuàng)建一個(gè)新工程 ????scrapy startproject [dir]
genspider?????創(chuàng)建一個(gè)爬蟲 ???????scrapy genspider [options]
settings ????????獲得爬蟲配置信息 scrapy settings [options] crawl
建立步驟
步驟1:建立一個(gè)Scrapy爬蟲工程
選取一個(gè)目錄(D:\pycodes\),然后執(zhí)行如下命令
> scrapy startproject python123demo目錄結(jié)構(gòu)
再來(lái)看一下 spider/文件夾
步驟2:在工程中產(chǎn)生一個(gè)Scrapy爬蟲
進(jìn)入工程目錄(D:\pycodes\python123demo),然后執(zhí)行如下命令,也可以手動(dòng)創(chuàng)建
> scrapy genspider demo python123.io該命令作用:
(1) 生成一個(gè)名稱為demo的spider
(2) 在spiders目錄下增加代碼文件demo.py
(3)上述命令中demo是文件名,python123.io是demo.py文件中的start_urls
步驟3:配置產(chǎn)生的spider爬蟲
配置:(1)初始URL地址 (2)獲取頁(yè)面后的解析方式
# -*- coding: utf-8 -*- import scrapyclass DemoSpider(scrapy.Spider):name = 'demo'#allowed_domains = ['python123.io']start_urls = ['http://python123.io/ws/demo.html']def parse(self, response):fname = response.url.split('/')[-1]with open(fname,'wb') as f:f.write(response.body)self.log('Savad file %s.' % name)步驟4:運(yùn)行爬蟲,獲取網(wǎng)頁(yè)
在命令行下,執(zhí)行如下命令:
demo是/spiders/demo.py中的name變量的值
demo爬蟲被執(zhí)行,捕獲頁(yè)面存儲(chǔ)在demo.html
完整的demo.py代碼
yield關(guān)鍵字的使用見
http://blog.csdn.net/co_zy/article/details/77191480
總結(jié)
以上是生活随笔為你收集整理的Python爬虫框架--Scrapy的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: win10安装scrapy
- 下一篇: Python--yield关键字的使用