日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程语言 > python >内容正文

python

Python爬虫框架--Scrapy

發(fā)布時(shí)間:2025/3/21 python 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python爬虫框架--Scrapy 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

常用命令

startproject??創(chuàng)建一個(gè)新工程 ????scrapy startproject [dir]
genspider?????創(chuàng)建一個(gè)爬蟲 ???????scrapy genspider [options]
settings ????????獲得爬蟲配置信息 scrapy settings [options] crawl

建立步驟

步驟1:建立一個(gè)Scrapy爬蟲工程

選取一個(gè)目錄(D:\pycodes\),然后執(zhí)行如下命令

> scrapy startproject python123demo

目錄結(jié)構(gòu)

再來(lái)看一下 spider/文件夾

步驟2:在工程中產(chǎn)生一個(gè)Scrapy爬蟲

進(jìn)入工程目錄(D:\pycodes\python123demo),然后執(zhí)行如下命令,也可以手動(dòng)創(chuàng)建

> scrapy genspider demo python123.io

該命令作用:
(1) 生成一個(gè)名稱為demo的spider
(2) 在spiders目錄下增加代碼文件demo.py
(3)上述命令中demo是文件名,python123.io是demo.py文件中的start_urls

步驟3:配置產(chǎn)生的spider爬蟲

配置:(1)初始URL地址 (2)獲取頁(yè)面后的解析方式

# -*- coding: utf-8 -*- import scrapyclass DemoSpider(scrapy.Spider):name = 'demo'#allowed_domains = ['python123.io']start_urls = ['http://python123.io/ws/demo.html']def parse(self, response):fname = response.url.split('/')[-1]with open(fname,'wb') as f:f.write(response.body)self.log('Savad file %s.' % name)

步驟4:運(yùn)行爬蟲,獲取網(wǎng)頁(yè)

在命令行下,執(zhí)行如下命令:
demo是/spiders/demo.py中的name變量的值

scrapy crawl demo

demo爬蟲被執(zhí)行,捕獲頁(yè)面存儲(chǔ)在demo.html

完整的demo.py代碼

yield關(guān)鍵字的使用見
http://blog.csdn.net/co_zy/article/details/77191480

總結(jié)

以上是生活随笔為你收集整理的Python爬虫框架--Scrapy的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。