日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

Python爬虫框架--Scrapy

發布時間:2025/3/21 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python爬虫框架--Scrapy 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

常用命令

startproject??創建一個新工程 ????scrapy startproject [dir]
genspider?????創建一個爬蟲 ???????scrapy genspider [options]
settings ????????獲得爬蟲配置信息 scrapy settings [options] crawl

建立步驟

步驟1:建立一個Scrapy爬蟲工程

選取一個目錄(D:\pycodes\),然后執行如下命令

> scrapy startproject python123demo

目錄結構

再來看一下 spider/文件夾

步驟2:在工程中產生一個Scrapy爬蟲

進入工程目錄(D:\pycodes\python123demo),然后執行如下命令,也可以手動創建

> scrapy genspider demo python123.io

該命令作用:
(1) 生成一個名稱為demo的spider
(2) 在spiders目錄下增加代碼文件demo.py
(3)上述命令中demo是文件名,python123.io是demo.py文件中的start_urls

步驟3:配置產生的spider爬蟲

配置:(1)初始URL地址 (2)獲取頁面后的解析方式

# -*- coding: utf-8 -*- import scrapyclass DemoSpider(scrapy.Spider):name = 'demo'#allowed_domains = ['python123.io']start_urls = ['http://python123.io/ws/demo.html']def parse(self, response):fname = response.url.split('/')[-1]with open(fname,'wb') as f:f.write(response.body)self.log('Savad file %s.' % name)

步驟4:運行爬蟲,獲取網頁

在命令行下,執行如下命令:
demo是/spiders/demo.py中的name變量的值

scrapy crawl demo

demo爬蟲被執行,捕獲頁面存儲在demo.html

完整的demo.py代碼

yield關鍵字的使用見
http://blog.csdn.net/co_zy/article/details/77191480

總結

以上是生活随笔為你收集整理的Python爬虫框架--Scrapy的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。