日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

用python进行多页数据爬取_Python Scrapy如何实现多页数据爬取?

發布時間:2024/7/23 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 用python进行多页数据爬取_Python Scrapy如何实现多页数据爬取? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Python Scrapy如何實現多頁數據爬取?

發布時間:2020-06-23 11:47:46

來源:億速云

閱讀:112

作者:清晨

這篇文章將為大家詳細講解有關Python Scrapy如何實現多頁數據爬取?,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。

1.先指定通用模板url = 'https://www.qiushibaike.com/text/page/%d/'#通用的url模板

pageNum = 1

2.對parse方法遞歸處理

parse第一次調用表示的是用來解析第一頁對應頁面中的數據

對后面的頁碼的數據要進行手動發送

if self.pageNum <= 5:

self.pageNum += 1

new_url = format(self.url%self.pageNum)

#手動請求(get)的發送

yield scrapy.Request(new_url,callback=self.parse)

完整示例

class QiubaiSpider(scrapy.Spider):

name = 'qiubai'

# allowed_domains = ['www.xxx.com']

start_urls = ['https://www.qiushibaike.com/text/']

url = 'https://www.qiushibaike.com/text/page/%d/'#通用的url模板

pageNum = 1

#parse第一次調用表示的是用來解析第一頁對應頁面中的段子內容和作者

def parse(self, response):

div_list = response.xpath('//*[@id="content-left"]/div')

all_data = []

for div in div_list:

author = div.xpath('./div[1]/a[2]/h3/text()').extract_first()

content = div.xpath('./a[1]/div/span//text()').extract()

content = ''.join(content)

# 將解析的數據存儲到item對象

item = QiubaiproItem()

item['author'] = author

item['content'] = content

# 將item提交給管道

yield item # item一定是提交給了優先級最高的管道類

if self.pageNum <= 5:

self.pageNum += 1

new_url = format(self.url%self.pageNum)

#手動請求(get)的發送

yield scrapy.Request(new_url,callback=self.parse)

關于Python Scrapy如何實現多頁數據爬取?就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

總結

以上是生活随笔為你收集整理的用python进行多页数据爬取_Python Scrapy如何实现多页数据爬取?的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。