當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

用python进行多页数据爬取_Python Scrapy如何实现多页数据爬取？

發(fā)布時(shí)間：2024/7/23 python 30 豆豆

生活随笔收集整理的這篇文章主要介紹了用python进行多页数据爬取_Python Scrapy如何实现多页数据爬取？小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Python Scrapy如何實(shí)現(xiàn)多頁數(shù)據(jù)爬取？

發(fā)布時(shí)間：2020-06-23 11:47:46

來源：億速云

閱讀：112

作者：清晨

這篇文章將為大家詳細(xì)講解有關(guān)Python Scrapy如何實(shí)現(xiàn)多頁數(shù)據(jù)爬取？，小編覺得挺實(shí)用的，因此分享給大家做個(gè)參考，希望大家閱讀完這篇文章后可以有所收獲。

1.先指定通用模板url = 'https://www.qiushibaike.com/text/page/%d/'#通用的url模板

pageNum = 1

2.對parse方法遞歸處理

parse第一次調(diào)用表示的是用來解析第一頁對應(yīng)頁面中的數(shù)據(jù)

對后面的頁碼的數(shù)據(jù)要進(jìn)行手動發(fā)送

if self.pageNum <= 5:

self.pageNum += 1

new_url = format(self.url%self.pageNum)

#手動請求(get)的發(fā)送

yield scrapy.Request(new_url,callback=self.parse)

完整示例

class QiubaiSpider(scrapy.Spider):

name = 'qiubai'

# allowed_domains = ['www.xxx.com']

start_urls = ['https://www.qiushibaike.com/text/']

url = 'https://www.qiushibaike.com/text/page/%d/'#通用的url模板

pageNum = 1

#parse第一次調(diào)用表示的是用來解析第一頁對應(yīng)頁面中的段子內(nèi)容和作者

def parse(self, response):

div_list = response.xpath('//*[@id="content-left"]/div')

all_data = []

for div in div_list:

author = div.xpath('./div[1]/a[2]/h3/text()').extract_first()

content = div.xpath('./a[1]/div/span//text()').extract()

content = ''.join(content)

# 將解析的數(shù)據(jù)存儲到item對象

item = QiubaiproItem()

item['author'] = author

item['content'] = content

# 將item提交給管道

yield item # item一定是提交給了優(yōu)先級最高的管道類

if self.pageNum <= 5:

self.pageNum += 1

new_url = format(self.url%self.pageNum)

#手動請求(get)的發(fā)送

yield scrapy.Request(new_url,callback=self.parse)

關(guān)于Python Scrapy如何實(shí)現(xiàn)多頁數(shù)據(jù)爬取？就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，可以學(xué)到更多知識。如果覺得文章不錯(cuò)，可以把它分享出去讓更多的人看到。

總結(jié)

以上是生活随笔為你收集整理的用python进行多页数据爬取_Python Scrapy如何实现多页数据爬取？的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： java cxf 不使用springmv
下一篇： python pdf转txt保留全部信息

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

用python进行多页数据爬取_Python Scrapy如何实现多页数据爬取？

總結(jié)