用python进行多页数据爬取_Python Scrapy如何实现多页数据爬取?
Python Scrapy如何實(shí)現(xiàn)多頁數(shù)據(jù)爬取?
發(fā)布時(shí)間:2020-06-23 11:47:46
來源:億速云
閱讀:112
作者:清晨
這篇文章將為大家詳細(xì)講解有關(guān)Python Scrapy如何實(shí)現(xiàn)多頁數(shù)據(jù)爬取?,小編覺得挺實(shí)用的,因此分享給大家做個(gè)參考,希望大家閱讀完這篇文章后可以有所收獲。
1.先指定通用模板url = 'https://www.qiushibaike.com/text/page/%d/'#通用的url模板
pageNum = 1
2.對parse方法遞歸處理
parse第一次調(diào)用表示的是用來解析第一頁對應(yīng)頁面中的數(shù)據(jù)
對后面的頁碼的數(shù)據(jù)要進(jìn)行手動發(fā)送
if self.pageNum <= 5:
self.pageNum += 1
new_url = format(self.url%self.pageNum)
#手動請求(get)的發(fā)送
yield scrapy.Request(new_url,callback=self.parse)
完整示例
class QiubaiSpider(scrapy.Spider):
name = 'qiubai'
# allowed_domains = ['www.xxx.com']
start_urls = ['https://www.qiushibaike.com/text/']
url = 'https://www.qiushibaike.com/text/page/%d/'#通用的url模板
pageNum = 1
#parse第一次調(diào)用表示的是用來解析第一頁對應(yīng)頁面中的段子內(nèi)容和作者
def parse(self, response):
div_list = response.xpath('//*[@id="content-left"]/div')
all_data = []
for div in div_list:
author = div.xpath('./div[1]/a[2]/h3/text()').extract_first()
content = div.xpath('./a[1]/div/span//text()').extract()
content = ''.join(content)
# 將解析的數(shù)據(jù)存儲到item對象
item = QiubaiproItem()
item['author'] = author
item['content'] = content
# 將item提交給管道
yield item # item一定是提交給了優(yōu)先級最高的管道類
if self.pageNum <= 5:
self.pageNum += 1
new_url = format(self.url%self.pageNum)
#手動請求(get)的發(fā)送
yield scrapy.Request(new_url,callback=self.parse)
關(guān)于Python Scrapy如何實(shí)現(xiàn)多頁數(shù)據(jù)爬取?就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,可以學(xué)到更多知識。如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到。
總結(jié)
以上是生活随笔為你收集整理的用python进行多页数据爬取_Python Scrapy如何实现多页数据爬取?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java cxf 不使用springmv
- 下一篇: python pdf转txt保留全部信息