當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

python spider怎么用_python爬虫入门（七）Scrapy框架之Spider类

發(fā)布時(shí)間：2024/7/23 python 29 豆豆

生活随笔收集整理的這篇文章主要介紹了 python spider怎么用_python爬虫入门（七）Scrapy框架之Spider类小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Spider類

Spider類定義了如何爬取某個(gè)(或某些)網(wǎng)站。包括了爬取的動(dòng)作(例如:是否跟進(jìn)鏈接)以及如何從網(wǎng)頁(yè)的內(nèi)容中提取結(jié)構(gòu)化數(shù)據(jù)(爬取item)。

換句話說(shuō)，Spider就是您定義爬取的動(dòng)作及分析某個(gè)網(wǎng)頁(yè)(或者是有些網(wǎng)頁(yè))的地方。

class scrapy.Spider是最基本的類，所有編寫的爬蟲必須繼承這個(gè)類。

主要用到的函數(shù)及調(diào)用順序?yàn)?#xff1a;

__init__()?: 初始化爬蟲名字和start_urls列表

start_requests() 調(diào)用make_requests_from url():生成Requests對(duì)象交給Scrapy下載并返回response

parse()?: 解析response，并返回Item或Requests(需指定回調(diào)函數(shù))。Item傳給Item pipline持久化，而Requests交由Scrapy下載，并由指定的回調(diào)函數(shù)處理(默認(rèn)parse())，一直進(jìn)行循環(huán)，直到處理完所有的數(shù)據(jù)為止。

源碼參考

#所有爬蟲的基類，用戶定義的爬蟲必須從這個(gè)類繼承

classSpider(object_ref):#定義spider名字的字符串(string)。spider的名字定義了Scrapy如何定位(并初始化)spider，所以其必須是唯一的。

#name是spider最重要的屬性，而且是必須的。

#一般做法是以該網(wǎng)站(domain)(加或不加后綴 )來(lái)命名spider。例如，如果spider爬取 mywebsite.com ，該spider通常會(huì)被命名為 mywebsite

name =None#初始化，提取爬蟲名字，start_ruls

def __init__(self, name=None, **kwargs):if name is notNone:

self.name=name#如果爬蟲沒(méi)有名字，中斷后續(xù)操作則報(bào)錯(cuò)

elif not getattr(self, 'name', None):raise ValueError("%s must have a name" % type(self).__name__)#python 對(duì)象或類型通過(guò)內(nèi)置成員__dict__來(lái)存儲(chǔ)成員信息

self.__dict__.update(kwargs)#URL列表。當(dāng)沒(méi)有指定的URL時(shí)，spider將從該列表中開(kāi)始進(jìn)行爬取。因此，第一個(gè)被獲取到的頁(yè)面的URL將是該列表之一。后續(xù)的URL將會(huì)從獲取到的數(shù)據(jù)中提取。

if not hasattr(self, 'start_urls'):

self.start_urls=[]#打印Scrapy執(zhí)行后的log信息

def log(self, message, level=log.DEBUG, **kw):

log.msg(message, spider=self, level=level, **kw)#判斷對(duì)象object的屬性是否存在，不存在做斷言處理

defset_crawler(self, crawler):assert not hasattr(self, '_crawler'), "Spider already bounded to %s" %crawler

self._crawler=crawler

@propertydefcrawler(self):assert hasattr(self, '_crawler'), "Spider not bounded to any crawler"

returnself._crawler

@propertydefsettings(self):returnself.crawler.settings#該方法將讀取start_urls內(nèi)的地址，并為每一個(gè)地址生成一個(gè)Request對(duì)象，交給Scrapy下載并返回Response

#該方法僅調(diào)用一次

defstart_requests(self):for url inself.start_urls:yieldself.make_requests_from_url(url)#start_requests()中調(diào)用，實(shí)際生成Request的函數(shù)。

#Request對(duì)象默認(rèn)的回調(diào)函數(shù)為parse()，提交的方式為get

defmake_requests_from_url(self, url):return Request(url, dont_filter=True)#默認(rèn)的Request對(duì)象回調(diào)函數(shù)，處理返回的response。

#生成Item或者Request對(duì)象。用戶必須實(shí)現(xiàn)這個(gè)類

defparse(self, response):raiseNotImplementedError

@classmethoddefhandles_request(cls, request):returnurl_is_from_spider(request.url, cls)def __str__(self):return "" % (type(self).__name__, self.name, id(self))__repr__ = __str__

主要屬性和方法

name

定義spider名字的字符串。

例如，如果spider爬取 mywebsite.com ，該spider通常會(huì)被命名為 mywebsite

allowed_domains

包含了spider允許爬取的域名(domain)的列表，可選。

start_urls

初始URL元祖/列表。當(dāng)沒(méi)有制定特定的URL時(shí)，spider將從該列表中開(kāi)始進(jìn)行爬取。

start_requests(self)

該方法必須返回一個(gè)可迭代對(duì)象(iterable)。該對(duì)象包含了spider用于爬取(默認(rèn)實(shí)現(xiàn)是使用 start_urls 的url)的第一個(gè)Request。

當(dāng)spider啟動(dòng)爬取并且未指定start_urls時(shí)，該方法被調(diào)用。

parse(self, response)

當(dāng)請(qǐng)求url返回網(wǎng)頁(yè)沒(méi)有指定回調(diào)函數(shù)時(shí)，默認(rèn)的Request對(duì)象回調(diào)函數(shù)。用來(lái)處理網(wǎng)頁(yè)返回的response，以及生成Item或者Request對(duì)象。

Scrapy框架爬取--->>>騰訊招聘的所有職位信息

1.先分析騰訊招聘網(wǎng)站url

第一頁(yè)：https://hr.tencent.com/position.php?&start=0#a

第二頁(yè)：https://hr.tencent.com/position.php?&start=10#a

第三頁(yè)：https://hr.tencent.com/position.php?&start=20#a

發(fā)現(xiàn)有的職位類別為空，所有在找職位類別的時(shí)候空值也要加進(jìn)去，否則for循環(huán)取不到值會(huì)直接退出了 ./td[2]/text()|./td[2]

2.目錄結(jié)構(gòu)

3.items.py

#-*- coding: utf-8 -*-

importscrapyclassTencentItem(scrapy.Item):#職位名

positionname =scrapy.Field()#詳情連接

positionlink =scrapy.Field()#職位類別

positionType =scrapy.Field()#招聘人數(shù)

peopleNum =scrapy.Field()#工作地點(diǎn)

workLocation =scrapy.Field()#發(fā)布時(shí)間

publishTime = scrapy.Field()

4.tencentPosition.py

tencentPosition.py用命令創(chuàng)建 scrapy genspider tencentPosition "tencent.com"

#-*- coding: utf-8 -*-

importscrapyfrom tencent.items importTencentItemclassTencentpositionSpider(scrapy.Spider):

name= "tencent"allowed_domains= ["tencent.com"]

url= "http://hr.tencent.com/position.php?&start="offset=0

start_urls= [url +str(offset)]defparse(self, response):for each in response.xpath("//tr[@class='even'] | //tr[@class='odd']"):#初始化模型對(duì)象

item =TencentItem()

#職位名稱

item['positionname'] = each.xpath("./td[1]/a/text()").extract()[0]#詳情連接

item['positionlink'] = each.xpath("./td[1]/a/@href").extract()[0]#職位類別

item['positionType'] = each.xpath("./td[2]/text()|./td[2]").extract()[0]#招聘人數(shù)

item['peopleNum'] = each.xpath("./td[3]/text()").extract()[0]#工作地點(diǎn)

item['workLocation'] = each.xpath("./td[4]/text()").extract()[0]#發(fā)布時(shí)間

item['publishTime'] = each.xpath("./td[5]/text()").extract()[0]yielditemif self.offset < 3171:

self.offset+= 10

#每次處理完一頁(yè)的數(shù)據(jù)之后，重新發(fā)送下一頁(yè)頁(yè)面請(qǐng)求

#self.offset自增10，同時(shí)拼接為新的url，并調(diào)用回調(diào)函數(shù)self.parse處理Response

yield scrapy.Request(self.url + str(self.offset), callback = self.parse)

5.pipelines.py

#-*- coding: utf-8 -*-

importjsonclassTencentPipeline(object):def __init__(self):

self.filename= open("tencent.json", "w")defprocess_item(self, item, spider):

text= json.dumps(dict(item), ensure_ascii = False) + ",\n"self.filename.write(text.encode("utf-8"))returnitemdefclose_spider(self, spider):

self.filename.close()

6.settings.py里面的設(shè)置

ROBOTSTXT_OBEY =True

DOWNLOAD_DELAY= 4 #防止爬取過(guò)快丟失數(shù)據(jù)

DEFAULT_REQUEST_HEADERS={"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;",'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'}

ITEM_PIPELINES={'tencent.pipelines.TencentPipeline': 300,

}

爬取的結(jié)果

總結(jié)

以上是生活随笔為你收集整理的python spider怎么用_python爬虫入门（七）Scrapy框架之Spider类的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：照片识别出错_AI跨年龄人脸识别技术在跨
下一篇： treeselect只选了分支节点全选_