Scrapy爬虫中的链接提取器LinkExtractor
今天在編寫Scrapy爬蟲的時(shí)候接觸到了LinkExtractor,遂學(xué)習(xí)了一下這個(gè)鏈接提取器。
Link Extractors 是那些目的僅僅是從網(wǎng)頁(scrapy.http.Response?對(duì)象)中抽取最終將會(huì)被follow鏈接的對(duì)象。使用場(chǎng)景就是在一個(gè)網(wǎng)站中通過自定義規(guī)則提取到自己想要的那些網(wǎng)址。
Scrapy默認(rèn)提供2種可用的 Link Extractor, 但你通過實(shí)現(xiàn)一個(gè)簡(jiǎn)單的接口創(chuàng)建自己定制的Link Extractor來滿足需求。默認(rèn)的LinkExtractor(也就是LxmlLinkExtractor)擁有比較方便的過濾選項(xiàng),使用LXML的強(qiáng)大的HTMLParser實(shí)現(xiàn)。
使用的時(shí)候先從scrapy.linkextractors模塊中引入:
from scrapy.linkextractors import LinkExtractorLxmlLinkExtractor的使用:
class scrapy.contrib.linkextractors.lxmlhtml.LxmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), deny_extensions=None, restrict_xpaths=(), tags=('a', 'area'), attrs=('href', ), canonicalize=True, unique=True, process_value=None)相關(guān)參數(shù)的含義請(qǐng)參考文檔:http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/link-extractors.html
主要參數(shù):
allow: #滿足括號(hào)中正則表達(dá)式的值會(huì)被提取,如果為空則全部匹配 allow_domains: #會(huì)被提取的鏈接的域名與之相關(guān)的CrawlSpider以及Rule之后應(yīng)該會(huì)一起整合寫一個(gè)博客。
轉(zhuǎn)載于:https://www.cnblogs.com/EdenChanIy/p/9398758.html
總結(jié)
以上是生活随笔為你收集整理的Scrapy爬虫中的链接提取器LinkExtractor的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 梦到跟人吵架哭了很委屈是什么意思
- 下一篇: Echarts地图编写