scrapy的allowed_domains设置含义
生活随笔
收集整理的這篇文章主要介紹了
scrapy的allowed_domains设置含义
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
設置allowed_domains的含義是過濾爬取的域名,在插件OffsiteMiddleware啟用的情況下(默認是啟用的),不在此允許范圍內的域名就會被過濾,而不會進行爬取
但是有一個問題:像下面這種情況,對于start_urls里的起始爬取頁面,它是不會過濾的,它的作用是過濾首頁之后的頁面-----待驗證
#/usr/bin/env python
#coding:utf-8
import scrapy
# import sys
# import os
from scrapy_study.items import DemoItem
class DemoScrapy(scrapy.Spider):
name = 'demoscrapy'
# start_urls = ['http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/tutorial.html']
allowed_domains = ["scrapypython.2org"]
# start_urls = ['https://docs.python.org/2/library/os.path.html']
start_urls = ['http://yogoup.sinaapp.com/']
def parse(self,response):
print response.body
總結
以上是生活随笔為你收集整理的scrapy的allowed_domains设置含义的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 梅花落与折杨柳
- 下一篇: linux的nvme驱动参数调优