python爬虫学习日记(1) scrapy爬取时,报错Filtered offsite request
使用scrapy框架抓取某妹子圖網時,只能抓取第一頁,第二頁報錯
[scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'www.xxxx.com': <GET http://www.xxxx.com/ent/meinvtupian/list_11_2.html>
度娘找到答案:
因為 Request中請求的 URL 和 allowed_domains 中定義的域名沖突,所以將Request中請求的URL過濾掉了,無法請求
yield scrapy.Request(url,callback=self.parse)
解決辦法一:? ? 在 Request 請求參數中,設置 dont_filter = True ,Request 中請求的 URL 將不通過 allowed_domains 過濾。
????????????????yield scrapy.Request(url,callback=self.parse,dont_filter=True)
解決辦法二: 將allowed_domains = ['www.xxxx.com']更改為allowed_domains = ['xxxx.com'] 即更換為對應的一級域名
原文鏈接:https://blog.csdn.net/weixin_41607151/article/details/80515030
總結
以上是生活随笔為你收集整理的python爬虫学习日记(1) scrapy爬取时,报错Filtered offsite request的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 极客时间学习笔记☞《苏杰的产品创新课》(
- 下一篇: Python精美地理可视化绘制——以中国