scrapy 动态IP、随机UA、验证码
生活随笔
收集整理的這篇文章主要介紹了
scrapy 动态IP、随机UA、验证码
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
隨機(jī)UA
https://github.com/hellysmile/fake-useragent
DOWNLOADER_MIDDLEWARES增加自定義
from fake_useragent import UserAgentclass RandomUserAgentMiddlware(object):# 隨機(jī)更換user-agentdef __init__(self, crawler):super(RandomUserAgentMiddlware, self).__init__()self.ua = UserAgent()self.ua_type = crawler.settings.get("RANDOM_UA_TYPE", "random")@classmethoddef from_crawler(cls, crawler):return cls(crawler)def process_request(self, request, spider):def get_ua():return getattr(self.ua, self.ua_type)request.headers.setdefault('User-Agent', get_ua())備注:settings.py增加配置項(xiàng)
RANDOM_UA_TYPE = "random"
?
動(dòng)態(tài)IP
1、通過免費(fèi)的代理IP,如西刺,自己獲取IP源進(jìn)行使用
2、免費(fèi)插件scrapy_proxies
https://github.com/aivarsk/scrapy-proxies
3、收費(fèi)插件scrapy-crawlera
https://github.com/scrapy-plugins/scrapy-crawlera
?
驗(yàn)證碼
1、編碼實(shí)現(xiàn)(tesseract-ocr)
2、在線打碼,如云打碼
3、人工打碼
?
?
?
RANDOM_UA_TYPE = "random"轉(zhuǎn)載于:https://www.cnblogs.com/shhnwangjian/p/7339316.html
總結(jié)
以上是生活随笔為你收集整理的scrapy 动态IP、随机UA、验证码的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。