日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

scrapy爬取动态网页_scrapy_splash 设置随机请求头

發布時間:2023/12/4 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 scrapy爬取动态网页_scrapy_splash 设置随机请求头 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文為

霾大:scrapy_splash 爬取 js 加載網頁初體驗?zhuanlan.zhihu.com

的補充

在上面的文章中我們僅僅是初步完成了 scrapy_splash 的簡單使用

接下來我們將介紹如何是使得 splash 在 render.html (默認)訪問網頁時也能動態調整其請求頭等(代理等同理)

往常來說,我們設置 scrapy 的隨機請求頭是在中間件處,沿著這個思路,同理我們亦可以沿著這個思路設置,使得爬蟲解析與反爬手段分離。

步驟

  • 首先在 settings 文件放入一批 UA
  • USER_AGENTS = ['Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50','Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50','Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0','Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)','Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36','Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11','Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36','Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko' ]

    2. 修改 middlewares 文件

    import random from scrapy_test.settings import USER_AGENTSclass RandomUA(object):def process_request(self, request, spider):ua = random.choice(USER_AGENTS)request.headers.setdefault('User-Agent', ua)

    3. 在 settings 文件啟用我們剛定義的中間件

    DOWNLOADER_MIDDLEWARES = {# 'scrapy_test.middlewares.ScrapyTestDownloaderMiddleware': 543,'scrapy_test.middlewares.RandomUA': 543, }

    運行結果及解析

    確認當前的 request 類型為 SplashRequest

    匹配到目標數據,配置 headers 成功

    推薦閱讀

  • 霾大:scrapy_splash 爬取 js 加載網頁初體驗
  • 代碼傳送門

    LZC6244/scrapy_splash_test?github.com

    原創文章,轉載請保留或注明出處!

    創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

    總結

    以上是生活随笔為你收集整理的scrapy爬取动态网页_scrapy_splash 设置随机请求头的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。