日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Scrapy设置headers、cookies三种方法

發(fā)布時(shí)間:2024/3/12 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Scrapy设置headers、cookies三种方法 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

方法一:start_requests方法中添加cookies與headers:

1、重寫spider中的start_requests方法

瀏覽器中cookies是這樣的

Cookie:_T_WM=98075578786; WEIBOCN_WM=3349; H5_wentry=H5; backURL=https%3A%2F%2Fm.weibo.cn%2Fdetail%2F4396824548695177; ALF=1568417075; SCF=Ap5VqXy_BfNHBEUteiYtYDRa04jqF4QPJBULzWo7c1c_noO0GpnJW3BqhIkH7JXJSwWhL0qSg69_Vici5P7NbmY.; SUB=_2A25wUOt6DeRhGeFM41AT9y3LyDSIHXVTuvUyrDV6PUJbktANLVXzkW1NQL_2tT4ZmobAs5b6HbIQwSRXHjjiRkzj; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WFWyDsTszIBJPBJ6gn7ccSM5JpX5K-hUgL.FoME1hzES0eNe0n2dJLoI0YLxK-L1K.L1KMLxK-L1KzLBoeLxK-L12BLBK2LxK-LBK-LB.BLxK-LBK-LB.BLxKnLB-qLBoBLxKnLB-qLBoBt; SUHB=0S7CWHWuRz1aWf; SSOLoginState=1565825835

需要轉(zhuǎn)換為字典格式

轉(zhuǎn)換代碼:

def transform(self,cookies):cookie_dict = {}cookies = cookies.replace(' ','')list = cookies.split(';')for i in list:keys = i.split('=')[0]values = i.split('=')[1]cookie_dict[keys] = valuesreturn cookie_dict

在start_request中新增

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'} cookies = {'_T_WM': '98075578786', 'WEIBOCN_WM': '3349', 'H5_wentry': 'H5', 'backURL': 'https%3A%2F%2Fm.weibo.cn%2Fdetail%2F4396824548695177', 'ALF': '1568417075', 'SCF': 'Ap5VqXy_BfNHBEUteiYtYDRa04jqF4QPJBULzWo7c1c_noO0GpnJW3BqhIkH7JXJSwWhL0qSg69_Vici5P7NbmY.', 'SUB': '_2A25wUOt6DeRhGeFM41AT9y3LyDSIHXVTuvUyrDV6PUJbktANLVXzkW1NQL_2tT4ZmobAs5b6HbIQwSRXHjjiRkzj', 'SUBP': '0033WrSXqPxfM725Ws9jqgMF55529P9D9WFWyDsTszIBJPBJ6gn7ccSM5JpX5K-hUgL.FoME1hzES0eNe0n2dJLoI0YLxK-L1K.L1KMLxK-L1KzLBoeLxK-L12BLBK2LxK-LBK-LB.BLxK-LBK-LB.BLxKnLB-qLBoBLxKnLB-qLBoBt', 'SUHB': '0S7CWHWuRz1aWf', 'SSOLoginState': '1565825835'}

2、修改方法返回值

yield scrapy.Request(url=url, headers=headers, cookies=cookies, callback=self.parse)??

樣例:

3、修改COOKIES_ENABLED

  • 當(dāng)COOKIES_ENABLED是注釋的時(shí)候scrapy默認(rèn)沒有開啟cookie
  • 當(dāng)COOKIES_ENABLED沒有注釋設(shè)置為False的時(shí)候scrapy默認(rèn)使用了settings里面的cookie
  • 當(dāng)COOKIES_ENABLED設(shè)置為True的時(shí)候scrapy就會(huì)把settings的cookie關(guān)掉,使用自定義cookie

所以需要在settings.py文件中設(shè)置COOKIES_ENABLED = True?

并且在settings.py文件中設(shè)置ROBOTSTXT_OBEY = False? #不遵守robotstxt協(xié)議

方法二:在setting.py文件中添加cookies與headers? ?--- 最簡(jiǎn)單的方法

  • settings文件中給Cookies_enabled=False和DEFAULT_REQUEST_HEADERS解注釋
  • 在settings的DEFAULT_REQUEST_HEADERS配置的cookie就可以使用了
  • 推薦使用這種方法,因?yàn)榭梢杂胹hell進(jìn)行調(diào)試

    樣例:

    方法三:激活DownloadMiddleware(下載器中間件)

  • settings.py中給DOWNLOADER_MIDDLEWARES解注釋
  • 去中間件文件中找DownloaderMiddleware這個(gè)類,修改process_request,添加request.cookies={}
  • 參考鏈接:https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/downloader-middleware.html

    總結(jié)

    以上是生活随笔為你收集整理的Scrapy设置headers、cookies三种方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。