03-requests模块携带UA请求头,携带参数,携带cookie,持久化存储
生活随笔
收集整理的這篇文章主要介紹了
03-requests模块携带UA请求头,携带参数,携带cookie,持久化存储
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
reques模塊的基礎使用方法
chrome瀏覽器使用方法了解新建隱身窗口的目的,了解chrome中network的使用
1,新建隱身窗口(無痕窗口)
- 瀏覽器中直接打開網站,會自動帶上之前網站保存的cookie,但是在爬蟲中首次獲取頁面是沒有攜帶cookie的
- 使用無痕窗口,首次打開網站,不會帶上cookie,能夠觀察頁面的獲取情況,包括對方服務器如何設置cookie在本地
2,chrome中network的更多功能
攜帶請求頭
攜帶請求參數
params 將字典或字節序列,作為參數添加到url中,get形式的參數
data 將字典或字節序列,作為參數添加到url中,post形式的參數
response響應對象
- response.url 響應的url:有時候響應的url和請求的url并不一致
- response.text 響應體 str類型
- respones.content 響應體 bytes類型
- response.status_code 響應狀態碼
- response.request.headers 響應對應的請求頭
- response.headers 響應頭
- response.request.cookies 響應對應請求的cookie
- response.cookies 響應的cookie(經過了set-cookie動作)
- response.json() 自動將json字符串類型的響應內容轉換為python對象(dict or list)
爬取到的網站源碼信息
爬取的結果展示
cookie:
- 是存儲在客戶端的一組鍵值對
- web中的cookie典型應用免密登錄
- cookie和爬蟲的關聯:對一張頁面進行請求的時候,如果請求的過程中不攜帶cookie的話,那么我們無法請求到正確的頁面數據,因此cookie是爬蟲中一個非常典型且常見的反爬機制。
代碼展示
未攜帶cookie
攜帶cookie結果
攜帶cookie爬取的數據展示(已登錄)
自動獲取cookie
案例雪球網
分析:1,爬取的咨詢信息是動態加載的:相關更多的咨詢數據是動態加載的,鼠標滾輪滑動到底部的時候會動態加載出更多咨詢數據。
2,定位到ajax請求的數據包,提取出請求url,相應數據為json形式的咨詢數據。
代碼展示
總結
以上是生活随笔為你收集整理的03-requests模块携带UA请求头,携带参数,携带cookie,持久化存储的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 02-requests模块的概述
- 下一篇: 04-正则解析+bs4基础爬虫