當前位置：首頁 > 编程语言 > python >内容正文

python

利用python爬虫(part15)--cookie模拟登陆

發布時間：2023/12/19 python 48 豆豆

生活随笔收集整理的這篇文章主要介紹了利用python爬虫(part15)--cookie模拟登陆小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

學習筆記

文章目錄

- - cookie模擬登陸
  - - 獲取cookie
    - 爬取我的簡介

cookie模擬登陸

有的時候，我們想要抓取一個網站，但是需要先登錄才能訪問它，如果不輸入用戶名和密碼，我們就會一直停留在登錄頁面。

那我們該如何抓取呢？

這時，我們可以用cookie模擬登錄。

獲取cookie

我們以貓耳FM為例，咳咳咳，不知道有沒有小伙伴玩貓耳啊，咳咳咳。

我先進入網站首頁，同時開啟網絡抓包(右鍵打開審查元素–>點擊Network–>點擊All)，再登錄我的賬號，最后截取攜帶登錄信息的cookie的數據包:

數據包中的Request Headers信息：

accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8 accept-encoding:gzip, deflate, br accept-language:zh-CN,zh;q=0.9 cookie:Hm_lvt_91a4e950402ecbaeb38bd149234eb7cc=1588057449; Hm_lpvt_91a4e950402ecbaeb38bd149234eb7cc=1588059525; MSESSID=ss0bkgssd754dmosq13phbh7h6; token=5ea7ddff051cbec5bd6d1fd4%7Caef97ce98517a012%7C1588059647%7Cb46af3e345721caa; SERVERID=832fef4323c87b883d6becf9932943f1|1588059647|1588057447 referer:https://www.missevan.com/member/login upgrade-insecure-requests:1 user-agent:Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36

爬取我的簡介

現在，我想獲取我的主頁中的簡介：

我創建一個py文件，專門放我的請求頭信息。

my_headers.py

headers = { "accept":"image/webp,image/apng,image/*,*/*;q=0.8", "accept-language":"zh-CN,zh;q=0.9", "cookie":"Hm_lvt_91a4e950402ecbaeb38bd149234eb7cc=1588057449; Hm_lpvt_91a4e950402ecbaeb38bd149234eb7cc=1588059525; MSESSID=ss0bkgssd754dmosq13phbh7h6; token=5ea7ddff051cbec5bd6d1fd4%7Caef97ce98517a012%7C1588059647%7Cb46af3e345721caa; SERVERID=832fef4323c87b883d6becf9932943f1|1588059647|1588057447", "referer":"https://www.missevan.com/member/login", "user-agent":"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36" }

python爬蟲代碼：

# -*- coding: utf-8 -*-import requests import my_headers from lxml import etreeurl = 'https://www.missevan.com/mperson/homepage' xpath = '//*[@id="t_u_n_a"]/text()'html = requests.get(url = url, headers = my_headers.headers).content.decode('utf-8') parse_html = etree.HTML(html) profit = parse_html.xpath(xpath)print('簡介：', profit)

輸出：

簡介： ['\n 我是山羊的簡介 ']

成功GET!

后記：如果我在瀏覽器上退出貓耳FM的登錄了，程序即使帶有cookie也會無法訪問到我們要的HTML頁面。如果我們保持瀏覽器的登錄狀態，但是headers中不寫cookie，也無法獲取到我們想要爬取的簡介。

總之，就是出現了上面兩種狀況，我現在有點迷。

總結

以上是生活随笔為你收集整理的利用python爬虫(part15)--cookie模拟登陆的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：付出总有回报的正能量句子242个
下一篇：利用python爬虫(part16)--