利用python爬虫(part15)--cookie模拟登陆
生活随笔
收集整理的這篇文章主要介紹了
利用python爬虫(part15)--cookie模拟登陆
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
學習筆記
文章目錄
- cookie模擬登陸
- 獲取cookie
- 爬取我的簡介
cookie模擬登陸
有的時候,我們想要抓取一個網站,但是需要先登錄才能訪問它,如果不輸入用戶名和密碼,我們就會一直停留在登錄頁面。
那我們該如何抓取呢?
這時,我們可以用cookie模擬登錄。
獲取cookie
我們以貓耳FM為例,咳咳咳,不知道有沒有小伙伴玩貓耳啊,咳咳咳。
我先進入網站首頁,同時開啟網絡抓包(右鍵打開審查元素–>點擊Network–>點擊All),再登錄我的賬號,最后截取攜帶登錄信息的cookie的數據包:
數據包中的Request Headers信息:
accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8 accept-encoding:gzip, deflate, br accept-language:zh-CN,zh;q=0.9 cookie:Hm_lvt_91a4e950402ecbaeb38bd149234eb7cc=1588057449; Hm_lpvt_91a4e950402ecbaeb38bd149234eb7cc=1588059525; MSESSID=ss0bkgssd754dmosq13phbh7h6; token=5ea7ddff051cbec5bd6d1fd4%7Caef97ce98517a012%7C1588059647%7Cb46af3e345721caa; SERVERID=832fef4323c87b883d6becf9932943f1|1588059647|1588057447 referer:https://www.missevan.com/member/login upgrade-insecure-requests:1 user-agent:Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36爬取我的簡介
現在,我想獲取我的主頁中的簡介:
我創建一個py文件,專門放我的請求頭信息。
my_headers.py
headers = { "accept":"image/webp,image/apng,image/*,*/*;q=0.8", "accept-language":"zh-CN,zh;q=0.9", "cookie":"Hm_lvt_91a4e950402ecbaeb38bd149234eb7cc=1588057449; Hm_lpvt_91a4e950402ecbaeb38bd149234eb7cc=1588059525; MSESSID=ss0bkgssd754dmosq13phbh7h6; token=5ea7ddff051cbec5bd6d1fd4%7Caef97ce98517a012%7C1588059647%7Cb46af3e345721caa; SERVERID=832fef4323c87b883d6becf9932943f1|1588059647|1588057447", "referer":"https://www.missevan.com/member/login", "user-agent":"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36" }python爬蟲代碼:
# -*- coding: utf-8 -*-import requests import my_headers from lxml import etreeurl = 'https://www.missevan.com/mperson/homepage' xpath = '//*[@id="t_u_n_a"]/text()'html = requests.get(url = url, headers = my_headers.headers).content.decode('utf-8') parse_html = etree.HTML(html) profit = parse_html.xpath(xpath)print('簡介:', profit)輸出:
簡介: ['\n 我是山羊的簡介 ']成功GET!
后記:如果我在瀏覽器上退出貓耳FM的登錄了,程序即使帶有cookie也會無法訪問到我們要的HTML頁面。如果我們保持瀏覽器的登錄狀態,但是headers中不寫cookie,也無法獲取到我們想要爬取的簡介。
總之,就是出現了上面兩種狀況,我現在有點迷。
總結
以上是生活随笔為你收集整理的利用python爬虫(part15)--cookie模拟登陆的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 付出总有回报的正能量句子242个
- 下一篇: 利用python爬虫(part16)--