爬虫小练习01—获取网站源码
生活随笔
收集整理的這篇文章主要介紹了
爬虫小练习01—获取网站源码
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
第一步
明確自己需要爬取的網(wǎng)頁網(wǎng)址URL
https://bbs.zol.com.cn/第二步
引入requests庫,使用request庫發(fā)起請求
import requests url = "https://bbs.zol.com.cn/" r = requests.get(url) r此時若顯示的狀態(tài)碼不是200,有可能是網(wǎng)站得知用戶在使用爬蟲程序訪問, 禁止你繼續(xù)訪問。故手動添加Headers,在Headers中, User-Agent 項(xiàng)會記錄用戶的使用系統(tǒng)和瀏覽器版本,偽裝成一個普通的用戶
User-Agent查找方式:(查找自己的電腦)
修改后代碼:
import requests url = 'http://bbs.zol.com.cn/' headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'} r = requests.get(url, headers = headers) r第三步
# 查看網(wǎng)頁的源代碼 r.text若我們采集到的網(wǎng)頁源碼中的中文部分沒有正常解析,有可能是網(wǎng)頁編碼格式不正確
# 這里顯示出的編碼是我們解析網(wǎng)頁使用的編碼 r.encoding # 使用appent_encoding 用軟件推測網(wǎng)頁編碼 r.apparent_encoding # 給encoding屬性重新賦值, 用推測的編碼去解析網(wǎng)頁內(nèi)容 r.encoding = r.apparent_encoding然后重新查看網(wǎng)頁源碼
完整代碼
import requests # 訪問的網(wǎng)址 url = 'http://bbs.zol.com.cn/' # 字典格式的變量 headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'} # 固定語法(和請求的網(wǎng)頁相關(guān)的內(nèi)容,都封裝在了r中) r = requests.get(url, headers = headers) # 給encoding屬性重新賦值, 用推測的編碼去解析網(wǎng)頁內(nèi)容 r.encoding = r.apparent_encoding #查看網(wǎng)頁源代碼 r.text # 訪問的消息頭 r.headers # 獲取狀態(tài)碼 r.status_code總結(jié)
以上是生活随笔為你收集整理的爬虫小练习01—获取网站源码的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 记录编译Wien2k_18.2的过程
- 下一篇: 实现蓝牙模块与手机进行通讯