當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫小练习01—获取网站源码

發(fā)布時間：2024/1/1 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了爬虫小练习01—获取网站源码小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

第一步

明確自己需要爬取的網(wǎng)頁網(wǎng)址URL

https://bbs.zol.com.cn/

第二步

引入requests庫，使用request庫發(fā)起請求

import requests url = "https://bbs.zol.com.cn/" r = requests.get(url) r

此時若顯示的狀態(tài)碼不是200，有可能是網(wǎng)站得知用戶在使用爬蟲程序訪問, 禁止你繼續(xù)訪問。故手動添加Headers，在Headers中, User-Agent 項(xiàng)會記錄用戶的使用系統(tǒng)和瀏覽器版本，偽裝成一個普通的用戶
User-Agent查找方式：（查找自己的電腦）

修改后代碼：

import requests url = 'http://bbs.zol.com.cn/' headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'} r = requests.get(url, headers = headers) r

第三步

# 查看網(wǎng)頁的源代碼 r.text

若我們采集到的網(wǎng)頁源碼中的中文部分沒有正常解析，有可能是網(wǎng)頁編碼格式不正確

# 這里顯示出的編碼是我們解析網(wǎng)頁使用的編碼 r.encoding # 使用appent_encoding 用軟件推測網(wǎng)頁編碼 r.apparent_encoding # 給encoding屬性重新賦值, 用推測的編碼去解析網(wǎng)頁內(nèi)容 r.encoding = r.apparent_encoding

然后重新查看網(wǎng)頁源碼

完整代碼

import requests # 訪問的網(wǎng)址 url = 'http://bbs.zol.com.cn/' # 字典格式的變量 headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'} # 固定語法（和請求的網(wǎng)頁相關(guān)的內(nèi)容,都封裝在了r中） r = requests.get(url, headers = headers) # 給encoding屬性重新賦值, 用推測的編碼去解析網(wǎng)頁內(nèi)容 r.encoding = r.apparent_encoding #查看網(wǎng)頁源代碼 r.text # 訪問的消息頭 r.headers # 獲取狀態(tài)碼 r.status_code

總結(jié)

以上是生活随笔為你收集整理的爬虫小练习01—获取网站源码的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：记录编译Wien2k_18.2的过程
下一篇：实现蓝牙模块与手机进行通讯