日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫小练习01—获取网站源码

發(fā)布時間:2024/1/1 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬虫小练习01—获取网站源码 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

第一步

明確自己需要爬取的網(wǎng)頁網(wǎng)址URL

https://bbs.zol.com.cn/

第二步

引入requests庫,使用request庫發(fā)起請求

import requests url = "https://bbs.zol.com.cn/" r = requests.get(url) r

此時若顯示的狀態(tài)碼不是200,有可能是網(wǎng)站得知用戶在使用爬蟲程序訪問, 禁止你繼續(xù)訪問。故手動添加Headers,在Headers中, User-Agent 項(xiàng)會記錄用戶的使用系統(tǒng)和瀏覽器版本,偽裝成一個普通的用戶
User-Agent查找方式:(查找自己的電腦)

修改后代碼:

import requests url = 'http://bbs.zol.com.cn/' headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'} r = requests.get(url, headers = headers) r

第三步

# 查看網(wǎng)頁的源代碼 r.text

若我們采集到的網(wǎng)頁源碼中的中文部分沒有正常解析,有可能是網(wǎng)頁編碼格式不正確

# 這里顯示出的編碼是我們解析網(wǎng)頁使用的編碼 r.encoding # 使用appent_encoding 用軟件推測網(wǎng)頁編碼 r.apparent_encoding # 給encoding屬性重新賦值, 用推測的編碼去解析網(wǎng)頁內(nèi)容 r.encoding = r.apparent_encoding

然后重新查看網(wǎng)頁源碼

完整代碼

import requests # 訪問的網(wǎng)址 url = 'http://bbs.zol.com.cn/' # 字典格式的變量 headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'} # 固定語法(和請求的網(wǎng)頁相關(guān)的內(nèi)容,都封裝在了r中) r = requests.get(url, headers = headers) # 給encoding屬性重新賦值, 用推測的編碼去解析網(wǎng)頁內(nèi)容 r.encoding = r.apparent_encoding #查看網(wǎng)頁源代碼 r.text # 訪問的消息頭 r.headers # 獲取狀態(tài)碼 r.status_code

總結(jié)

以上是生活随笔為你收集整理的爬虫小练习01—获取网站源码的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。