网络爬虫学习1 - 使用 requests.get(url) 抓取网页
網(wǎng)絡(luò)爬蟲MOOC學(xué)習(xí)打卡 - 第一天
文章目錄
- 網(wǎng)絡(luò)爬蟲MOOC學(xué)習(xí)打卡 - 第一天
- 一、使用 requests.get(url) 抓取網(wǎng)頁
- 1.從cmd中打開idle
- 2.調(diào)用requests類 —— import requests
- 總結(jié)
一、使用 requests.get(url) 抓取網(wǎng)頁
1.從cmd中打開idle
2.調(diào)用requests類 —— import requests
requests.get(url) 是用來抓取網(wǎng)頁信息的
知識點(diǎn)一:
1.調(diào)用requests
2.使用 get()方法抓取百度的主頁信息
3.使用 r.text用來輸出抓取的信息
代碼如下:
# 調(diào)用requests import requests# 使用 get()方法抓取百度的主頁信息 r = requests.get(https://www.baidu.com) # 使用 r.text用來輸出抓取的信息 r.text這里有需要注意的地方:在輸入url的時候,如果不輸入http://則會報錯。
知識點(diǎn)二:
1.輸出內(nèi)容的編碼格式
2.默認(rèn)編碼 r.encoding
3.更精準(zhǔn)的編碼 r.apparent_encoding
可以發(fā)現(xiàn)網(wǎng)頁的內(nèi)容有沒有編寫成中文的地方,所以我們可以自己分析一下真正的編碼是什么
1.估計查詢:r.encoding
2.更精準(zhǔn)查詢(但是也不是完全正確的):r.apparent_encoding
代碼如下:
# 默認(rèn)編碼(是從頭文件中分析得來的): r.encoding# 更精準(zhǔn)查詢(但是也不是完全正確的,是從內(nèi)容分析中得來的): r.apparent_encoding所以我們可以更改編碼方式:
我們用分析更準(zhǔn)確的編碼方式賦予r.encoding,這樣得到的信息就是我們想要的了 —— 從亂碼到中文
代碼如下:
# 把r.apparent_encoding的編碼格式賦予r.encoding r.encoding = r.apparent_encoding# 這次再輸出抓取的內(nèi)容吧 r.text結(jié)果如下:
不難看到,中文出現(xiàn)了!因?yàn)槲覀儼丫幋a格式從 ISO-8859-1 改成了 utf-8
知識點(diǎn)三:
1.狀態(tài)碼
“今天你連接成功了么?”
# 返回結(jié)果是 200 ,success # 返回結(jié)果為 404 或其他 ,fault r.status_code總結(jié)
沒什么總結(jié)的。。放松一下讀讀詩吧
贈衛(wèi)八處士 杜甫
人生不相見,動如參與商。今夕復(fù)何夕,共此燈燭光。
少壯能幾時,鬢發(fā)各已蒼。訪舊半為鬼,驚呼熱中腸。
焉知二十載,重上君子堂。昔別君未婚,兒女忽成行。
怡然敬父執(zhí),問我來何方。問答乃未已,驅(qū)兒羅酒漿。
夜雨剪春韭,新炊間黃粱。主稱會面難,一舉累十觴。
十觴亦不醉,感子故意長。明日隔山岳,世事兩茫茫。
總結(jié)
以上是生活随笔為你收集整理的网络爬虫学习1 - 使用 requests.get(url) 抓取网页的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何给LattePanda重装系统
- 下一篇: 纯css画三角形/梯形(兼容ie6)