當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

网络爬虫学习1 - 使用 requests.get(url) 抓取网页

發(fā)布時間：2023/12/20 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了网络爬虫学习1 - 使用 requests.get(url) 抓取网页小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

網(wǎng)絡(luò)爬蟲MOOC學(xué)習(xí)打卡 - 第一天

文章目錄

網(wǎng)絡(luò)爬蟲MOOC學(xué)習(xí)打卡 - 第一天
一、使用 requests.get(url) 抓取網(wǎng)頁
- 1.從cmd中打開idle
- 2.調(diào)用requests類 —— import requests
總結(jié)

一、使用 requests.get(url) 抓取網(wǎng)頁

1.從cmd中打開idle

2.調(diào)用requests類 —— import requests

requests.get(url) 是用來抓取網(wǎng)頁信息的

知識點(diǎn)一：
1.調(diào)用requests
2.使用 get()方法抓取百度的主頁信息
3.使用 r.text用來輸出抓取的信息

代碼如下：

# 調(diào)用requests import requests# 使用 get()方法抓取百度的主頁信息 r = requests.get(https://www.baidu.com) # 使用 r.text用來輸出抓取的信息 r.text

這里有需要注意的地方：在輸入url的時候，如果不輸入http://則會報錯。

知識點(diǎn)二：
1.輸出內(nèi)容的編碼格式
2.默認(rèn)編碼 r.encoding
3.更精準(zhǔn)的編碼 r.apparent_encoding

可以發(fā)現(xiàn)網(wǎng)頁的內(nèi)容有沒有編寫成中文的地方，所以我們可以自己分析一下真正的編碼是什么
1.估計查詢：r.encoding
2.更精準(zhǔn)查詢（但是也不是完全正確的）：r.apparent_encoding

代碼如下：

# 默認(rèn)編碼（是從頭文件中分析得來的）： r.encoding# 更精準(zhǔn)查詢（但是也不是完全正確的，是從內(nèi)容分析中得來的）： r.apparent_encoding

所以我們可以更改編碼方式：
我們用分析更準(zhǔn)確的編碼方式賦予r.encoding，這樣得到的信息就是我們想要的了 —— 從亂碼到中文

代碼如下：

# 把r.apparent_encoding的編碼格式賦予r.encoding r.encoding = r.apparent_encoding# 這次再輸出抓取的內(nèi)容吧 r.text

結(jié)果如下：

不難看到，中文出現(xiàn)了！因?yàn)槲覀儼丫幋a格式從 ISO-8859-1 改成了 utf-8

知識點(diǎn)三：
1.狀態(tài)碼

“今天你連接成功了么？”

# 返回結(jié)果是 200 ，success # 返回結(jié)果為 404 或其他，fault r.status_code

總結(jié)

沒什么總結(jié)的。。放松一下讀讀詩吧

贈衛(wèi)八處士杜甫
人生不相見，動如參與商。今夕復(fù)何夕，共此燈燭光。
少壯能幾時，鬢發(fā)各已蒼。訪舊半為鬼，驚呼熱中腸。
焉知二十載，重上君子堂。昔別君未婚，兒女忽成行。
怡然敬父執(zhí)，問我來何方。問答乃未已，驅(qū)兒羅酒漿。
夜雨剪春韭，新炊間黃粱。主稱會面難，一舉累十觴。
十觴亦不醉，感子故意長。明日隔山岳，世事兩茫茫。

總結(jié)

以上是生活随笔為你收集整理的网络爬虫学习1 - 使用 requests.get(url) 抓取网页的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：如何给LattePanda重装系统
下一篇：纯css画三角形/梯形（兼容ie6）

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

网络爬虫学习1 - 使用 requests.get(url) 抓取网页

網(wǎng)絡(luò)爬蟲MOOC學(xué)習(xí)打卡 - 第一天

文章目錄

一、使用 requests.get(url) 抓取網(wǎng)頁

1.從cmd中打開idle

2.調(diào)用requests類 —— import requests

總結(jié)

總結(jié)