日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

python~爬虫~1

發布時間:2025/4/5 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python~爬虫~1 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

爬蟲基本流程:

1、通過HTTP向目標發送請求,即發送request,請求可以包含header等信息,等待服務器相應

2、如果服務器相應,會返回一個response,response的內容便是要獲取的內容

3、對得到的內容進行解析

如:內容為html格式,則用正則表達式、網頁解析庫解析。若json格式,則直接轉為json對象解析

4、結構化保存數據

Request主要包含下面幾個部分:

1、請求方式:主要有get,post兩種類型

2、請求URL(統一資源定位符)

3、請求頭:包含請求時的頭部信息,如:User-Agent、Host、Cookies等信息

4、請求體:請求時另外需要的數據(post請求有)

Response主要包含下面幾個方面:

1、響應狀態:如:not found 404

2、響應頭:服務器信息等內容

3、響應體:包含請求資源的內容,如網頁HTML,圖片,二進制數據等



抓取數據類型:

1、網頁文本:HTML文檔,json格式文本

2、圖片:獲取到的是圖片的二進制文件,保存為圖片格式

3、視頻:也是二進制文件,保存為視頻格式

4、其它

解析方式:

1、直接處理:網頁構造比較簡單

2、json解析:字符串轉化json對象

3、正則表達式

4、BeautifulSoup

5、PyQuery

6、XPath

Urllib庫(Python內置http請求庫)

1、urllib.request 請求模塊

2、urllib.parse? ?url解析模塊

3、urllib.error? ?異常處理模塊

4、urllib.robotparser? ronots.txt解析模塊

用法:

1、urllib.request請求模塊




Request替換urlopen




2、urllib.parse url解析模塊

urllib.parse.urlpaese(urlstring,scheme='',allow_fragments=True)





3、urilib.error異常處理模塊:

1、urlerror

2、httperror

4、urllib.robotparser

總結

以上是生活随笔為你收集整理的python~爬虫~1的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。