當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫学习日记 Day1 什么是request，respond，url，headers

發布時間：2024/9/27 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了爬虫学习日记 Day1 什么是request，respond，url，headers 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

注：這些知識只是必要的前件知識，沒有必要打破沙鍋問到底，只需了解即可

前件知識：

1.request和respond

request是爬蟲向互聯網發送請求，respond是互聯網對爬蟲的回應。

在我們實際對一個頁面的操作就是這一步：

按下一個按鍵（google搜索關鍵詞從而搜索內容）------>互聯網對用戶操作進行反饋，網頁把源代碼進行編譯，產生圖形界面讓用戶觀看。

用戶輸入，向互聯網發送請求

互聯網對用戶請求的響應

?如圖

?對網頁源代碼進行編譯解釋，形成我們想要的網頁

2.URL與Headers

?而我們要給爬蟲做的，就是模擬人類用戶的過程。

headers的意思是請求頭，在網頁中，存在反爬機制，避免爬蟲機器人去爬取數據，其中headers之中的User-Agent算一個

我們右鍵inspect（或者F12）就可以找到它。?

用戶在瀏覽器的操作User-Agent就是瀏覽器內核和用戶操作系統的信息。

而如果使用爬蟲，User-Agent則為使用爬蟲的python信息。

網頁通過檢測User-Agent來檢測是否為機器人爬蟲。

回歸正題，為了避免網頁把我們的爬蟲檢測到，我們可以通過偽裝成普通用戶訪問的操作。

操作步驟是：

headers = {'User-Agent':'User-Agent大全'}

記住格式就行，Google去搜索user-agent大全即可。注意這里格式一個都不能錯。大小寫，單引號，冒號必須為英文格式

URL是什么呢：

簡單點理解，它就是一個地址

?爬蟲不可能像用戶一樣敲擊回車或者按搜索鍵，所以我們需要信息URL地址，有了地址，我們就可以通過爬蟲去訪問。

我們學習了一些前件概念，什么是url，headers，request和respond是什么意思，這些只需了解即可，不必打破沙鍋問到底，我們下一篇文章再見。

以上是生活随笔為你收集整理的爬虫学习日记 Day1 什么是request，respond，url，headers的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。