日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫学习日记 Day1 什么是request,respond,url,headers

發布時間:2024/9/27 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬虫学习日记 Day1 什么是request,respond,url,headers 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

注:這些知識只是必要的前件知識,沒有必要打破沙鍋問到底,只需了解即可

前件知識:

1.request和respond

request是爬蟲向互聯網發送請求,respond是互聯網對爬蟲的回應。

在我們實際對一個頁面的操作就是這一步:

按下一個按鍵(google搜索關鍵詞從而搜索內容)------>互聯網對用戶操作進行反饋,網頁把源代碼進行編譯,產生圖形界面讓用戶觀看。


用戶輸入 ,向互聯網發送請求

互聯網對用戶請求的響應

?如圖

?對網頁源代碼進行編譯解釋,形成我們想要的網頁

?


2.URL與Headers

?而我們要給爬蟲做的,就是模擬人類用戶的過程。

headers的意思是請求頭,在網頁中,存在反爬機制,避免爬蟲機器人去爬取數據,其中headers之中的User-Agent算一個

我們右鍵inspect(或者F12)就可以找到它。?

用戶在瀏覽器的操作User-Agent就是瀏覽器內核和用戶操作系統的信息。

而如果使用爬蟲,User-Agent則為使用爬蟲的python信息。

網頁通過檢測User-Agent來檢測是否為機器人爬蟲。

回歸正題,為了避免網頁把我們的爬蟲檢測到,我們可以通過偽裝成普通用戶訪問的操作。

操作步驟是:

headers = {'User-Agent':'User-Agent大全'}

記住格式就行,Google去搜索user-agent大全即可。注意這里格式一個都不能錯。大小寫,單引號,冒號必須為英文格式

URL是什么呢:

簡單點理解,它就是一個地址

?爬蟲不可能像用戶一樣敲擊回車或者按搜索鍵,所以我們需要信息URL地址,有了地址,我們就可以通過爬蟲去訪問。

我們學習了一些前件概念,什么是url,headers,request和respond是什么意思,這些只需了解即可,不必打破沙鍋問到底,我們下一篇文章再見。

總結

以上是生活随笔為你收集整理的爬虫学习日记 Day1 什么是request,respond,url,headers的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。