爬虫为什么用Chrome?
- 為什么爬蟲要用Chrome?
- 為什么大家似乎都知道header應該怎么寫?
- 為什么大家都知道怎么爬取網頁的路線?
- 為什么…
如果你也跟我一樣,有過上面類似的疑問,那么我覺得,這篇文章你可能值得看一下。水平有限,如果有差錯還望指出。
用Chrome很容易看到網頁的源碼
輕松右鍵 -> 檢查 就可以看到這個源代碼
檢查中還可以看網頁從服務器上不斷加載包
雖然一開始我們點開的時候,網頁其實已經加載好了。對于所謂的靜態網頁在這個地方其實已經加載好了。(百度的首頁,一般會被認為是靜態網頁)
但是還可以通過這個來看。 比如: 刷新一下網頁~
不過,在那之前,我們要點之前檢查的最上面的 network,一般默認是選中All模式的,在中間偏上的部分。點好之后,我們就可以刷新了
有趣的事就這樣開始了~
比如:我們可以檢查之前的那個包
就可以看那些包的具體信息。那樣,我們就可以得到了所有很多重要的信息了
比如像上面的我們可以看到這個信息,是通過上面header拿到的。不過這個,有些會把這個給隱藏掉。但基本是沒有問題的,一般我們只要知道一個就好了。
還有其他的騷操作,比如:看看這個包是怎么拿下來的,這樣我們就可以特定地拿數據了。
比如,我們選擇之前拿到的那些圖片(百度官網圖片)
通過這個gif,我們可以看到這個,用的是https://www.baidu.com/img/bd_logo1.png這個url,請求的方法是get
還可以得到對方的服務器地址。
比如在之前的那個gif中,下面就放了remote Address這個就是遠端的地址。
此外,還可以通過那個preview來預覽一下這個信息包的內容
最后還可以通過最后的tim來看一下這個東西下載所用的時間
(可以算是測測速?)
總結
以上是生活随笔為你收集整理的爬虫为什么用Chrome?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python动态网页爬虫技巧Seleni
- 下一篇: DataFrame关于某一列做归一化处理