日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

爬虫爬到的网页源代码不是真正的源代码_Python爬虫经常爬不到数据?你可以看一下这篇文章...

發布時間:2024/9/27 python 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬虫爬到的网页源代码不是真正的源代码_Python爬虫经常爬不到数据?你可以看一下这篇文章... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

近期,通過做了一些小的項目,覺得對于Python爬蟲有了一定的了解,于是,就對于Python爬蟲爬取數據做了一個小小的總結,希望大家喜歡!

1.最簡單的Python爬蟲

最簡單的Python爬蟲莫過于直接使用urllib.request.urlopen(url=某網站)或者requests.get(url=某網站)


例如:爬取漫客棧里面的漫畫

代碼和運行結果:

這是最簡單也是最基礎的Python爬蟲.

2.需要添加headers的Python爬蟲

有的網址爬取數據需要添加User-Sgent、Cookie等字段信息,這個時候我們需要添加一個請求頭,也就是一個字典,User-Sgent、Cookie等字段信息就放這里面。
如:運用Python爬蟲下載表情包

沒加請求頭

加上請求頭:

是不是加與沒加,就有很大的區別.

3.所爬取的數據在NetWork里面

有個時候,我們所爬取的數據添加請求頭之后,也爬取不到,這個時候,我們就需要想一想NetWork,下面有XHR和JS,也許所需要數據就在這兩個其中的一個里面。
如:爬取王者榮耀英雄皮膚

如果用上面第二種方法,可以發現,就算添加請求頭,也訪問不到數據,我們看一下網頁源代碼,發現,這些數據根本就不在源代碼中,所以這樣肯定爬不到數據。


我們點擊電腦鍵盤F12,然后再點擊NetWork下面的JS,按F5刷新,可以發現,這些圖片的下載鏈接在JS下面的一個json文件里。

4.動態加載的數據

動態加載的,像網易云音樂,雖然我們也可以在NetWork下面找到相應的數據,但是這是一個post請求,比較復雜,我們可以使用selenium模塊,這個過程我就不講解了。

5.總結

上面講解的這些,我都有關于它們的文章,讀者可以自行找到并閱讀。


也許我還是一個Python爬蟲小白吧!講解的深度還不夠,希望大家諒解,在以后的日子里,我會加油學的。如果讀者覺得我的這篇文章對于你有所幫助,希望大家給我點一個小小的贊,謝謝!

總結

以上是生活随笔為你收集整理的爬虫爬到的网页源代码不是真正的源代码_Python爬虫经常爬不到数据?你可以看一下这篇文章...的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。