日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程语言 > python >内容正文

python

python爬虫常见反爬措施_爬虫常见的反爬措施有哪些

發(fā)布時(shí)間:2023/12/20 python 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python爬虫常见反爬措施_爬虫常见的反爬措施有哪些 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

爬蟲常見的反爬措施有三種:

1、header頭部信息

解決方法:

加User-Agent值:

如果不加header頭,部分網(wǎng)站服務(wù)器判斷不到用戶的訪問(wèn)來(lái)源,所以會(huì)返回一個(gè)404錯(cuò)誤來(lái)告知你是一個(gè)爬蟲,拒絕訪問(wèn),解決辦法如下:headers?=?{

'User-agent':?'Mozilla/5.0?(Windows?NT?10.0;?Win64;?x64)?AppleWebKit/537.36?(KHTML,?like?Gecko)?Chrome/83.0.4103.56?Safari/537.36'

}

這樣服務(wù)器就會(huì)把用戶當(dāng)做瀏覽器了。

加Referer值

這類反爬網(wǎng)站也很常見,例如美團(tuán),僅僅加User-Agnet還是返回錯(cuò)誤信息,這時(shí)就要把Referer值也加到頭部信息中:

這樣就會(huì)返回正常網(wǎng)頁(yè)了。

加Host值

根據(jù)同源地址判斷用戶是否為爬蟲,解決辦法為:

加Accept值

之前遇到過(guò)這種網(wǎng)站,我加了一圈header頭部信息才成功,最后發(fā)現(xiàn)是需要加Accept值,這類反爬措施的解決辦法為:

2、限制IP的請(qǐng)求數(shù)量

這種就更常見了,大部分網(wǎng)站都有此類反爬措施,也就是說(shuō)網(wǎng)站服務(wù)器會(huì)根據(jù)某個(gè)ip在特定時(shí)間內(nèi)的訪問(wèn)頻率來(lái)判斷是否為爬蟲,然后把你把你拉進(jìn)“黑名單”,素質(zhì)好的給你返回403或者出來(lái)個(gè)驗(yàn)證碼,素質(zhì)不好的會(huì)給你返回兩句臟話。此種情況有兩種解決辦法:

①降低爬蟲請(qǐng)求速率,但是會(huì)降低效率;

②添加代理ip,代理ip又分為付費(fèi)的和不要錢的,前者比較穩(wěn)定,后者經(jīng)常斷線。

添加格式為:

3、Ajax動(dòng)態(tài)請(qǐng)求加載

這類一般是動(dòng)態(tài)網(wǎng)頁(yè),無(wú)法直接找到數(shù)據(jù)接口,以某易新聞網(wǎng)站為例:

我想爬取該網(wǎng)頁(yè)內(nèi)的新聞圖片,發(fā)現(xiàn)它的網(wǎng)頁(yè)url一直不變,但是下拉網(wǎng)頁(yè)的時(shí)候會(huì)一直加載圖片,那么我們?cè)撛趺崔k呢?

首先按照開頭方式打開流量分析工具

點(diǎn)擊左上角“垃圾桶”圖標(biāo)清空緩存,然后下拉新聞網(wǎng)頁(yè):

會(huì)出現(xiàn)一大堆東西,但是不用慌,我們可以根據(jù)類型去尋找,一般圖片信息肯定實(shí)在html、js或json格式的文件中,一個(gè)一個(gè)點(diǎn)進(jìn)去看看,很快就找到了結(jié)果:

結(jié)果中把callback去掉之后就是個(gè)json文件,它的url為:

更多Python知識(shí),請(qǐng)關(guān)注:Python自學(xué)網(wǎng)!!

總結(jié)

以上是生活随笔為你收集整理的python爬虫常见反爬措施_爬虫常见的反爬措施有哪些的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。