日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

QQ空间图片爬虫

發布時間:2024/3/12 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 QQ空间图片爬虫 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

昨晚玩了一下QQ空間的圖片爬蟲,發現跟一般的不一樣。

QQ空間里面的圖片用一般的urllib.urlopen(url)打開圖片是打不開。然后想用requests模塊,不過感覺有點麻煩,后來用了httplib模塊的HTTPConnection進行連接才成功。

一爬,發現只爬了60+張圖片,空間一共有700+,為啥不行。。。

?HTTPConnection需要跟主機建立連接的,后來發現700+張的圖片并不是在同一個主機上,,,,然后就對url進行分析提取主機再建立連接。


查看了一下不同連接的請求信息,主要是headers不一樣:


urllib.urlopen(url)的req.headers:

{ host: 'localhost:3000', 'user-agent': 'Python-urllib/1.17' }


HTTPConnection的req.headers:

{ host: 'localhost:3000', 'accept-encoding': 'identity' }


Chromed headers:

{ host: 'localhost:3000',
? connection: 'keep-alive',
? 'cache-control': 'max-age=0',
? accept: 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
? 'upgrade-insecure-requests': '1',
? 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.97 Safari/537.36',
? 'accept-encoding': 'gzip, deflate, sdch',
? 'accept-language': 'zh-CN,zh;q=0.8',
? cookie: 'a3356_times=4',
? 'if-none-match': 'W/"a01a-igxyqFU/wcUhvngSw3XXSQ"' }


只要對請求的headers進行處理就可以相應地防止爬蟲

總結

以上是生活随笔為你收集整理的QQ空间图片爬虫的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。