爬虫系列之新浪微博爬虫源码weibospider_v2
1 爬取某個話題的所有的評論
2 爬取某個博主的所有微博的評論
3 爬取某個博主的所有粉絲的用戶信息,位置信息
?
以“迪麗熱巴的微博”為案例,爬取熱巴的所有微博,所有微博評論,所有粉絲的用戶信息,并對所有的粉絲進行位置分析,在地圖上顯示粉絲分布。
?
?
1?requests_weibo.py功能:爬取迪麗熱巴的所有的微博,微博內容的text保存在excel中,包括微博id
2?requests_weibo_comment.py 功能:讀取熱巴所有的微博id, 爬取某個微博的所有評論內容,粉絲id
3?user_infro.py 功能:讀取所有粉絲id, 爬取微博用戶(熱巴粉絲)的基本信息(生日,位置,性別)。粉絲信息接口在代碼中。
4?map_weibo_fensi.py:?對粉絲的性別和位置信息進行可視化
?
注意事項:
新浪微博評論內容獲取時,url參數第1頁,第2頁至第15頁,第16頁及以后頁碼,參數是不同的。
第1頁:https://m.weibo.cn/comments/hotflow?id=4511519801087016&mid=4511519801087016第2 -15 頁:max_id_type 的數值為 0
https://m.weibo.cn/comments/hotflow?id=4511519801087016&mid=4511519801087016&max_id=1290444946018013&max_id_type=0
第16頁及以后:
從第16頁開始max_id_type 的數值為 1, 這里最后是通過請求獲取該值,不要手動修改為1。
效果圖
?
?
項目源碼下載地址:
https://xpanx.com/2103.html
?xpanx.com
?
?
總結
以上是生活随笔為你收集整理的爬虫系列之新浪微博爬虫源码weibospider_v2的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ANTVR:虚拟现实的拓荒者
- 下一篇: 自勉自励