日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python3 asyncio 爬虫_python3 asyncio异步新浪微博爬虫WeiboSpider

發布時間:2024/7/23 python 48 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python3 asyncio 爬虫_python3 asyncio异步新浪微博爬虫WeiboSpider 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一些廢話

之前寫的用python3+urllib寫的多線程微博(傳送門),后面發現登錄賬號頻繁被403,所以解決登錄問題迫在眉睫。而且python的“多線程”并不那么多線程,最近因為剛需,需要穩定的微博爬蟲,所以琢磨了一下使用selenium+aiohttp+redis寫了一個使用asyncio的新浪爬蟲。

簡介

這里不多廢話,大概介紹一下怎么做的。大致是:

登錄

通過weibo.com登錄界面登錄,因為weibo.cn登錄如果需要驗證的話是要類似于解鎖那樣驗證的,不好做。

而weibo.com只要輸入驗證碼,而驗證碼可以通過yundama來驗證,yundama也不貴,驗證一次大概一分錢吧,登錄成功后,在去訪問weibo.cn,新浪會自行轉換weibo.com的cookies到weibo.cn的cookies

然后把cookies保存在redis共享

抓取

使用了aiohttp,畢竟python的協程比多線程更給力,爬蟲就是個頻繁io的過程,自然用協程比多線程快了不少。

解析用的是bs4,解析后的數據放到kafka上,想存哪存哪~

talk is cheap, show you the code

這里就不說具體怎么做和使用了,README.md上有使用不走,感興趣的看源碼去吧。

總結

以上是生活随笔為你收集整理的python3 asyncio 爬虫_python3 asyncio异步新浪微博爬虫WeiboSpider的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。