日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)

發布時間:2025/4/5 python 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前天給大家分享了如何利用Python網絡爬蟲爬取微信朋友圈數據的上篇(理論篇),今天給大家分享一下代碼實現(實戰篇),接著上篇往下繼續深入。

一、代碼實現

1、修改Scrapy項目中的items.py文件。我們需要獲取的數據是朋友圈和發布日期,因此在這里定義好日期和動態兩個屬性,如下圖所示。

2、修改實現爬蟲邏輯的主文件moment.py,首先要導入模塊,尤其是要主要將items.py中的WeixinMomentItem類導入進來,這點要特別小心別被遺漏了。之后修改start_requests方法,具體的代碼實現如下圖。

3、修改parse方法,對導航數據包進行解析,代碼實現稍微復雜一些,如下圖所示。

l需要注意的是從網頁中獲取的response是bytes類型,需要顯示的轉為str類型才可以進行解析,否則會報錯。

l在POST請求的限定下,需要構造參數,需要特別注意的是參數中的年、月和索引都需要是字符串類型的,否則服務器會返回400狀態碼,表示請求參數錯誤,導致程序運行的時候報錯。

l在請求參數還需要加入請求頭,尤其是Referer(反盜鏈)務必要加上,否則在重定向的時候找不到網頁入口,導致報錯。

l上述的代碼構造方式并不是唯一的寫法,也可以是其他的。

4、定義parse_moment函數,來抽取朋友圈數據,返回的數據以JSON加載的,用JSON去提取數據,具體的代碼實現如下圖所示。

5、在setting.py文件中將ITEM_PIPELINES取消注釋,表示數據通過該管道進行處理。

6、之后就可以在命令行中進行程序運行了,在命令行中輸入scrapy crawl moment -o moment.json,之后可以得到朋友圈的數據,在控制臺上輸出的信息如下圖所示。

7、爾后我們得到一個moment.json文件,里面存儲的是我們朋友圈數據,如下圖所示。

8、嗯,你確實沒有看錯,里邊得到的數據確實讓人看不懂,但是這個并不是亂碼,而是編碼的問題。解決這個問題的方式是將原來的moment.json文件刪除,之后重新在命令行中輸入下面的命令:scrapy crawl moment -o moment.json -s FEED_EXPORT_ENCODING=utf-8,此時可以看到編碼問題已經解決了,如下圖所示。

下一篇文章,小編帶大家將抓取到的朋友圈數據進行可視化展示,敬請關注~~

總結

以上是生活随笔為你收集整理的如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。