當前位置：首頁 > 编程语言 > python >内容正文

python

如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）

發布時間：2025/4/5 python 23 豆豆

生活随笔收集整理的這篇文章主要介紹了如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前天給大家分享了如何利用Python網絡爬蟲爬取微信朋友圈數據的上篇（理論篇），今天給大家分享一下代碼實現（實戰篇），接著上篇往下繼續深入。

一、代碼實現

1、修改Scrapy項目中的items.py文件。我們需要獲取的數據是朋友圈和發布日期，因此在這里定義好日期和動態兩個屬性，如下圖所示。

2、修改實現爬蟲邏輯的主文件moment.py，首先要導入模塊，尤其是要主要將items.py中的WeixinMomentItem類導入進來，這點要特別小心別被遺漏了。之后修改start_requests方法，具體的代碼實現如下圖。

3、修改parse方法，對導航數據包進行解析，代碼實現稍微復雜一些，如下圖所示。

l需要注意的是從網頁中獲取的response是bytes類型，需要顯示的轉為str類型才可以進行解析，否則會報錯。

l在POST請求的限定下，需要構造參數，需要特別注意的是參數中的年、月和索引都需要是字符串類型的，否則服務器會返回400狀態碼，表示請求參數錯誤，導致程序運行的時候報錯。

l在請求參數還需要加入請求頭，尤其是Referer（反盜鏈）務必要加上，否則在重定向的時候找不到網頁入口，導致報錯。

l上述的代碼構造方式并不是唯一的寫法，也可以是其他的。

4、定義parse_moment函數，來抽取朋友圈數據，返回的數據以JSON加載的，用JSON去提取數據，具體的代碼實現如下圖所示。

5、在setting.py文件中將ITEM_PIPELINES取消注釋，表示數據通過該管道進行處理。

6、之后就可以在命令行中進行程序運行了，在命令行中輸入scrapy crawl moment -o moment.json，之后可以得到朋友圈的數據，在控制臺上輸出的信息如下圖所示。

7、爾后我們得到一個moment.json文件，里面存儲的是我們朋友圈數據，如下圖所示。

8、嗯，你確實沒有看錯，里邊得到的數據確實讓人看不懂，但是這個并不是亂碼，而是編碼的問題。解決這個問題的方式是將原來的moment.json文件刪除，之后重新在命令行中輸入下面的命令：scrapy crawl moment -o moment.json -s FEED_EXPORT_ENCODING=utf-8，此時可以看到編碼問題已經解決了，如下圖所示。

下一篇文章，小編帶大家將抓取到的朋友圈數據進行可視化展示，敬請關注~~

總結

以上是生活随笔為你收集整理的如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： ora-01017 invalid us
下一篇： laravel使用redis做缓存的方法