當前位置：首頁 > 编程语言 > python >内容正文

python

Python爬虫之微信公众号（一）

發布時間：2024/1/18 python 25 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python爬虫之微信公众号（一）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

之前有位朋友，聽說是搞科研的，需要一些公眾號的文章數據，特別是需要拿到含有關鍵字為“武漢“的公眾號的文章。所以今天就寫了一個爬蟲爬取微信公眾號的文章

現在，我們開始切入正題。我爬取公眾號文章的方式和別人的方法可能不太一樣，但是原理基本上是相通的。有些朋友可能是通過抓包的方式獲取，有些朋友可能會通過搜狗微信獲取，因為搜狗和微信有合作關系吧。

現在來介紹我的方法。首先可以先申請一個微信公眾號，然后新建圖文，點擊超鏈接。操作如下圖所示：

接下來就來分析網絡數據了。打開開發者工具，點擊network，操作步驟如下圖所示：

輸入武漢，點擊搜索

點擊《武漢發布》這個公眾號

到這里你會發現，當點擊搜索時會出現兩個數據包，那么到底哪一個才是有用的呢？

從上圖，我們可以發現真正的有效數據在哪里。點擊preview，可以發現很多的json格式的數據，里面有很多的信息，當然包括了我們需要的文章標題與文章的鏈接

接下來要做的就是觀察headers信息。

從上圖，我們可以看到，爬取該公眾號文章需要使用到的參數有哪些，既然知道了這些就真的夠了嗎？

也許不夠哦！！

接下來，我們選擇點擊下一頁

看看剛剛那些參數會不會有什么變化

我發現，有多出一個相同的接口，但是begin參數由0變為了5.那么從后續的測試當中發現它的規律是：0、5、10、15...

基本上將網站分析完畢了那么就開始上代碼吧。

首先構造請求頭和查詢參數

接下來要做的就是獲取json數據

獲取到了json數據并提取到title和link之后，接下就是保存數據了。

最后結果如圖所示：

本期完整代碼已經上傳到網盤，現在只是爬取到標題和鏈接，下一篇文章將講解如何根據鏈接來獲取公眾號文章。

要獲取本期源代碼，只需在公眾號回復：微信公眾號爬蟲1

下一篇結束之后將會把代碼上傳到github。敬請期待！！

好了，到這里又要跟大家說再見的時候了。希望我的文章能帶給您知識，帶給您幫助！同時也謝謝您能抽出寶貴的時間閱讀，創作不易，如果您喜歡的話，點個關注再走吧。您的支持是我創作的動力，希望今后能帶給大家更多優質的文章。

偶然在這相遇就是一種緣分，如果您覺得本文能夠幫助到您，

那么我希望能夠得到您的一絲肯定。

這份贊賞也許不必花費您一杯奶茶錢就能夠學習到豐富的知識

每天學習一點點，進步大一點。

以上是生活随笔為你收集整理的Python爬虫之微信公众号（一）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。