Python爬虫之微信公众号(一)
之前有位朋友,聽說是搞科研的,需要一些公眾號的文章數據,特別是需要拿到含有關鍵字為“武漢“的公眾號的文章。所以今天就寫了一個爬蟲爬取微信公眾號的文章
一、大多數的爬取思路
現在,我們開始切入正題。我爬取公眾號文章的方式和別人的方法可能不太一樣,但是原理基本上是相通的。有些朋友可能是通過抓包的方式獲取,有些朋友可能會通過搜狗微信獲取,因為搜狗和微信有合作關系吧。
二、個人爬取思路介紹
現在來介紹我的方法。首先可以先申請一個微信公眾號,然后新建圖文,點擊超鏈接。操作如下圖所示:
?
?
三、分析網站數據包
接下來就來分析網絡數據了。打開開發者工具,點擊network,操作步驟如下圖所示:
?
輸入武漢,點擊搜索
?
點擊《武漢發布》這個公眾號
?
到這里你會發現,當點擊搜索時會出現兩個數據包,那么到底哪一個才是有用的呢?
從上圖,我們可以發現真正的有效數據在哪里。點擊preview,可以發現很多的json格式的數據,里面有很多的信息,當然包括了我們需要的文章標題與文章的鏈接
四、headers信息分析
接下來要做的就是觀察headers信息。
?
從上圖,我們可以看到,爬取該公眾號文章需要使用到的參數有哪些,既然知道了這些就真的夠了嗎?
也許不夠哦!!
接下來,我們選擇點擊下一頁
?
看看剛剛那些參數會不會有什么變化
?
我發現,有多出一個相同的接口,但是begin參數由0變為了5.那么從后續的測試當中發現它的規律是:0、5、10、15...
五、代碼分析
基本上將網站分析完畢了那么就開始上代碼吧。
首先構造請求頭和查詢參數
?
六、獲取json數據
接下來要做的就是獲取json數據
?
七、保存數據
獲取到了json數據并提取到title和link之后,接下就是保存數據了。
?
最后結果如圖所示:
本期完整代碼已經上傳到網盤,現在只是爬取到標題和鏈接,下一篇文章將講解如何根據鏈接來獲取公眾號文章。
要獲取本期源代碼,只需在公眾號回復:微信公眾號爬蟲1
下一篇結束之后將會把代碼上傳到github。敬請期待!!
??致謝
好了,到這里又要跟大家說再見的時候了。希望我的文章能帶給您知識,帶給您幫助!同時也謝謝您能抽出寶貴的時間閱讀,創作不易,如果您喜歡的話,點個關注再走吧。您的支持是我創作的動力,希望今后能帶給大家更多優質的文章。
偶然在這相遇就是一種緣分,如果您覺得本文能夠幫助到您,
那么我希望能夠得到您的一絲肯定。
這份贊賞也許不必花費您一杯奶茶錢就能夠學習到豐富的知識
每天學習一點點,進步大一點。
?
總結
以上是生活随笔為你收集整理的Python爬虫之微信公众号(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 小白游泰国攻略
- 下一篇: websocket python爬虫_p