日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

Python爬虫之微信公众号(一)

發布時間:2024/1/18 python 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python爬虫之微信公众号(一) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

之前有位朋友,聽說是搞科研的,需要一些公眾號的文章數據,特別是需要拿到含有關鍵字為“武漢“的公眾號的文章。所以今天就寫了一個爬蟲爬取微信公眾號的文章

一、大多數的爬取思路

現在,我們開始切入正題。我爬取公眾號文章的方式和別人的方法可能不太一樣,但是原理基本上是相通的。有些朋友可能是通過抓包的方式獲取,有些朋友可能會通過搜狗微信獲取,因為搜狗和微信有合作關系吧。

二、個人爬取思路介紹

現在來介紹我的方法。首先可以先申請一個微信公眾號,然后新建圖文,點擊超鏈接。操作如下圖所示:

?

?

三、分析網站數據包

接下來就來分析網絡數據了。打開開發者工具,點擊network,操作步驟如下圖所示:

?

輸入武漢,點擊搜索

?

點擊《武漢發布》這個公眾號

?

到這里你會發現,當點擊搜索時會出現兩個數據包,那么到底哪一個才是有用的呢?

從上圖,我們可以發現真正的有效數據在哪里。點擊preview,可以發現很多的json格式的數據,里面有很多的信息,當然包括了我們需要的文章標題與文章的鏈接

四、headers信息分析

接下來要做的就是觀察headers信息。

?

從上圖,我們可以看到,爬取該公眾號文章需要使用到的參數有哪些,既然知道了這些就真的夠了嗎?

也許不夠哦!!

接下來,我們選擇點擊下一頁

?

看看剛剛那些參數會不會有什么變化

?

我發現,有多出一個相同的接口,但是begin參數由0變為了5.那么從后續的測試當中發現它的規律是:0、5、10、15...

五、代碼分析

基本上將網站分析完畢了那么就開始上代碼吧。

首先構造請求頭和查詢參數

?

六、獲取json數據

接下來要做的就是獲取json數據

?

七、保存數據

獲取到了json數據并提取到title和link之后,接下就是保存數據了。

?

最后結果如圖所示:

本期完整代碼已經上傳到網盤,現在只是爬取到標題和鏈接,下一篇文章將講解如何根據鏈接來獲取公眾號文章。

要獲取本期源代碼,只需在公眾號回復:微信公眾號爬蟲1

下一篇結束之后將會把代碼上傳到github。敬請期待!!

??致謝

好了,到這里又要跟大家說再見的時候了。希望我的文章能帶給您知識,帶給您幫助!同時也謝謝您能抽出寶貴的時間閱讀,創作不易,如果您喜歡的話,點個關注再走吧。您的支持是我創作的動力,希望今后能帶給大家更多優質的文章。

偶然在這相遇就是一種緣分,如果您覺得本文能夠幫助到您,

那么我希望能夠得到您的一絲肯定。

這份贊賞也許不必花費您一杯奶茶錢就能夠學習到豐富的知識

每天學習一點點,進步大一點。

?

總結

以上是生活随笔為你收集整理的Python爬虫之微信公众号(一)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。