日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程语言 > python >内容正文

python

学习python表情包_我用Python一键保存了半佛老师所有的骚气表情包

發(fā)布時(shí)間:2024/3/13 python 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 学习python表情包_我用Python一键保存了半佛老师所有的骚气表情包 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文首發(fā)于公眾號(hào)「Python知識(shí)圈」,如需轉(zhuǎn)載,請(qǐng)?jiān)诠娞?hào)聯(lián)系作者授權(quán)。

2019年發(fā)現(xiàn)兩個(gè)有意思而且內(nèi)容比較硬核的公眾號(hào)。都是同一個(gè)人運(yùn)營(yíng)的,我們都叫他半佛老師,現(xiàn)實(shí)中的職業(yè)是風(fēng)控,公眾號(hào)內(nèi)容涉及揭秘灰產(chǎn)的一些坑和硬核科普。文章內(nèi)容硬核外,再配上大量的沙雕表情包。讓整個(gè)文章非常有趣。不到一年,兩個(gè)公眾號(hào),每篇文章都有10w+ 的閱讀量。19 年年底。半佛老師入駐了 B 站。制作的 B 站視頻文案上也和公眾號(hào)文章一樣硬核,配上大量的沙雕表情包。讓看視頻的讀者有時(shí)候看著表情包在那里傻笑(包括我),目前 B 站 327 萬(wàn)粉,相當(dāng)?shù)挠埠恕?/p>

就這樣,每天有大量的讀者在半佛老師的公眾號(hào)和 B 站之間來(lái)回橫向跳動(dòng)。

說(shuō)了這么多,今天這篇文章不是給半佛老師打廣告的。我僅僅只是我饞他的表情包了。所以今天我用爬蟲(chóng)批量的保存半佛老師公眾號(hào)文章里面所有的沙雕表情包。

周末在 B 站發(fā)了一個(gè)保存半佛老師的騷表情包的視頻,目前播放量 12萬(wàn),8000+點(diǎn)贊,大家可以點(diǎn)擊文末「閱讀原文」直達(dá)視頻頁(yè)面。

半佛老師有兩個(gè)公眾號(hào)。據(jù)我觀察,仙人jump 公眾號(hào)的表情包相對(duì)來(lái)說(shuō)多一些。所以今天就以這個(gè)公眾號(hào)為目標(biāo)。來(lái)批量保存里面的沙雕圖片或者表情包。

單篇文章表情包爬取

首先。我們要學(xué)會(huì)爬取一篇文章里面所有的表情包或者圖片。比如我們指定一篇文章,打開(kāi)文章,查看頁(yè)面源代碼。

通過(guò)簡(jiǎn)單查找,我們就可以看到。文章的圖片都在date-src后面。

我們用正則表達(dá)式去提取這些鏈接。所有的鏈接都提取出來(lái),以列表的形式返回。

然后我們需要寫一個(gè)下載圖片的方法。

這樣我們用一個(gè)for循環(huán)就可以把這篇文章里面所有的表情包或者圖片全部下載下來(lái)了。

所有文章表情包爬取

接下來(lái)第2步。我們是需要保存一個(gè)公眾號(hào)所有文章里面所有的表情包或者圖片,所以這一步我們需要獲取這個(gè)公眾號(hào)所有文章的鏈接地址。之前我也寫過(guò)一篇文章,將一個(gè)公眾號(hào)里面所有文章的鏈接和標(biāo)題全部爬取下來(lái):拒絕低效!Python教你爬蟲(chóng)公眾號(hào)文章和鏈接

我們通過(guò) Charles 抓包,直接抓取電腦 PC 端公眾號(hào)。

我們通過(guò)上滑公眾號(hào)歷史文章,在抓取的鏈接里面我們可以看到請(qǐng)求和具體的返回?cái)?shù)據(jù)。它的返回是以 Json 信息的形式。文章的鏈接就在 Json 信息里面。

這個(gè) Json 看不全,我們復(fù)制到在線 json 解析工具里轉(zhuǎn)換一下。

分析請(qǐng)求數(shù)據(jù)我們發(fā)現(xiàn)。鏈接里面除了 offset 是變化的,其他都是不變的。

用 requests 庫(kù)請(qǐng)求鏈接的話,我們是需要給出 headers 信息和 cookies 信息的,笨辦法的話,我們可以手動(dòng)在請(qǐng)求頭 Headers 里面找,然后復(fù)制過(guò)來(lái)。這里教大家一個(gè)非常簡(jiǎn)單的方法,我們直接右鍵,選擇 Copy Curl Request。

復(fù)制完之后,我們放在轉(zhuǎn)換地址里面。

https://curl.trillworks.com/

在左邊粘貼剛才復(fù)制的 curl request,下面的語(yǔ)言默認(rèn)是 Python。右邊就會(huì)同步轉(zhuǎn)換為 Python requests。

我們把右邊的 Python requests 直接復(fù)制到編輯器里面就可以了。內(nèi)容包括 hearders 信息和 cookies 信息,還有對(duì)應(yīng)的參數(shù),這樣就避免我們對(duì) cookies 和 headers 一個(gè)個(gè)去粘復(fù)制粘貼。這樣是不是比較方便和簡(jiǎn)單!

這里有個(gè)地方注意下,復(fù)制過(guò)來(lái)的 params 里面有兩個(gè)值需要去掉,offset 和 count。

因?yàn)?offset 我需要把它做成動(dòng)態(tài)的,我把它們放在了開(kāi)頭的基礎(chǔ)鏈接里。

通過(guò) requests 庫(kù)請(qǐng)求我們就可以獲取返回的 Json 信息。然后我們提取 Json 信息里面的文章鏈接,為了全部獲取所有文章。offset 值我們需要放在 range 里面,以 10 的步數(shù)往上增長(zhǎng), offset 最大值是多少呢?我們可以通過(guò)抓包獲取,把公眾號(hào)文章一直上滑到底,也就是滑動(dòng)公眾號(hào)的第 1 篇文章,我們點(diǎn)擊這個(gè)請(qǐng)求,就可以看到里面的offset值。

把這個(gè)值放在 range 值里。

這樣的話,這個(gè)公眾號(hào)所有的文章鏈接,我都以列表的形式返回。返回給之前第 1 步操作的爬取單篇文章所有圖片。通過(guò)兩個(gè)循環(huán),公眾號(hào)下面所有文章里面的所有表情包或者圖片都可以批量下載下來(lái)。

這樣,雖然我沒(méi)有半佛老師任何的文案,但是我有他硬核而且沙雕的表情包。

總結(jié)下:

1、運(yùn)行代碼前抓包通過(guò) Copy Curl Request 到轉(zhuǎn)換工具里獲取 headers、cookies、和 params 替換掉我代碼中的 headers 相關(guān)信息,并把 params 中 offset 和 count 去掉。

2、代碼請(qǐng)求里加了代理ip proxy,如果運(yùn)行報(bào) pxoxy 相關(guān)的錯(cuò),請(qǐng)自行去西刺代理ip更換一個(gè)(https://www.xicidaili.com/)免費(fèi)的。

3、點(diǎn)擊閱讀原文直達(dá)這個(gè)項(xiàng)目的 B 站視頻版,目前 12萬(wàn)播放量了,有賬號(hào)的伙伴來(lái)個(gè)三連加關(guān)注啊。

在本公眾號(hào)后臺(tái)回復(fù)「表情包」獲取本文所有的代碼。

歡迎關(guān)注公眾號(hào)「Python知識(shí)圈」,公眾號(hào)后臺(tái)回復(fù)關(guān)鍵字,獲取更多干貨。

回復(fù)「英語(yǔ)」:送你英語(yǔ) 7000 單詞速記法,親測(cè)非常有效。

回復(fù)「編程」:免費(fèi)獲贈(zèng)2019最新編程資料,認(rèn)真學(xué)完BAT offer 拿到手軟。

回復(fù)「賺錢」:領(lǐng)取簡(jiǎn)單可實(shí)操的 36 個(gè)賺錢的小項(xiàng)目,每天多賺100塊零花錢。

總結(jié)

以上是生活随笔為你收集整理的学习python表情包_我用Python一键保存了半佛老师所有的骚气表情包的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。