程序员,你喜欢抽哪种香烟?(python数据分析)
大家好,今天給大家分享一篇關于國產香煙分析的文章,主要用python爬取“煙悅網”數據,并作詳細分析,帶你看看香煙的種類及價格現狀,放一張詞云圖:
1.爬取數據
1.1 網站分析
進入主頁,煙悅網網址:https://www.yanyue.cn/tobacco
我們可以發現,所有香煙品牌的名字及對應網址(href)直接在首頁內,是一個簡單的靜態網頁。
隨機進入某香煙品牌的主頁:
發現內含該品牌下不同種類的香煙,包含名稱、類型、焦油量及價格等信息。
打開流量分析工具,分析找到該數據接口:
是1個json格式的文件,再來看看它的請求參數:
有兩個變量,分別是brandid=23(每個香煙品牌都有1個數字代表,在上一步網頁中可以找到),page=1(頁碼),這兩個變量都很好分析。
現在網站上的邏輯關系基本已經捋順了。
1.2 爬取數據
獲取每個品牌的名字及對應網址:
構造每個品牌的主頁網址,計算總頁數:
根據總頁數,把該品牌所有香煙種類的數據爬下來:
將數據保存到表格中:
2.數據分析
本次數據分析主要通過pyecharts實現
2.1 分析香煙種類及數量
從上圖可以看出:
·香煙品牌總共有106種
·香煙種類一共有2390種
2.2 畫出香煙名字種類詞云圖
·根據詞的大小可以看出該品牌下香煙種類的數量,看來是黃鶴樓最多
2.3 畫出香煙種類數量排名前十柱狀圖
果然,種類最多的是黃鶴樓,一共有197種,感覺這幾類煙都挺常見的
2.4 畫出價格分布柱狀圖
主要根據每種價格對應的種類數量畫圖(例如20元的香煙有161種)
這個圖看起來不那么整齊,但是仍可以獲得一些信息:
·20元的價格種類最多,總共有161種;
·最便宜的煙價格為1.5元,有6種,像北戴河(軟烤)、芙蓉(軟橙)、甲天下(軟)等,不知道能不能買到,但應該是很多人的回憶;
·最貴的煙價格為250元,總共有2種,分別是熊貓(聽50支)、中華(聽50支)。
2.5 畫出不同價格段香煙種類的餅狀圖
首先把價格按如下方式分段:
然后統計數量并畫圖:
從圖可以看出,10-20元的煙種類最多,其此是0-10元和20-30元,將近一半的煙都在20元以下。
2.6 最后畫1張當月最受歡迎的香煙top10排名圖
排名是根據網站上每個牌子香煙的訪問量計算來的,看來荷花非常受歡迎啊。
吸煙有害健康,希望廣大煙民程序員盡快戒煙哦!
本文所有數據均來自網絡,僅為學習交流使用,不作為其他參考。
?
代碼已傳至公眾號,如需獲取源碼,請在后臺回復“香煙”獲取
? ???精 彩 文 章?
當你裝不上Python外部包時,試試這個網站
玩會這15款編程游戲,就算是入門了!
我常用的10個Python實用小Trick
END
來和小伙伴們一起向上生長呀~~~
掃描下方二維碼,添加小詹微信,可領取千元大禮包并申請加入 Python學習交流群,群內僅供學術交流,日常互動,如果是想發推文、廣告、砍價小程序的敬請繞道!一定記得備注「交流學習」,我會盡快通過好友申請哦!
(添加人數較多,請耐心等待)
(掃碼回復 1024? 即可領取IT資料包)
總結
以上是生活随笔為你收集整理的程序员,你喜欢抽哪种香烟?(python数据分析)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 当你装不上Python外部包时,试试这个
- 下一篇: Python 3 开发钉钉群机器人