python歌词图表分析_Python可视化图分析毛不易的《入海》,看看听歌的人都在想些什么...
前言
本文的文字及圖片來源于網(wǎng)絡(luò),僅供學(xué)習(xí)、交流使用,不具有任何商業(yè)用途,版權(quán)歸原作者所有,如有問題請(qǐng)及時(shí)聯(lián)系我們以作處理。
歡迎關(guān)注小編,除了分享技術(shù)文章之外還有很多福利,私信學(xué)習(xí)資料可以領(lǐng)取包括不限于Python實(shí)戰(zhàn)演練、PDF電子文檔、面試集錦、學(xué)習(xí)資料等。
沒錯(cuò),還是那個(gè)B站,在520這個(gè)既浪漫且有營銷價(jià)值的一天又「搞事情」了。
5月20日, B站聯(lián)合毛不易發(fā)布畢業(yè)季主題曲《入海》。
這首歌主題是“獻(xiàn)給即將或已經(jīng)畢業(yè)的人們”,歌曲MV中以主人公畢業(yè)的時(shí)候?yàn)樵c(diǎn),追憶過去,并用大量篇幅展現(xiàn)普通人畢業(yè)后的社會(huì)生活。
這首歌一經(jīng)發(fā)布就在B站引爆了話題點(diǎn),截止到5月24日在B站播放量達(dá)到了800萬+,收獲了5.2萬彈幕,最高全站日排行1名。
今天我們就帶你來解讀這首《入海》,以及背后不一樣的毛不易。
一、毛不易的歌里都喜歡唱些什么?
毛不易,本名王維家。本來畢業(yè)于杭州師范大學(xué)護(hù)理專業(yè)的他一直有個(gè)歌手夢(mèng)。在2017年,參加騰訊視頻選秀音樂娛樂節(jié)目《明日之子》,獲得全國總決賽冠軍,從而正式進(jìn)入演藝圈。誰又能想到最后拿到冠軍是這個(gè)長相平平,沒有什么優(yōu)勢(shì),甚至有點(diǎn)害羞憨厚的毛不易了。
隨著《消愁》《像我這樣的人》等歌曲的大火,毛不易這個(gè)名字也被越來越多的人知曉。同時(shí)在今年鵝廠的女團(tuán)選秀節(jié)目《創(chuàng)造營2020》中,毛不易更是以導(dǎo)師的身份加入,呆萌的毛老師這次也收獲了不少的粉絲。
聽著《消愁》里的“一杯敬朝陽,一杯敬月光“,大概是因?yàn)椴湃A,毛不易在這個(gè)年紀(jì)能寫出人生的無奈和糾葛,這是一種大的勇氣。
那么毛不易的歌里都在唱些什么呢?下面讓我們來盤一盤:
我們分析整理了毛不易在網(wǎng)易云音樂的歌曲,一共83首,歌詞字?jǐn)?shù)加起來45577字,我們用Python對(duì)這些歌詞進(jìn)行分析。
歌曲時(shí)長分布
首先在歌曲時(shí)長方面,時(shí)長為4-5分鐘的最多高達(dá)43.9%,3-4分鐘為29.27%,2-3分鐘的為13.41%。要知道一般歌曲時(shí)長多為3分鐘左右,看來毛不易的歌時(shí)長還是偏長的。
歌曲正向情感得分
我們使用boson庫對(duì)每首歌的歌詞的情感進(jìn)行打分,分?jǐn)?shù)介于0~100分,高于50分為積極,分?jǐn)?shù)越高,積極傾向性越高。從分布圖可以看出,在83首歌曲中,大部分的歌曲正向積極情感為主。
毛不易最喜歡的詞TOP15
毛不易最喜歡的歌里最喜歡用哪些詞呢?我們分析整理得出了歌詞中出現(xiàn)頻率最高的TOP15??梢钥吹?#34;等待"、"生活"、"時(shí)光"等詞出現(xiàn)頻率最高,位列前三。
"慢慢"、"遇見"、"江水"、"角落"等比較文藝的詞也上榜了。有意思的是"有錢"出現(xiàn)頻率也較高,位列第四。
二、《入海》全站日排名第一 ,這首獻(xiàn)給畢業(yè)季的歌好在哪兒?
我們使用Python獲取并分析了B站上《入?!愤@首MV的評(píng)論數(shù)據(jù),經(jīng)過去重之后得到19099條樣本,下面讓我們看到評(píng)論的具體分析。
評(píng)論用戶性別占比
首先,在評(píng)論用戶性別占比方面,男性用戶占比略高,男性用戶占比54.69%,女性用戶占比45.31%。
評(píng)論用戶客戶端分布
那么看《入?!返挠脩粼诳匆曨l時(shí)都用的什么移動(dòng)設(shè)備呢?經(jīng)過分析發(fā)現(xiàn),用iphone的用戶占了很大的比例,遠(yuǎn)超Andrio系統(tǒng)的用戶。第三位是使用ipad的用戶。
評(píng)論用戶等級(jí)分布
同時(shí)我們知道,b站上用戶因?yàn)閰⑴c程度等因素,等級(jí)從0-6分布,數(shù)字越大等級(jí)越高。在《入?!愤@首歌的評(píng)論用戶上,評(píng)論中5級(jí)的占比最高為36.1%,其次是4級(jí)占比26.31%,6級(jí)占比僅為3.24%,這也是因?yàn)楫吘挂蔀榱?jí)大佬實(shí)在太難了。
各時(shí)段評(píng)論人數(shù)
在評(píng)論時(shí)間段方面,《入?!肥窃?月20日 8:30發(fā)布的,在發(fā)布后評(píng)論的人數(shù)越來越多,在12點(diǎn)左右評(píng)論達(dá)到最高峰,這個(gè)時(shí)段共有2萬7千余人進(jìn)行評(píng)論,遠(yuǎn)高于其他時(shí)段,之后隨著時(shí)間推移評(píng)論人數(shù)也越來越少,趨于平緩。
評(píng)論關(guān)鍵詞TOP15
在評(píng)論中大家說得最多的是什么呢?
經(jīng)過分析整理可以看到,"畢業(yè)"是提到最多的詞,其次第二位是"后浪",畢竟作為同樣聚焦在年輕人身上的話題,這次的《入海》很容易讓大家聯(lián)系到5月4日B站發(fā)布的《后浪》視頻。
同時(shí),"快樂"、"入海"、"大哭"等詞也被頻頻提到。
三、Python分析:B站《入?!吩u(píng)論數(shù)據(jù)
我們使用Python獲取并分析了B站上《入?!愤@首MV的評(píng)論數(shù)據(jù)。經(jīng)過去重之后得到19099條樣本,來分析一下這周MV的用戶的評(píng)論信息。整個(gè)分析流程分為以下幾步:
數(shù)據(jù)獲取
數(shù)據(jù)整理
數(shù)據(jù)可視化
數(shù)據(jù)獲取
在獲取視頻評(píng)論之前,我們首要做的就是分析其網(wǎng)頁結(jié)構(gòu),尋找目標(biāo)數(shù)據(jù),也就是我們要評(píng)論的數(shù)據(jù)在哪里。
經(jīng)過抓包分析,在network-json選項(xiàng)卡下,很容易找到了數(shù)據(jù)傳輸?shù)牡刂?/p>
其中oid是視頻的專屬oid,pn是頁面數(shù)。
由上圖可看出,其評(píng)論數(shù)據(jù)是以json數(shù)據(jù)形式存在于網(wǎng)頁端的,目前顯示的頁數(shù)是976頁,每頁20條評(píng)論,追評(píng)數(shù)據(jù)暫時(shí)不做抓取。
接下來,就爬取思路很明確,從第一頁的JSON文件開始,爬完20條評(píng)論,循環(huán)pn頁數(shù),直到爬完所有的評(píng)論數(shù)據(jù)。
代碼如下:
獲取到的數(shù)據(jù)以DataFrame的形式存儲(chǔ),格式如下:
# 讀入數(shù)據(jù)
df.head()
數(shù)據(jù)集有19099個(gè)樣本,8個(gè)字段,字段名稱為:用戶名、用戶性別、用戶簽名、用戶等級(jí)、用戶評(píng)論、設(shè)備名稱、評(píng)論時(shí)間、點(diǎn)贊數(shù)。
df.info()
RangeIndex: 19099 entries, 0 to 19098
Data columns (total 8 columns):
user_name 19099 non-null object
sex 19099 non-null object
sign 9896 non-null object
current_level 19099 non-null int64
content 19099 non-null object
device 4159 non-null object
content_time 19099 non-null int64
reply_count 19099 non-null int64
dtypes: int64(3), object(5)
memory usage: 1.2+ MB
數(shù)據(jù)整理
此處我們主要對(duì)以上獲取的數(shù)據(jù)集進(jìn)行部分清洗工作以方便后續(xù)的處理:
重復(fù)值處理
類型轉(zhuǎn)化
時(shí)間戳數(shù)據(jù)處理
評(píng)論數(shù)據(jù)jieba分詞處理-(代碼暫略)
數(shù)據(jù)可視化分析
此處我們將進(jìn)行以下部分的數(shù)據(jù)可視化分析,首先導(dǎo)入所需包,其中pyecharts用于繪制動(dòng)態(tài)圖形,stylecloud用于繪制詞云圖,關(guān)鍵代碼如下:
評(píng)論性別占比
用戶客戶端分布
用戶等級(jí)分布
評(píng)論時(shí)間走勢(shì)圖
評(píng)論詞云圖
總結(jié)
以上是生活随笔為你收集整理的python歌词图表分析_Python可视化图分析毛不易的《入海》,看看听歌的人都在想些什么...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python实现多层感知器MLP(基于双
- 下一篇: 关闭PyCharm的Run with P