python爬取虾米音乐_Python爬取620首虾米歌曲,揭秘五月天为什么狂吸粉?!
最近兩天,我被朋友圈的五月天粉絲(五迷)瘋狂刷屏,“五月天永遠陪你到20歲”“演唱會即視感”,這些字眼讓我恨不得馬上奔到電影院打卡。
作為五迷,我是滿懷激情地在寫這篇文章呀(美容覺什么的先不談了,五月天要緊)。
今天我就用Python爬一爬蝦米音樂,半分析半安利地給大家介紹一下這個充滿有趣靈魂的組合。
數(shù)據(jù)獲取
本次爬蟲主要目的是爬取五月天所有歌曲的信息,信息維度當然是越多越好啦。
直接搜索關(guān)鍵詞“五月天”,可能會出現(xiàn)歌名是“五月天”的信息,或者別人翻唱“cover五月天”的內(nèi)容,搜索范圍變大,多抓取了不少無用信息。
所以我以“五月天-藝人-專輯信息-歌曲id-歌曲詳情”這個路徑進行數(shù)據(jù)爬取。我發(fā)現(xiàn),無論是專輯信息、歌曲list還是歌曲詳情,都存在于非常漂亮的JSON格式里面:
本來可以美滋滋“唰唰唰”地批量下載。但是!URL里面有一個s的參數(shù),我暫時找不到變化的規(guī)律(摔!)因為趕時間,就另辟蹊徑,用相對麻煩一點的beautiful soup庫來解析網(wǎng)頁源代碼的內(nèi)容,過程很坎坷,這就是我為什么五月天大電影上映凌晨還在寫這篇文章的原因……
而且,爬蟲的時候我還遇到兩個坑:
1.兩天前能運行的代碼,在今天居然解析不到所需的內(nèi)容了,因為爬取的東西內(nèi)容格式發(fā)生了很大變化。難道是我正巧趕上了他們內(nèi)部修改源代碼的節(jié)點嘛?無從查證。
2.兩天前還在顯示的歌曲詳情(播放量和收藏量),今天一看全都變成0了,每首歌都這樣。我讓別的朋友用其他電腦查看,也是沒信息的。“檢查”了一下,Play Count這些參數(shù)直接變成Null了…?
最后得到三個文件,分別是專輯信息(50張)、歌曲列表(620首)和歌曲詳情(620首),主要是通過專輯字符和歌曲id進行相關(guān)聯(lián),具體字段如下:專輯信息(專輯種類、ID、封面、名字、藝術(shù)家、收藏數(shù)、語言、播放數(shù)、推薦數(shù)、歌曲數(shù)量、專輯字符、評分、評分人數(shù)、發(fā)布時間)
歌曲列表(專輯名字、歌曲名字、ID、時長、播放量)
歌曲詳情(歌曲名字、別名、歌曲ID、時長、播放次數(shù)、作詞、作曲、編曲、專輯名字、歌詞、熱門第一條評論、評論點贊數(shù))
PPPs:不成熟的代碼我一定會在一周之內(nèi)更新到這兒(https://github.com/PengYura)
數(shù)據(jù)清洗
國際慣例:Excel畫圖表+Python畫詞云,(自認為)簡單粗暴又高效。
數(shù)據(jù)分析
截止目前在蝦米音樂平臺關(guān)于五月天的一共有50張專輯,其中“正正經(jīng)經(jīng)”的專輯有9張(“錄音室專輯”),“單曲”類專輯有20張,歌曲數(shù)量在1到6首不等。
判斷作品的優(yōu)劣,最明顯快速的方式就是查看大眾對其的評分,我們來瞧瞧這50張專輯的評分分布?:
可以看到,將近一半的的專輯評分在9.8-10.0之間,只有3張專輯評分沒超過9分。說明大眾對其認可度還是相當高的。
五月天曾說過只會出10張專輯,隨著2016年《自傳》的發(fā)布,現(xiàn)在已經(jīng)有9張跟大家見面啦。我們先看看這9張的數(shù)據(jù)情況。
按照發(fā)布時間順序排列:
按照時間間隔可以看到,emmm,他們發(fā)專輯的間隔從1年慢慢變成2年、3年和5年,我很有理由懷疑下一張專輯可能在5年之后。
再看到發(fā)布時間的月份,4張專輯都是在7月份,其余的分布在10月、11月和12月,這…...難道是某種癥(拖延癥?)的體現(xiàn)?
據(jù)說五月天只會出10張專輯,我非常期待第10張,我也非常害怕10張之后再無新作品(那我的人生還有什么盼頭)。
從評論收藏數(shù)量來看,最新專輯《自傳》的播放數(shù)達7億多次,收藏數(shù)量將近30萬,推薦人數(shù)也是處于遙遙領(lǐng)先的地位。其次是《后青春的詩》和《第二人生》,分別占據(jù)了播放數(shù)和推薦數(shù)的第二。
但是我覺得很多別的老歌也都是很好聽的呀,傳唱度甚至更高。我們也可以在下面的歌曲詳情分析中略窺一二?。
根據(jù)專輯信息里面的歌曲ID(字符串形式和數(shù)字形式皆可),我們可以順藤摸瓜爬取歌曲的信息(https://www.xiami.com/song/歌曲id),一共得到620首,除去沒歌詞的純音樂歌曲55首,還剩565首。
這565首歌中,時長最短的是《輕功(京片子版)》,只有25秒。但是不管怎么樣,也是李大哥的《貝貝》的6倍多了(逃)。
最長的是《出頭天/憨人(live)》,有12分20秒。歌曲整體時間分布還是符合正態(tài)分布的,75%的歌曲時長都在4到7分鐘之間。
神奇的是,平均每首歌的播放數(shù)量也是如此的趨勢:時長為5分鐘的歌曲平均每首歌播放次數(shù)有219w+。所以呀,寫歌還是寫5分鐘多的,也許這樣更容易火呢~
再看看播放數(shù)量TOP20的歌曲:
雖然《自傳》專輯的歌曲擁有45%(9首)的占榜率,但是耳熟能詳?shù)摹锻蝗缓孟肽恪啡匀灰?.5億次的播放量穩(wěn)居TOP1。
這首歌有沒有讓你想起你的某位故人?
前面提到了專輯種類有許多,什么錄音室專輯啦,現(xiàn)場專輯啦,精選集啦。里面有很多歌曲是一樣的,只是版本不一樣。
去重之后發(fā)現(xiàn)還剩177首歌。我們從歌曲的創(chuàng)作內(nèi)容來看看五月天的歌到底有什么特點。
每首歌都要經(jīng)歷作詞、作曲和編曲的過程。在這177首歌里面,主唱阿信參加了139次作詞、100次作曲,我說一句阿信是創(chuàng)作小王子沒人反對吧!
編曲方面,68%的歌曲都是由五月天整個團隊完成的,還有31首歌是有其他人參與合作的,合作次數(shù)最高的是周恒毅(8次)。
為歌詞做個詞云,我發(fā)現(xiàn)了五月天為什么總是吸引大批五好青年的原因:胸懷“世界”,心中充滿”愛“,敢“想”敢“笑”,不懼“人生”和“回憶”,勇敢懷揣著“夢”想。試問誰聽了這些歌曲還能安然地繼續(xù)做“咸魚”呢?
關(guān)于歌曲評論,我只簡單爬取了每首歌的第一條熱門評論和點贊數(shù),你猜怎么著?點贊數(shù)最高的3條內(nèi)容,其中兩條內(nèi)容迷之接近:
Ok,我承認,我就是為了聽五月天而下載蝦米的,膚淺而熱烈。
文章開頭提到了,五月天最近的演唱會紀實大電影《五月天人生無限公司》在昨天上映啦。
這部電影記錄了五月天從2017年3月18日到2019年1月6日,415萬歌迷穿過55座城市陪伴打卡的122場演唱會。我因為種種原因還沒去打卡這部電影。但是,我還是忍不住去豆瓣看了大家的評論。
截止目前豆瓣評分8.9分,65%的觀眾給這部電影打了滿分!作為400萬群演之一,我覺得我很驕傲!
最后的最后,一場生活一場五月天,加入五月天永遠不會太遲讓我們一起邁向80歲?
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的python爬取虾米音乐_Python爬取620首虾米歌曲,揭秘五月天为什么狂吸粉?!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 乌鲁木齐爱地安澜铂寓产权年限多少年?
- 下一篇: python打包脚本_py2exe打包p