當前位置：首頁 > 编程语言 > python >内容正文

python

小白都懂的Python爬虫之网易云音乐下载

發布時間：2023/12/10 python 54 豆豆

生活随笔收集整理的這篇文章主要介紹了小白都懂的Python爬虫之网易云音乐下载小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

首發知乎：https://zhuanlan.zhihu.com/p/...

目標

偶然的一次機會聽到了房東的貓的《云煙成雨》，瞬間迷上了這慵懶的嗓音和學生氣的歌詞，然后一直去循環聽她們的歌。然后還特意去刷了動漫《我是江小白》，好期待第二季...

我多想在見你，哪怕匆匆一眼就別離...

好了，不說廢話了。這次的目標主要是根據網易云中歌手的ID，下載該歌手的熱門音樂的歌詞和音頻，并保存到本地的文件夾中。

配置基礎

Python
Selenium(配置方法參照：Selenium配置)
Chrome瀏覽器(其它的也可以，需要進行相應的修改)

分析

如果爬取過網易云的網站的小伙伴都應該知道網易云是有反爬取機制的，POST時需要對一些信息的參數進行加密函數的模擬。但是這里為了簡便，小白也能理解。直接使用了Selenium來模擬登錄，然后使用接口來直接下載音樂和歌詞。

實驗步驟：

根據歌手ID獲取該歌手的熱門歌曲列表，歌曲名稱和鏈接，并保存到csv文件中；

讀取csv文件，根據歌曲鏈接，提取歌曲ID，然后利用相應的接口，下載音樂和歌詞；

將音樂和歌詞保存到本地。

Python實現

該部分將對幾個關鍵的函數進行介紹...

獲取歌手信息

利用Selenium我們就不需要看對網頁的請求了，直接可以從網頁源碼中提取相應的信息。查看歌手頁面源碼可以發現，我們需要的信息在iframe框架內，所以我們先需要切換到iframe：

browser.switch_to.frame('contentFrame')

繼續往下看，發現我們需要的歌曲名字和鏈接是在id="hotsong-list"的標簽中，然后每一行對應的是一個tr標簽。所以先獲取所有的tr內容，然后遍歷單個tr。

data = browser.find_element_by_id("hotsong-list").find_elements_by_tag_name("tr")

注意：前一個是find_element，后一個是find_elements，后者返回一個列表。

接下來就是解析單個tr標簽的內容，獲取歌曲名字和鏈接，可以發現兩者在class="txt"標簽中，而且鏈接是href屬性，名字是title屬性，可以直接通過get_attribute()函數獲取。

for i in range(len(data)):content = data[i].find_element_by_class_name("txt")href = content.find_element_by_tag_name("a").get_attribute("href")title = content.find_element_by_tag_name("b").get_attribute("title")song_info.append((title, href))

下載歌詞

網易云有個獲取歌詞的接口，鏈接為：http://music.163.com/api/song...

鏈接中的數字就是歌曲的id，所以我們擁有歌曲id后，可以直接從該鏈接下載歌詞，歌詞文件是json格式，所以我們需要用到json包。

而且直接獲取的歌詞中，每行有一個時間軸，需要用正則表達式來剔除，完整代碼如下：

def get_lyric(self):url = 'http://music.163.com/api/song/lyric?' + 'id=' + str(self.song_id) + '&lv=1&kv=1&tv=-1'r = requests.get(url)json_obj = r.textj = json.loads(json_obj)lyric = j['lrc']['lyric']# 利用正則表達式去除時間軸regex = re.compile(r'\[.*\]')final_lyric = re.sub(regex, '', lyric)return final_lyric

下載音頻

網易云也提供了音頻文件的接口，鏈接為：http://music.163.com/song/med...

鏈接中的數字為歌曲的id，可以直接根據歌曲的id來下載音頻文件。完整代碼如下：

def get_mp3(self):url = 'http://music.163.com/song/media/outer/url?id=' + str(self.song_id)+'.mp3'try:print("正在下載：{0}".format(self.song_name))urllib.request.urlretrieve(url, '{0}/{1}.mp3'.format(self.path, self.song_name))print("Finish...")except:print("Fail...")

Reference

python 根據網易云歌曲的ID 直接下載歌曲
Windows上安裝Selenium爬取網易云歌曲

源碼地址

Github：Link

總結

以上是生活随笔為你收集整理的小白都懂的Python爬虫之网易云音乐下载的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：程序员常见的坏习惯，你躺枪了吗？
下一篇： python评估不平衡数据集_Pytho