python爬虫下载付费音乐包有什么用_听歌音乐还要我付费?看我用Python批量下载!...
網(wǎng)頁分析
分析音樂的真實地址
url拼接 獲取所有數(shù)據(jù)
批量獲取singid
代碼編寫
獲取所有的songid
根據(jù)songid獲取音樂的真實地址
保存音樂文件
無版權(quán)音樂稻香的爬取
網(wǎng)頁分析
目標(biāo)站點:網(wǎng)頁鏈接陳粒
一個人可以跑得很快,一群人可以走得更遠!
分析音樂的真實地址
選擇一首歌 以陳粒的走馬為例
打開開發(fā)者工具,選擇network -> media -> 刷新網(wǎng)頁就能獲取到音樂的真實地址
但是得到的地址在查看源碼中是讀取不到的,肯定是百度音樂對其進行了隱藏。這種時候一般會有兩種情況。第一種是使用了 JavaScript 對請求連接進行了拼接或加密,第二種是數(shù)據(jù)被隱藏了。由于我們不清楚是出現(xiàn)了那種情況。所以我們只能慢慢的去分析請求的數(shù)據(jù)。
經(jīng)過分析我們可以看到真實的音樂地址是存在于這個API里面網(wǎng)頁鏈接
并且我們請求這個 API 返回的是一個 json 數(shù)據(jù)(也就是python的字典數(shù)據(jù)類型)。只要我們使用字典的規(guī)則就能將我們的所有數(shù)據(jù)給提取到。
url拼接 獲取所有數(shù)據(jù)
前面我們得到了音樂的真實地址,接下來我們就是分析真實地址的 url ,以期待得到下載所有音樂的訣竅。
仔細分析一下 url 就可以發(fā)現(xiàn),?后面的from參數(shù)與_即使不存在也不影響數(shù)據(jù)的請求。
并且后面的參數(shù)中的songid其實就是歌曲的唯一id,from參數(shù)其實就是表明從哪個平臺過來的
所以等一下我們下載音樂時,只要批量獲取到歌曲的songid就能將所有的歌曲給全部下載下來了。不管音樂是否是VIP的,又或者時無版權(quán)的均可爬取。
批量獲取singid
使用開發(fā)者工具,查看網(wǎng)頁源碼就能查看到songid的位置,如果我們分析一個歌手頁面的url你會發(fā)現(xiàn)同樣可以構(gòu)造。
到此,整個網(wǎng)頁分析就結(jié)束了。
代碼編寫
獲取所有的songid
根據(jù)目標(biāo)地址,獲取目標(biāo)地址的所有songid
def get_songid():
url = '網(wǎng)頁鏈接
response = requests.get(url=url)
html = response.text
sids = re.findall(r'sid":(d+),',html)
return sids
根據(jù)songid獲取音樂的真實地址
def get_music_url(songid):
api_url = '網(wǎng)頁鏈接{songid}&from=web'
response = requests.get(api_url.format(songid=songid))
str_json = re.findall(r'{.*}', response.text)[0]
data = json.loads(str_json)
music_name = data['songinfo']['title']
music_url = data['bitrate']['file_link']
print(music_url, music_name)
保存音樂文件
def save_file(filename, content):
with open(file=filename, mode="wb") as f:
f.write(content)
無版權(quán)音樂稻香的爬取
進群:960410445 即可獲取數(shù)十套PDF!
總結(jié)
以上是生活随笔為你收集整理的python爬虫下载付费音乐包有什么用_听歌音乐还要我付费?看我用Python批量下载!...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 在Linux内核使用Kasan
- 下一篇: python 读取 pdf 文档