零基础也能看懂python_零基础也能看懂的Python下载网易云音乐爬虫
Python
Selenium(配置方法參照:Selenium配置)
Chrome瀏覽器(其它的也可以,需要進行相應的修改)
解析
以前抓取過網易云網頁的朋友可能都清楚網易云有反爬蟲策略的,post時要對部分信息的參數完成加密函數的模擬。為了方便,入門新手也可以了解,直接采用Selenium來模擬登錄,之后用接口來下載音樂和歌詞。
實驗步驟:
通過歌手id得到當前歌手的熱門歌曲信息,歌名與網址,并且存儲到CSV文件里面;
載入csv文件,通過音樂鏈接,獲取歌曲ID,之后借助相應的接口,下載歌曲和歌詞;
將歌曲和歌詞存儲到本地。
這里針對幾個主要的函數來說明…
抓取歌手信息
通過Selenium就不用看對頁面的請求了,能直接從頁面源代碼中提取對應的數據,查看歌手網頁源代碼能夠看到在iframe框架里有我們需要的信息,因此,要先切換到iframe:
browser.switch_to.frame('contentFrame')
接著看下去,在id=”hotsong-list”標簽中能看到需要的歌名以及鏈接,然后每一行對應的是一個tr標簽。因此先取得全部的tr內容,然后遍歷單個tr。
data = browser.find_element_by_id("hotsong-list").find_elements_by_tag_name("tr")
注意:前一個是find_element,后一個是find_elements,后者返回一個列表。
然后就是解析單個tr標簽的內容,得到歌名與鏈接,可以發現兩者在class=”txt”標簽中,而且鏈接是href屬性,名字是title屬性,能直接通過get_attribute()函數獲取。
鏈接中的數字就是歌曲的id,因此我們得到歌曲id后,能夠同時從該鏈接下載歌詞,歌詞文件是json格式,因此我們還要用到json包。
并且同時獲取的歌詞中,每行有一個時間軸,還要用正則表達式來去除,完整代碼如下:
鏈接中的數字為歌曲的id,可以直接根據歌曲的id來下載音頻文件。完整代碼如下:
相關文章內容簡介
1
零基礎也能看懂的Python下載網易云音樂爬蟲
零基礎也能看懂的Python下載網易云音樂爬蟲,配置基礎 Python Selenium(配置方法參照:Selenium配置) Chrome瀏覽器(其它的也可以,需要進行相應的修改) 解析 以前抓取過網易云網頁的朋友可能都清楚網易云有反爬蟲策略的,post時要對部分信息的參數完成加密函數的模擬。為了方便,入門新手也可以了解,直接采用Selenium來模擬登錄,之后用接口來下載音樂和歌詞。 實驗步驟: 通過歌手id得到當前歌手的熱門歌曲信息,歌名與網址,并且存儲到CSV文件里面; 載入csv文件,通過音樂鏈接,獲取歌曲ID,之后借助相應的接口,下載歌曲和歌詞; 將歌曲和歌詞存儲到本地。 Python實現 這里針對幾個主要的函數來說明… 抓取歌手信息 通過Selenium就不用看對頁面的請求了,能直接從頁面源代碼中提取對應的數據,查看歌手網頁源代碼能夠看到在ifr
[閱讀全文]
總結
以上是生活随笔為你收集整理的零基础也能看懂python_零基础也能看懂的Python下载网易云音乐爬虫的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: vbs读取服务器上的txt文件,VBS读
- 下一篇: python git切换分支_git命令