當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬取酷狗酷狗飙升榜

發布時間：2023/12/29 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了爬取酷狗酷狗飙升榜小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

鏈接：https://pan.baidu.com/s/1QxIMtVTip-o8_OoLfkrlfg?
提取碼：jxes?

#---------------------import requests from fake_useragent import UserAgent from bs4 import BeautifulSoup import time #導入相應的庫文件 headers ={'User-Agent': UserAgent().chrome } #加入請求頭def get_info(url):# 定義獲取信息的函數wb_data = requests.get(url,headers=headers)soup = BeautifulSoup(wb_data.text,'lxml')ranks = soup.select('span.pc_temp_num')titles = soup.select('div.pc_temp_songlist.pc_rank_songlist_short > ul > li > a')times = soup.select('span.pc_temp_tips_r > span')for rank,title,time in zip(ranks,titles,times):data = {'rank': rank.get_text().strip(),'singer': title.get_text().split('-')[0],'song': title.get_text().split('-')[-1],'time': time.get_text().strip()# 通過split獲取歌手和歌曲信息}print(data)#獲取爬蟲信息并按字典格式打印if __name__=='__main__':# 程序主入口urls = ['http://www.kugou.com/yy/rank/home/{}-6666.html'.format(str(i))for i in range(1,6)]#手動查詢網頁只到5頁，所以循環5次for url in urls:#循環獲得新的urlget_info(url)# 循環調用get_info函數 time.sleep(2) #睡眠1秒,防止被封

（1 ）

導入程序需要的庫，

請求庫用于請求| |網頁

雜志電子| |網頁數據。

BeautifulSoup 用于解析網

頁數據。時間庫的睡眠（）

方法可以讓程序暫停。

（2 ）

通過Chrome 瀏覽器的開發者工具，復制User-Agent ，用于偽裝為瀏覽器，便于爬蟲的穩定性。

（3 ）

定義get_info （）函數，用于獲取網頁信息并輸出信息。

（4 ）

為程序的主入口。

總結

以上是生活随笔為你收集整理的爬取酷狗酷狗飙升榜的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

酷狗

编程问答

爬取酷狗酷狗飙升榜

鏈接：https://pan.baidu.com/s/1QxIMtVTip-o8_OoLfkrlfg? 提取碼：jxes?

總結

鏈接：https://pan.baidu.com/s/1QxIMtVTip-o8_OoLfkrlfg?
提取碼：jxes?