當前位置:
首頁 >
爬取酷狗酷狗飙升榜
發布時間:2023/12/29
28
豆豆
鏈接:https://pan.baidu.com/s/1QxIMtVTip-o8_OoLfkrlfg?
提取碼:jxes?
#---------------------import requests
from fake_useragent import UserAgent
from bs4 import BeautifulSoup
import time
#導入相應的庫文件
headers ={'User-Agent': UserAgent().chrome
}
#加入請求頭def get_info(url):# 定義獲取信息的函數wb_data = requests.get(url,headers=headers)soup = BeautifulSoup(wb_data.text,'lxml')ranks = soup.select('span.pc_temp_num')titles = soup.select('div.pc_temp_songlist.pc_rank_songlist_short > ul > li > a')times = soup.select('span.pc_temp_tips_r > span')for rank,title,time in zip(ranks,titles,times):data = {'rank': rank.get_text().strip(),'singer': title.get_text().split('-')[0],'song': title.get_text().split('-')[-1],'time': time.get_text().strip()# 通過split獲取歌手和歌曲信息}print(data)#獲取爬蟲信息并按字典格式打印if __name__=='__main__':# 程序主入口urls = ['http://www.kugou.com/yy/rank/home/{}-6666.html'.format(str(i))for i in range(1,6)]#手動查詢網頁只到5頁,所以循環5次for url in urls:#循環獲得新的urlget_info(url)# 循環調用get_info函數
time.sleep(2)
#睡眠1秒,防止被封
?
(1 )
導入程序需要的庫,
請求庫用于請求| |網頁
雜志電子| |網頁數據。
BeautifulSoup 用于解析網
頁數據。時間庫的睡眠()
方法可以讓程序暫停。
(2 )
通過Chrome 瀏覽器的開發者工具,復制User-Agent ,用于偽裝為瀏覽器,便于爬蟲的穩定性。
(3 )
定義get_info ()函數,用于獲取網頁信息并輸出信息。
(4 )
為程序的主入口。
總結
- 上一篇: SEO高手都有哪些技术手段
- 下一篇: 电脑最为忌讳的小动作