當前位置：首頁 > 编程语言 > python >内容正文

python

python不间断爬取微博热搜并存储

發布時間：2024/1/8 python 45 豆豆

生活随笔收集整理的這篇文章主要介紹了 python不间断爬取微博热搜并存储小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Q：想要記錄實時的微博熱搜分析某一類事件的熱度怎么辦？
A：采用python爬蟲24小時不間斷爬取微博熱搜并存儲到本地。
代碼如下：

# -*- coding: utf-8 -*- """ Created on Thu Mar 18 14:48:24 2021@author: Administrator """ #文件目的是每隔一段時間爬微博熱搜并存儲在本地 import requests from bs4 import BeautifulSoup import time import pandas as pd import oshot_url = 'https://s.weibo.com/top/summary/' # 熱搜榜鏈接 folderPath = r'C:/Users/Administrator/Desktop/weibo_hotness' #文件存儲目錄 if os.path.exists(folderPath):pass else:os.mkdir(folderPath) #建立文件夾columns = [] for i in range(50):columns.append('hot_text%s'%i)columns.append('hot_number%s'%i)#建立存儲DataFrame的列名，分別是熱搜文本和熱度if __name__ == "__main__":pre_date = '20000101'#初始化一個前一日期while 1:try:current_date = time.strftime("%Y%m%d", time.localtime())#當前日期filePath = folderPath + '/%s.csv'%current_date#文件存儲位置if current_date == pre_date:passelse:today_data = pd.DataFrame(columns=columns)#將今天所有的數據初始化一個DataFramenow_localtime = time.strftime("%H%M", time.localtime())#現在時間，精確到分if int(now_localtime)%5 == 0:#每5分鐘執行一次news = []# 新建數組臨時存放熱搜榜r = requests.get(hot_url)# 向鏈接發送get請求獲得頁面soup = BeautifulSoup(r.text, 'lxml')# 解析頁面urls_titles = soup.select('#pl_top_realtimehot > table > tbody > tr > td.td-02 > a')hotness = soup.select('#pl_top_realtimehot > table > tbody > tr > td.td-02 > span')#獲取文本和熱度for i in range(len(urls_titles)-1):title = urls_titles[i+1].get_text()# get_text()獲得a標簽的文本news.append(title)hotness_number = hotness[i].get_text()# 獲得熱度文本news.append(hotness_number)# 數據添加到臨時存儲數組中today_data.loc[now_localtime] = news#將數組添加到DataFrame中if os.path.isfile(filePath):os.remove(filePath)#刪除原有文件else:passtoday_data.to_csv(filePath)#寫入硬盤time.sleep(200)else:time.sleep(20)pre_date = current_date#改變前一日期except:time.sleep(5)

Q：以上就實現了python爬取微博熱搜，但是要如何24小時不間斷爬取呢？
A：將代碼打包成exe文件放在云服務器上運行。
打包方法：
首先需要將.py文件后綴改為.pyw，這樣程序運行時就不會有窗口產生，而是直接在后臺運行
安裝pyinstaller

pip install pyinstaller

打開anaconda自帶的Anaconda Prompt，將目錄移動到.pyw文件存儲文件夾

cd C:\Users\Administrator\Desktop\weibo_hotness

執行打包程序

pyinstaller -F 文件名（帶文件擴展名）

打包完成后生成的dist文件夾下就會有對應的exe文件了，將其發送到云服務器上就可以24小時不間斷運行
參考文獻：參考文獻
本人中部某基科在讀研究生，歡迎對量化交易和python或研究生生活感興趣的同學關注我的個人微信公眾號。

總結

以上是生活随笔為你收集整理的python不间断爬取微博热搜并存储的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：新房装修-电器挑选
下一篇：用python如何制作表格_Python

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

python不间断爬取微博热搜并存储

總結