當前位置：首頁 > 编程语言 > python >内容正文

python

python爬取豆瓣电影并分析_Python爬取豆瓣电影的短评数据并进行词云分析处理

發布時間：2023/12/15 python 39 豆豆

生活随笔收集整理的這篇文章主要介紹了 python爬取豆瓣电影并分析_Python爬取豆瓣电影的短评数据并进行词云分析处理小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前言

對于爬蟲很不陌生，而爬蟲最為經典的案例就是爬取豆瓣上面的電影數據了，今天小編就介紹一下如果爬取豆瓣上面電影影評，以《我不是藥神》為例。

基本環境配置

版本：Python3.6

相關模塊：

（1）requests：用來簡單數據請求。

（2）lxml：比BeautiSoup更快更強的解析庫。

（3）pandas：數據處理神器。

（4）time：設置爬蟲訪問間隔。

（5）random：生成隨機數，配合time使用。

（6）tqdm：顯示程序運行進度。

以上模塊如果你沒有安裝可以在cmd命令提示符里進行pip install + 模塊名?進行安裝。

主要思路步驟

1、打開豆瓣電影《我不是藥神》的短評網頁，右鍵檢查或者按F12，然后選擇用戶名和評論就會顯示出對應的代碼部分

正在上傳...取消

2、通過requests模塊發送一個get請求，并以utf-8重新編碼；

3、添加一個交互，判斷是否成功獲取到資源（狀態碼為200），輸出獲取狀態。

對于爬取下來《我不是藥神》的短評內容，我們用lxml來進行解析。在步驟1中找到對應部分的代碼，然后右鍵選擇Copy，再選擇Copy XPath，就能獲取其路徑了。

注意：

爬取下來的短評首尾可能有多余的空格，我們就需要使用字符串中的strip()方法來去掉這些多余的空格。

4、獲取到數據之后，我們通過list構造dictionary，然后通過dictionary構造dataframe，并通過pandas模塊將數據輸出為csv文件

實現代碼

運行結果

正在上傳...取消

當然了，如果你想要用這些數據做成詞云圖，進行數據展示也是可以的。

詞云實現代碼

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。