當前位置:
首頁 >
哪吒票房逼近40亿,用python爬取哪吒短评分析
發布時間:2025/3/20
37
豆豆
生活随笔
收集整理的這篇文章主要介紹了
哪吒票房逼近40亿,用python爬取哪吒短评分析
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
目錄
- 前言
- 分析
- 具體步驟
- 登錄
- 爬取與存儲
- 可視化分析
- 結語
前言
- 暑期檔電影慘淡,但隨著哪吒爆紅開拓了新局面。這也是國產動畫的首次爆紅。在哪吒剛出,筆者以為最多10億就算不錯的了。沒想過僅過了幾天就破了10億。接著頭條又突破20億--------11天27億,勢頭增長依然很猛!又破了30億!
那筆者就很好奇人們是怎么看待這一步電影的呢?
- 哪吒?我想哪吒是陪伴過不少人成長的一部動畫片吧,也是記憶中算得上最好看的動畫片之一了。里面的哪吒、小豬熊、申公豹、石雞娘娘令人歷歷在目。我們或許都被哪吒的敢打敢為、勇敢和天真所感動!
分析
- 對于這么一部爆紅的動畫電影。我想簡單分析人們對哪吒動畫電影的評價狀況。那么就選擇貓眼票房或者豆瓣的短評爬下來分析了。
- step1:打開豆瓣主頁哪吒短評的界面。F12打開調試點擊頁面下一頁會發現有ajax數據交互。
- step2:分析這個接口,發現無加密。返回的是json套html需要解析處理一下。用網頁訪問這個接口。但是你會發現一旦你訪問頁面靠后它就拒絕訪問了。提示你要登錄再訪問。
- step3:思路很清晰了。只需要登錄—>訪問接口爬取存儲—>可視化分析即可
具體步驟
登錄
- 賬密登錄fiddler抓包發現可以直接發送請求登錄。大膽猜測沒有cookie限制。登陸后即可訪問接口!
- 程序方面只需要根據參數進行模擬即可,登錄完將cookie保存。后面的訪問都帶著這個cookie即可。
登錄部分代碼為:
import requests import urllib.parse from http import cookiejarurl='https://accounts.douban.com/j/mobile/login/basic' header={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36', 'Referer': 'https://accounts.douban.com/passport/login_popup?login_source=anony','Origin': 'https://accounts.douban.com','content-Type':'application/x-www-form-urlencoded','x-requested-with':'XMLHttpRequest','accept':'application/json','accept-encoding':'gzip, deflate, br','accept-language':'zh-CN,zh;q=0.9','connection': 'keep-alive','Host': 'accounts.douban.com'} data={'ck':'','name':'','password':'','remember':'false','ticket':'' } def login(username,password):global datadata['name']=usernamedata['password']=passworddata=urllib.parse.urlencode(data)print(data)req=requests.post(url,headers=header,data=data,verify=False)cookies = requests.utils.dict_from_cookiejar(req.cookies)print(cookies)return cookies爬取與存儲
- 通過api的規則拼湊,抓下來的數據。我們主要需要評價星,和評論語句。
- 使用Beautifulsoup進行dom解析。使用xldr、xldw將數據寫入excel文件中。一個頁面20條。頁面url增加直到出現異常為止停止。
主要代碼實現:
- 對于爬取的結過一覽
可視化分析
- 我們要對評分進行統計、詞頻統計。還有就是生成詞云展示。而對應的就是matplotlib、WordCloud庫。
評分統計:
- 對于評分統計,使用數組將上面的1,2,3,4,5,五個分數段讀取時候寫入,根據數據畫出餅狀圖分析即可。
- 從上圖也可以知道,對于評分,大部分還是分布在5分和4分的,占比分別為41.2%和33.4%.而2分和1分時非常少!這足以說明這部片絕對不是爛片或者爭議不是很大。一部片不可能滿足所有人。存在不滿意的都在三分但依然能夠接受。所以從評分分布來看哪吒還是廣受支持的!
詞頻統計:
- 根據jieba分詞。統計前面熱詞出現的次數。反應觀眾共鳴點。
- 這里感謝樓下評論給的建議,有些詞語無關性較大,我將它剔除去噪(例如這個,那個,這是等等)。
- 可以看的出國產、大圣(大圣歸來對比).這些熱門話題直戳心頭!
詞云展示:
- 相比詞頻,詞云無法看到詞語的準確數量,但是可以看的到更多詞匯、人們的評價。筆者這里通過count()類(map)對分詞結果進行詞頻統計。統計完的詞頻排序前300個詞展示在2個詞云上。這些詞語的出現頻率均大于10.所以還是有所參考價值額。
- 可以從詞云簡單分析出大家還是很滿意的,充滿濃濃封神色彩、動畫風格、不屈的爭斗、國產的激動!在票房直逼30億的情況下!我、要去看了。
代碼
- 順便給出可視化分析部分代碼:
結語
- 如果自己需要可以到github下載項目完整代碼。當然,只需要更改部分即可同理分析其他電影。
- 項目依然有不夠完善地方,如影評,對不同評分的平均不同處理、其他不同角度如評論用戶性別、地點等等等等,這里不做延申。
- 如果對后端、爬蟲、數據結構算法等感性趣歡迎關注我的個人公眾號交流(回復 爬蟲 即可獲得學習資料一份!):bigsai 持續輸出分享!
總結
以上是生活随笔為你收集整理的哪吒票房逼近40亿,用python爬取哪吒短评分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据结构于算法—线性表
- 下一篇: 如何用python“优雅的”调用有道翻译