日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

抓取豆瓣上的《长津湖》的热评,我发现了这些

發布時間:2025/4/5 编程问答 18 豆豆
生活随笔 收集整理的這篇文章主要介紹了 抓取豆瓣上的《长津湖》的热评,我发现了这些 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前言

  • 🔗 運行環境:python3
  • 🚩 作者:K同學啊
  • 📚 精品專欄:《Matplotlib教程》
  • 🧿 優秀專欄:《Python入門100題》
  • 🔥 推薦專欄:《小白入門深度學習》
  • 🥇 精選專欄:《深度學習100例》

大家,我是K同學啊!

近期一部《長津湖》火爆朋友圈,被各種安利,咱一個人也不想跑電影院去霸個情侶座,就老老實實分析一下影評,看看大家的“觀后感”是吧~

首先定位目標網頁

https://movie.douban.com/subject/25845392/comments

上爬蟲,抓取下面四個字段

然后使用pandas對導入數據并做簡單的處理

import pandas as pd import osfile_path = os.path.join("douban.csv")#讀取test.csv文件中的A、B列,若不設置usecols參數,默認讀取全部數據。 df = pd.read_csv(open(file_path,'r',encoding='utf-8'), names=["用戶名","星評","評論時間","評論"]) df.head() 用戶名星評評論時間評論01234
依然范特西還行2021-09-30 10:23:06有點失望,劇情可以說無,還是一如既往的人物塑造,一如既往的這樣煽情,第一場戰斗要比第二場好看...
奧利奧小餅干🍪較差2021-09-30 15:13:40看完三個小時只想說以為高潮要來了結果戛然而止,有點頭重腳輕了,水門橋的部分是要單獨再拿出來整...
高質量鑒賞達人較差2021-09-26 21:17:48去看了點映,值得票價,三個小時看下來還好,一直戰爭戲容易麻痹雙眼,但是也刺激。我不喜歡紅海因...
吳點半還行2021-09-27 18:16:24只說實話:\n1、片長太長,對觀眾非常不友好。戰爭戲完全可以減少,士兵互相鬧著玩的戲完全可以...
xi-xia還行2021-09-30 11:11:45戰斗場面篇幅之長,劇情邏輯銜接之弱,看到最后真的麻木了。片長控制在兩個小時更好一點。
star_num = df.星評.value_counts() star_num = star_num.sort_index() star_num 力薦 112 推薦 35 該用戶未星評 2 較差 14 還行 37 Name: 星評, dtype: int64

豆瓣短評評分占比

from pyecharts.charts import Pie, Bar, Line, Page from pyecharts import options as opts from pyecharts.globals import SymbolType# 數據對 data_pair = [list(z) for z in zip([i for i in star_num.index], star_num.values.tolist())]# 餅圖 pie1 = Pie(init_opts=opts.InitOpts(width='800px', height='400px')) pie1.add('', data_pair, radius=['35%', '60%']) pie1.set_global_opts(title_opts=opts.TitleOpts(title='豆瓣短評評分占比'), legend_opts=opts.LegendOpts(orient='vertical', pos_top='15%', pos_left='2%')) pie1.set_series_opts(label_opts=opts.LabelOpts(formatter='{b}:ozvdkddzhkzd%')) pie1.render_notebook()

評論數量走勢圖

# 折線圖 line1 = Line(init_opts=opts.InitOpts(width='800px', height='400px')) line1.add_xaxis(comment_date.index.tolist()) line1.add_yaxis('', comment_date.values.tolist(),#areastyle_opts=opts.AreaStyleOpts(opacity=0.5),label_opts=opts.LabelOpts(is_show=False)) line1.set_global_opts(title_opts=opts.TitleOpts(title='評論數量走勢圖'), # toolbox_opts=opts.ToolboxOpts(),visualmap_opts=opts.VisualMapOpts(max_=140)) line1.set_series_opts(linestyle_opts=opts.LineStyleOpts(width=4)) line1.render_notebook()

9月30號上映,9月29號就開始造勢了,30號達到高峰,但是1號似乎勢頭大減啊。

詞云圖

正面

import jiebadef get_cut_words(content_series):# 讀入停用詞表stop_words = [] with open(r"hit_stopwords.txt", 'r', encoding='utf-8') as f:lines = f.readlines()for line in lines:stop_words.append(line.strip())# 添加關鍵詞my_words = ['長津湖', '志愿軍'] for i in my_words:jieba.add_word(i) # 自定義停用詞my_stop_words = ['電影',"長津湖","戰爭"] stop_words.extend(my_stop_words) # 分詞word_num = jieba.lcut(content_series.str.cat(sep='。'), cut_all=False)# 條件篩選word_num_selected = [i for i in word_num if i not in stop_words and len(i)>=2]return word_num_selected text1 = get_cut_words(content_series=df[(df.星評=='力薦')|(df.星評=='推薦')]['評論']) text1[:5] ['犧牲', '冰雪', '戰士', '應該', '遺忘'] import stylecloud from IPython.display import Image # 用于在jupyter lab中顯示本地圖片# 繪制詞云圖 stylecloud.gen_stylecloud(text=' '.join(text1), max_words=1000,collocations=False,font_path=r'經典綜藝體簡.ttf',icon_name='fas fa-thumbs-up',size=360,output_name='豆瓣正向評分詞云圖.png')Image(filename='豆瓣正向評分詞云圖.png')

負面

text2 = get_cut_words(content_series=df[(df.星評=='還行')|(df.星評=='較差')]['評論']) text2[:5] ['有點', '失望', '劇情', '一如既往', '人物'] # 繪制詞云圖 stylecloud.gen_stylecloud(text=' '.join(text2), max_words=1000,collocations=False,font_path=r'經典綜藝體簡.ttf',icon_name='fas fa-thumbs-down',size=350,output_name='豆瓣負向評分詞云圖.png') Image(filename='豆瓣負向評分詞云圖.png')

👇🏻 源碼+數據 可通過掃一掃下方 公眾號(K同學啊) 回復 【長津湖】獲取👇🏻

總結

以上是生活随笔為你收集整理的抓取豆瓣上的《长津湖》的热评,我发现了这些的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。