當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

对猫眼T100进行简单数据分析

發布時間：2023/12/14 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了对猫眼T100进行简单数据分析小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

對貓眼T100進行簡單數據分析

前言
可視化分析
- TOP100最多的國家或地區
- TOP10電影
- 影產量年份趨勢
- 演員出演TOP100電影情況
- 結語

前言

上一次，我們爬取了貓眼電影的Top100數據，并將它存放在了csv文件中。今天，我們就將數據取出，來進行個簡單的分析吧！

可視化分析

TOP100最多的國家或地區

首先，我們看一下擁有Top100最多的國家或者地區：

代碼如下：

import pandas as pd from matplotlib import pyplot as plt from matplotlib import font_managermy_font = font_manager.FontProperties(fname='C:/Windows/Fonts/msyh.ttc',size = 14)#加載數據 index = ['index','name','actor','releasetime','country','score'] data = pd.read_csv('./MoviesTop100.csv',header=None,names= index) #從第0行開始讀取，索引為 index#print(data.shape) #查看電影分布情況 country_count = data.groupby('country')['country'].count().sort_values(ascending = False) plt.figure(figsize=(10,8),dpi=80) country_count.plot(kind='bar',color='blue',width = 0.8) plt.xticks(rotation=0) plt.ylabel('數量(部)',fontproperties=my_font) plt.xlabel('國家/地區',fontproperties=my_font) plt.title('國家/地區電影數量排名',fontproperties=my_font) for x,y in enumerate(list(country_count.values)): #將其組合成一個索引，例如[(0,44),(1,17)]plt.text(x,y+0.5,y,ha='center') plt.show()

結果如下圖：

可以看到除了網站中沒有顯示國家/地區的電影外，美國以17部占了絕大優勢，其次是韓國，而中國內地一部電影也沒有上榜。。。

TOP10電影

接下來，我們看一下評分最高的10部電影是哪幾部

代碼如下：

top10_movies = data.sort_values('score',ascending=False) name = top10_movies['name'][:10] score = top10_movies['score'][:10] plt.figure(figsize=(10,8),dpi = 80) plt.bar(range(10),score,width=0.6,color='red') plt.xticks(range(10),name,rotation=45) plt.ylim((9,9.7)) #設置y軸坐標 plt.ylabel('評分') plt.xlabel('電影名稱') plt.title('TOP10電影名稱') for x,y in enumerate(list(score)): plt.text(x,float(y)+0.01,y,ha='center') #plt.show() plt.savefig('./繪圖/Top10電影名稱.jpg')

結果如下：

讓我有點意外的是，大話西游之月光寶盒竟然排到了第一名，高達9.6的評分，星爺的電影還是十分經典的。嗯，幸好其中大部分電影還是都看過的

影產量年份趨勢

接下來，我們站在時間的維度上去看下，哪一年盛產了最多的Top100電影

代碼如下：

year_data = pd.Series() #創建一個Series對象，用于后面賦值 for i,item in data.iterrows(): #遍歷每一行year = item['releasetime'].split('/')[0]dict_obj = {} #創建一個空字典dict_obj['time'] = yearyear_df = pd.Series(dict_obj) year_data = year_data.append(year_df) year_moviesnum = year_data.groupby('time').count() plt.figure(figsize=(10,8),dpi = 80) year_moviesnum.plot(kind = 'line',color='red',marker='o') plt.ylabel('數量(部)') plt.xlabel('年份') plt.title('電影產量趨勢') #plt.show() plt.savefig('./繪圖/電影產量趨勢.jpg')

結果如下：

可以看出，在11年的時候，產出了9部Top100。11年，貌似那時候還是使用的DVD吧，那時候的網絡也沒有現在這么發達，也想不起有哪些電影是那年上映的。

演員出演TOP100電影情況

最后，我們再來看一下，哪些演員出演的Top100電影最多

代碼如下：

ctor_data = pd.Series() #創建一個Series對象，用于后面賦值 actor_dict = {} for i,item in data.iterrows(): actor = item['actor'].split(',')for name_item in actor:actor_dict['actor_name'] = name_item actor_df= pd.Series(actor_dict) #轉換為Series類型actor_data = actor_data.append(actor_df) actor_moviesnum = actor_data.groupby('actor_name').count().sort_values(ascending=False)[:12]plt.figure(figsize=(10,8),dpi = 80) actor_moviesnum.plot(kind = 'bar',color='brown',width= 0.6) plt.ylabel('數量(部)') plt.xlabel('姓名') plt.title('出演Top100電影演員情況') plt.xticks(rotation=45) for x,y in enumerate(list(actor_moviesnum)): plt.text(x,float(y)+0.1,y,ha='center') #plt.show() plt.savefig('./繪圖/演員情況.jpg')

從上圖可以看出，張國榮擁有6部Top100電影，其次是星爺。最可惜的是感覺是張國榮，英年早逝。

結語

由于數據量太小，所以做的分析并不是很全面。

總結

以上是生活随笔為你收集整理的对猫眼T100进行简单数据分析的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：什么是证书颁发机构（CA）
下一篇： PDF编辑器（widsmob pdfed