对猫眼T100进行简单数据分析
生活随笔
收集整理的這篇文章主要介紹了
对猫眼T100进行简单数据分析
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
對貓眼T100進行簡單數據分析
- 前言
- 可視化分析
- TOP100最多的國家或地區
- TOP10電影
- 影產量年份趨勢
- 演員出演TOP100電影情況
- 結語
前言
上一次,我們爬取了貓眼電影的Top100數據,并將它存放在了csv文件中。今天,我們就將數據取出,來進行個簡單的分析吧!
可視化分析
TOP100最多的國家或地區
首先,我們看一下擁有Top100最多的國家或者地區:
代碼如下:
import pandas as pd from matplotlib import pyplot as plt from matplotlib import font_managermy_font = font_manager.FontProperties(fname='C:/Windows/Fonts/msyh.ttc',size = 14)#加載數據 index = ['index','name','actor','releasetime','country','score'] data = pd.read_csv('./MoviesTop100.csv',header=None,names= index) #從第0行開始讀取,索引為 index#print(data.shape) #查看電影分布情況 country_count = data.groupby('country')['country'].count().sort_values(ascending = False) plt.figure(figsize=(10,8),dpi=80) country_count.plot(kind='bar',color='blue',width = 0.8) plt.xticks(rotation=0) plt.ylabel('數量(部)',fontproperties=my_font) plt.xlabel('國家/地區',fontproperties=my_font) plt.title('國家/地區電影數量排名',fontproperties=my_font) for x,y in enumerate(list(country_count.values)): #將其組合成一個索引,例如[(0,44),(1,17)]plt.text(x,y+0.5,y,ha='center') plt.show()結果如下圖:
可以看到除了網站中沒有顯示國家/地區的電影外,美國以17部占了絕大優勢,其次是韓國,而中國內地一部電影也沒有上榜。。。
TOP10電影
接下來,我們看一下評分最高的10部電影是哪幾部
代碼如下:
top10_movies = data.sort_values('score',ascending=False) name = top10_movies['name'][:10] score = top10_movies['score'][:10] plt.figure(figsize=(10,8),dpi = 80) plt.bar(range(10),score,width=0.6,color='red') plt.xticks(range(10),name,rotation=45) plt.ylim((9,9.7)) #設置y軸坐標 plt.ylabel('評分') plt.xlabel('電影名稱') plt.title('TOP10電影名稱') for x,y in enumerate(list(score)): plt.text(x,float(y)+0.01,y,ha='center') #plt.show() plt.savefig('./繪圖/Top10電影名稱.jpg')結果如下:
讓我有點意外的是,大話西游之月光寶盒竟然排到了第一名,高達9.6的評分,星爺的電影還是十分經典的。嗯,幸好其中大部分電影還是都看過的
影產量年份趨勢
接下來,我們站在時間的維度上去看下,哪一年盛產了最多的Top100電影
代碼如下:
year_data = pd.Series() #創建一個Series對象,用于后面賦值 for i,item in data.iterrows(): #遍歷每一行year = item['releasetime'].split('/')[0]dict_obj = {} #創建一個空字典dict_obj['time'] = yearyear_df = pd.Series(dict_obj) year_data = year_data.append(year_df) year_moviesnum = year_data.groupby('time').count() plt.figure(figsize=(10,8),dpi = 80) year_moviesnum.plot(kind = 'line',color='red',marker='o') plt.ylabel('數量(部)') plt.xlabel('年份') plt.title('電影產量趨勢') #plt.show() plt.savefig('./繪圖/電影產量趨勢.jpg')結果如下:
可以看出,在11年的時候,產出了9部Top100。11年,貌似那時候還是使用的DVD吧,那時候的網絡也沒有現在這么發達,也想不起有哪些電影是那年上映的。
演員出演TOP100電影情況
最后,我們再來看一下,哪些演員出演的Top100電影最多
代碼如下:
ctor_data = pd.Series() #創建一個Series對象,用于后面賦值 actor_dict = {} for i,item in data.iterrows(): actor = item['actor'].split(',')for name_item in actor:actor_dict['actor_name'] = name_item actor_df= pd.Series(actor_dict) #轉換為Series類型actor_data = actor_data.append(actor_df) actor_moviesnum = actor_data.groupby('actor_name').count().sort_values(ascending=False)[:12]plt.figure(figsize=(10,8),dpi = 80) actor_moviesnum.plot(kind = 'bar',color='brown',width= 0.6) plt.ylabel('數量(部)') plt.xlabel('姓名') plt.title('出演Top100電影演員情況') plt.xticks(rotation=45) for x,y in enumerate(list(actor_moviesnum)): plt.text(x,float(y)+0.1,y,ha='center') #plt.show() plt.savefig('./繪圖/演員情況.jpg')從上圖可以看出,張國榮擁有6部Top100電影,其次是星爺。最可惜的是感覺是張國榮,英年早逝。
結語
由于數據量太小,所以做的分析并不是很全面。
總結
以上是生活随笔為你收集整理的对猫眼T100进行简单数据分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 什么是证书颁发机构(CA)
- 下一篇: PDF编辑器(widsmob pdfed