kaggle电影数据分析报告
一、項目背景與介紹
數據來源:kaggle數據科學社區上TMDB 5000 Movie Dataset數據集:TMDB 5000 Movie Dataset
數據介紹:TMDB是一個電影資料庫,本項目數據主要為歐美地區2017年之前的5000部電影
分析目的:對電影數據進行分析研究,了解電影市場趨勢,為電影制作提供決策。
二、定義問題
1、各類型電影數量會隨時間如何變化嗎?是如何變化的?
2、不同類型的電影的盈利情況有何差異?
3、原創電影與改編電影的有何差異?
4、電影主要產自哪些地區?
5、觀眾喜好與哪些因素有關?
6、Universal Pictures與Paramount Pictures兩家巨頭公司的業績如何?
三、理解數據
導入相關安裝包,讀取數據
查看數據信息觀察數據,發現 genres、keywords、production_companies、production_countries、spoken_languages、cast、crew列為JSON編碼的字符串。
刪去credits的列title,因為該列和movies的列重復了,再把兩個數據集合并,刪去不在研究范圍內的值。
credits中movie_id列 和 movies中id列是對應關系,故以此為連接合并兩個數據集。
各字段含義:
● id:標識號
● movie_id:標識號
● popularity:在 Movie Database 上的相對頁面查看次數
● budget:預算(美元)
● revenue:收入(美元)
● original_language:原始語言
● spoken_languages:輸出語言
● original_title:原始電影名稱
● cast:演員列表,按 | 分隔,最多 5 名演員
● crew:劇組
● title:電影名稱
● status:電影狀態
● homepage:電影首頁的 URL
● tagline:電影的標語
● keywords:與電影相關的關鍵字,按 | 分隔,最多 5 個關鍵字
● overview:劇情摘要
● runtime:電影時長
● genres:風格列表,按 | 分隔,最多 5 種風格
● 制作公司列表:production_companies按 | 分隔,最多 5 家公司
● production_countries:制作國家
● release_date:首次上映日期
● vote_count:評分次數
● vote_average:平均評分
三、數據清洗
1、選擇子集
通過 info()和describe ()方法查看要研究的數據是否存在異常情況
可以看到release_date、runtime存在缺失值。
可以看到budget,revenue,vote_average,vote_count最小值為0,這些列中可能存在異常值。
2、缺失值處理
查找資料,填充缺失值
查看runtime的缺失值
查找資料,填充缺失值
3、異常值處理
budget,revenue,vote_average,vote_count最小值為0,可能存在異常,用平均值填充。
4、數據格式轉換
查看release_date列的數據
需要轉換為日期類型并提取年份
5、特殊格式數據處理
本項目要進行研究的數據中的genres,keywords,production_companies,production_countries列均為json格式,不便對其進行分析。需通過json.loads先將json字符串轉換為字典列表形式,再使用循環,選取需要的數據,本次分析取出name鍵所對應的值,并用“|”分隔。
四、數據分析及可視化
1、各類型電影數量變化和分布
(1)各類型電影逐年的數量變化
genre_set集合存放所有電影類型
genre_year_df存放各個年份的不同電影類型的電影總數
繪圖:
由圖可見,約從1992開始,電影市場開始爆發式增長,其中戲劇類(Drama)和喜劇類(Comedy)這兩個類型是隨時間增長幅度最大,其次是驚悚片(Thriller)和動作片(Action)。
(2)各類型電影數量分布
各類型電影總數
各類型電影數量分布圖:
從圖中可看出,排名前5的類型為Drama、Comedy、Thriller、Action和Romance。其中即使是排名前5的類型中,每一類型之間的差距也不算小。Drama類穩穩的在榜首。
2、各類型電影的盈利情況
profit_df存放電影類型和利潤數據
profit_by_genre存放計算后的各類型電影的利潤平均值,利潤=收入-支出成本
各電影類型平均收益分布圖:
3、原創電影與改編電影的差異
keywords中的包含"based on novel"的是改編電影,其余是原創電影。
創建一個DataFrame存放原創電影與改編電影original_recompose,包含type、 profit 、 budget 等字段,計算出利潤率 profit_rate=profit/budget 。
(1)電影數量對比
原創電影占據了幾乎所有的市場,只有少部分為改編電影
(2)利潤及利潤率對比
改編電影的支出要高于原創電影,且對應的收入和利潤也要高于原創電影
4、電影產地分布
統計出各個地區的電影數量,country_df存儲電影產地的數據
繪制餅圖:
由圖可見,美國電影數量一騎絕塵,占比達到了61.4%,名副其實的產出大國(應該也與該網站收錄的數據有關)。其次是英國,德國,法國,加拿大。
5、觀眾喜好與哪些因素有關
(1)電影類型與受歡迎度的關系
popularity字段是在 Movie Database 上的相對頁面查看次數,根據這個數據來判斷電影的受歡迎度。
繪圖
可見,最受觀眾歡迎的電影類型的前五名是
Adventure、Animation、Science Fiction、Fantasy 、Action
(2)電影時長與受歡迎度的關系
受歡迎度較高的電影的時長基本在90-150分鐘之間。 電影時長太長或太短的電影受歡迎程度較低。
(3)電影評分與受歡迎度的關系
評分高的電影不一定受歡迎度高,可能存在冷門好片。 但受眾歡迎度高的,電影評分基本也不低,群眾的眼睛是雪亮的,制作公司產出好片,獲得受眾喜愛的概率也更高。經過更多受眾的檢驗,該電影為好片的可靠性也更高。
6、Universal Pictures與Paramount Pictures兩家巨頭公司的業績如何?
company_df存放兩家公司、電影類型、盈利的數據
(1)利潤對比
繪圖
由圖可見,兩家公司利潤總額并無明顯差異,Universal Pictures公司略高于Paramount Pictures公司。
(2)出品的電影類型對比
company_df存放兩家公司、各類型電影,數值為1的代表屬于該類型。
繪圖Universal Pictures:
繪圖Paramount Pictures:
7、電影關鍵詞
keywords_list存放從keywords中提取出的關鍵詞,去掉一些沒有實際含義的字符串和短語
通過WordCloud包生成詞云圖
總結
以上是生活随笔為你收集整理的kaggle电影数据分析报告的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 鸭子过河
- 下一篇: LoadRunner “add meas