當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

kaggle电影数据分析报告

發布時間：2023/12/16 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了 kaggle电影数据分析报告小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、項目背景與介紹

數據來源：kaggle數據科學社區上TMDB 5000 Movie Dataset數據集：TMDB 5000 Movie Dataset

數據介紹：TMDB是一個電影資料庫，本項目數據主要為歐美地區2017年之前的5000部電影

分析目的：對電影數據進行分析研究，了解電影市場趨勢，為電影制作提供決策。

二、定義問題

1、各類型電影數量會隨時間如何變化嗎？是如何變化的？

2、不同類型的電影的盈利情況有何差異？

3、原創電影與改編電影的有何差異？

4、電影主要產自哪些地區？

5、觀眾喜好與哪些因素有關？

6、Universal Pictures與Paramount Pictures兩家巨頭公司的業績如何？

三、理解數據

導入相關安裝包，讀取數據
查看數據信息觀察數據，發現 genres、keywords、production_companies、production_countries、spoken_languages、cast、crew列為JSON編碼的字符串。

刪去credits的列title，因為該列和movies的列重復了，再把兩個數據集合并，刪去不在研究范圍內的值。

credits中movie_id列和 movies中id列是對應關系，故以此為連接合并兩個數據集。

各字段含義：

● id：標識號

● movie_id：標識號

● popularity：在 Movie Database 上的相對頁面查看次數

● budget：預算（美元）

● revenue：收入（美元）

● original_language：原始語言

● spoken_languages：輸出語言

● original_title：原始電影名稱

● cast：演員列表，按 | 分隔，最多 5 名演員

● crew：劇組

● title：電影名稱

● status：電影狀態

● homepage：電影首頁的 URL

● tagline：電影的標語

● keywords：與電影相關的關鍵字，按 | 分隔，最多 5 個關鍵字

● overview：劇情摘要

● runtime：電影時長

● genres：風格列表，按 | 分隔，最多 5 種風格

● 制作公司列表：production_companies按 | 分隔，最多 5 家公司

● production_countries：制作國家

● release_date：首次上映日期

● vote_count：評分次數

● vote_average：平均評分

三、數據清洗

1、選擇子集

通過 info()和describe ()方法查看要研究的數據是否存在異常情況
可以看到release_date、runtime存在缺失值。

可以看到budget,revenue,vote_average,vote_count最小值為0，這些列中可能存在異常值。

2、缺失值處理

查找資料，填充缺失值
查看runtime的缺失值
查找資料，填充缺失值

3、異常值處理

budget,revenue,vote_average,vote_count最小值為0，可能存在異常，用平均值填充。

4、數據格式轉換

查看release_date列的數據
需要轉換為日期類型并提取年份

5、特殊格式數據處理

本項目要進行研究的數據中的genres，keywords，production_companies，production_countries列均為json格式，不便對其進行分析。需通過json.loads先將json字符串轉換為字典列表形式，再使用循環，選取需要的數據，本次分析取出name鍵所對應的值，并用“|”分隔。

四、數據分析及可視化

1、各類型電影數量變化和分布

（1）各類型電影逐年的數量變化

genre_set集合存放所有電影類型
genre_year_df存放各個年份的不同電影類型的電影總數
繪圖：
由圖可見，約從1992開始，電影市場開始爆發式增長，其中戲劇類（Drama）和喜劇類（Comedy）這兩個類型是隨時間增長幅度最大，其次是驚悚片（Thriller）和動作片（Action）。

（2）各類型電影數量分布

各類型電影總數
各類型電影數量分布圖：
從圖中可看出，排名前5的類型為Drama、Comedy、Thriller、Action和Romance。其中即使是排名前5的類型中，每一類型之間的差距也不算小。Drama類穩穩的在榜首。

2、各類型電影的盈利情況

profit_df存放電影類型和利潤數據

profit_by_genre存放計算后的各類型電影的利潤平均值，利潤=收入-支出成本
各電影類型平均收益分布圖：

3、原創電影與改編電影的差異

keywords中的包含"based on novel"的是改編電影，其余是原創電影。

創建一個DataFrame存放原創電影與改編電影original_recompose，包含type、 profit 、 budget 等字段，計算出利潤率 profit_rate=profit/budget 。

(1)電影數量對比

原創電影占據了幾乎所有的市場，只有少部分為改編電影

（2）利潤及利潤率對比

改編電影的支出要高于原創電影，且對應的收入和利潤也要高于原創電影

4、電影產地分布

統計出各個地區的電影數量，country_df存儲電影產地的數據

繪制餅圖：

由圖可見，美國電影數量一騎絕塵，占比達到了61.4%，名副其實的產出大國（應該也與該網站收錄的數據有關）。其次是英國，德國，法國，加拿大。

5、觀眾喜好與哪些因素有關

（1）電影類型與受歡迎度的關系

popularity字段是在 Movie Database 上的相對頁面查看次數，根據這個數據來判斷電影的受歡迎度。

繪圖
可見，最受觀眾歡迎的電影類型的前五名是

Adventure、Animation、Science Fiction、Fantasy 、Action

（2）電影時長與受歡迎度的關系

受歡迎度較高的電影的時長基本在90-150分鐘之間。電影時長太長或太短的電影受歡迎程度較低。

（3）電影評分與受歡迎度的關系

評分高的電影不一定受歡迎度高，可能存在冷門好片。但受眾歡迎度高的，電影評分基本也不低，群眾的眼睛是雪亮的，制作公司產出好片，獲得受眾喜愛的概率也更高。經過更多受眾的檢驗，該電影為好片的可靠性也更高。

6、Universal Pictures與Paramount Pictures兩家巨頭公司的業績如何？

company_df存放兩家公司、電影類型、盈利的數據

（1）利潤對比

繪圖
由圖可見，兩家公司利潤總額并無明顯差異，Universal Pictures公司略高于Paramount Pictures公司。

（2）出品的電影類型對比

company_df存放兩家公司、各類型電影，數值為1的代表屬于該類型。

繪圖Universal Pictures：

繪圖Paramount Pictures：

7、電影關鍵詞

keywords_list存放從keywords中提取出的關鍵詞，去掉一些沒有實際含義的字符串和短語
通過WordCloud包生成詞云圖

總結

以上是生活随笔為你收集整理的kaggle电影数据分析报告的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：鸭子过河
下一篇： LoadRunner “add meas

编程问答

kaggle电影数据分析报告

一、項目背景與介紹

二、定義問題

三、理解數據

三、數據清洗

1、選擇子集

2、缺失值處理

3、異常值處理

4、數據格式轉換

5、特殊格式數據處理

四、數據分析及可視化

1、各類型電影數量變化和分布

（1）各類型電影逐年的數量變化

（2）各類型電影數量分布

2、各類型電影的盈利情況

3、原創電影與改編電影的差異

(1)電影數量對比

（2）利潤及利潤率對比

4、電影產地分布

5、觀眾喜好與哪些因素有關

（1）電影類型與受歡迎度的關系

（2）電影時長與受歡迎度的關系

（3）電影評分與受歡迎度的關系

6、Universal Pictures與Paramount Pictures兩家巨頭公司的業績如何？

（1）利潤對比

（2）出品的電影類型對比

7、電影關鍵詞

總結

一、項目背景與介紹

二、定義問題

三、數據清洗

2、缺失值處理

3、異常值處理

4、數據格式轉換

5、特殊格式數據處理

1、各類型電影數量變化和分布

2、各類型電影的盈利情況

4、電影產地分布

5、觀眾喜好與哪些因素有關

7、電影關鍵詞