日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

kaggle电影数据分析报告

發布時間:2023/12/16 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 kaggle电影数据分析报告 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.










一、項目背景與介紹

數據來源:kaggle數據科學社區上TMDB 5000 Movie Dataset數據集:TMDB 5000 Movie Dataset

數據介紹:TMDB是一個電影資料庫,本項目數據主要為歐美地區2017年之前的5000部電影

分析目的:對電影數據進行分析研究,了解電影市場趨勢,為電影制作提供決策。

二、定義問題

1、各類型電影數量會隨時間如何變化嗎?是如何變化的?

2、不同類型的電影的盈利情況有何差異?

3、原創電影與改編電影的有何差異?

4、電影主要產自哪些地區?

5、觀眾喜好與哪些因素有關?

6、Universal Pictures與Paramount Pictures兩家巨頭公司的業績如何?

三、理解數據

導入相關安裝包,讀取數據
查看數據信息觀察數據,發現 genres、keywords、production_companies、production_countries、spoken_languages、cast、crew列為JSON編碼的字符串。

刪去credits的列title,因為該列和movies的列重復了,再把兩個數據集合并,刪去不在研究范圍內的值。

credits中movie_id列 和 movies中id列是對應關系,故以此為連接合并兩個數據集。

各字段含義:

● id:標識號

● movie_id:標識號

● popularity:在 Movie Database 上的相對頁面查看次數

● budget:預算(美元)

● revenue:收入(美元)

● original_language:原始語言

● spoken_languages:輸出語言

● original_title:原始電影名稱

● cast:演員列表,按 | 分隔,最多 5 名演員

● crew:劇組

● title:電影名稱

● status:電影狀態

● homepage:電影首頁的 URL

● tagline:電影的標語

● keywords:與電影相關的關鍵字,按 | 分隔,最多 5 個關鍵字

● overview:劇情摘要

● runtime:電影時長

● genres:風格列表,按 | 分隔,最多 5 種風格

● 制作公司列表:production_companies按 | 分隔,最多 5 家公司

● production_countries:制作國家

● release_date:首次上映日期

● vote_count:評分次數

● vote_average:平均評分

三、數據清洗

1、選擇子集

通過 info()和describe ()方法查看要研究的數據是否存在異常情況
可以看到release_date、runtime存在缺失值。

可以看到budget,revenue,vote_average,vote_count最小值為0,這些列中可能存在異常值。

2、缺失值處理

查找資料,填充缺失值
查看runtime的缺失值
查找資料,填充缺失值

3、異常值處理

budget,revenue,vote_average,vote_count最小值為0,可能存在異常,用平均值填充。

4、數據格式轉換

查看release_date列的數據
需要轉換為日期類型并提取年份

5、特殊格式數據處理

本項目要進行研究的數據中的genres,keywords,production_companies,production_countries列均為json格式,不便對其進行分析。需通過json.loads先將json字符串轉換為字典列表形式,再使用循環,選取需要的數據,本次分析取出name鍵所對應的值,并用“|”分隔。

四、數據分析及可視化

1、各類型電影數量變化和分布

(1)各類型電影逐年的數量變化

genre_set集合存放所有電影類型
genre_year_df存放各個年份的不同電影類型的電影總數
繪圖:
由圖可見,約從1992開始,電影市場開始爆發式增長,其中戲劇類(Drama)和喜劇類(Comedy)這兩個類型是隨時間增長幅度最大,其次是驚悚片(Thriller)和動作片(Action)。

(2)各類型電影數量分布

各類型電影總數
各類型電影數量分布圖:
從圖中可看出,排名前5的類型為Drama、Comedy、Thriller、Action和Romance。其中即使是排名前5的類型中,每一類型之間的差距也不算小。Drama類穩穩的在榜首。

2、各類型電影的盈利情況

profit_df存放電影類型和利潤數據

profit_by_genre存放計算后的各類型電影的利潤平均值,利潤=收入-支出成本
各電影類型平均收益分布圖:

3、原創電影與改編電影的差異

keywords中的包含"based on novel"的是改編電影,其余是原創電影。

創建一個DataFrame存放原創電影與改編電影original_recompose,包含type、 profit 、 budget 等字段,計算出利潤率 profit_rate=profit/budget 。

(1)電影數量對比


原創電影占據了幾乎所有的市場,只有少部分為改編電影

(2)利潤及利潤率對比

改編電影的支出要高于原創電影,且對應的收入和利潤也要高于原創電影

4、電影產地分布

統計出各個地區的電影數量,country_df存儲電影產地的數據

繪制餅圖:


由圖可見,美國電影數量一騎絕塵,占比達到了61.4%,名副其實的產出大國(應該也與該網站收錄的數據有關)。其次是英國,德國,法國,加拿大。

5、觀眾喜好與哪些因素有關

(1)電影類型與受歡迎度的關系

popularity字段是在 Movie Database 上的相對頁面查看次數,根據這個數據來判斷電影的受歡迎度。

繪圖
可見,最受觀眾歡迎的電影類型的前五名是

Adventure、Animation、Science Fiction、Fantasy 、Action

(2)電影時長與受歡迎度的關系

受歡迎度較高的電影的時長基本在90-150分鐘之間。 電影時長太長或太短的電影受歡迎程度較低。

(3)電影評分與受歡迎度的關系


評分高的電影不一定受歡迎度高,可能存在冷門好片。 但受眾歡迎度高的,電影評分基本也不低,群眾的眼睛是雪亮的,制作公司產出好片,獲得受眾喜愛的概率也更高。經過更多受眾的檢驗,該電影為好片的可靠性也更高。

6、Universal Pictures與Paramount Pictures兩家巨頭公司的業績如何?

company_df存放兩家公司、電影類型、盈利的數據

(1)利潤對比

繪圖
由圖可見,兩家公司利潤總額并無明顯差異,Universal Pictures公司略高于Paramount Pictures公司。

(2)出品的電影類型對比

company_df存放兩家公司、各類型電影,數值為1的代表屬于該類型。

繪圖Universal Pictures:

繪圖Paramount Pictures:

7、電影關鍵詞

keywords_list存放從keywords中提取出的關鍵詞,去掉一些沒有實際含義的字符串和短語
通過WordCloud包生成詞云圖

總結

以上是生活随笔為你收集整理的kaggle电影数据分析报告的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。