當前位置：首頁 >

我的泰坦尼克数据分析

發布時間：2025/4/5 41 豆豆

生活随笔收集整理的這篇文章主要介紹了我的泰坦尼克数据分析小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

直接上代碼

import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import scipy.stats as statsplt.style.use("ggplot")df = pd.read_csv("Titanic.csv") df.shape df.info() df.head()df.keys()df['Survived'].value_counts()

################################### ''' pandas可以使用crosstab 直接返回一個table對象，并且直接使用scipy的函數，計算出卡方值。 '''pd.crosstab(df['Sex'], df['Survived'])pd.crosstab(df['Pclass'], df['Survived'])

stats.chi2_contingency([[80, 136], [97, 87], [372, 119]])table = pd.crosstab(df['Pclass'], df['Survived']) table

stats.chi2_contingency(table)

''' 嘗試使用pivot—table '''''' pivot_table會默認使用index 作為分行，對所有的變量進行分行統計 ''' # df.pivot_table(index=df['Sex'])# 只統計存活df.pivot_table(index=df['Sex'])['Survived'] df.pivot_table(index=df['Sex'],aggfunc=sum)['Survived']df.pivot_table(index=df['Sex'], aggfunc=np.mean)['Survived'] df.pivot_table(index=df['Sex'], aggfunc=np.sum)['Survived']df.pivot_table(index=['Sex', 'Pclass'])['Survived']

''' 使用groupby '''df.groupby(df['Sex'])['Survived'].value_counts()#使用 unstack 可以實現和 crosstab 同樣的效果 df.groupby(df['Sex'])['Survived'].value_counts().unstack()df.groupby([df['Sex'], df['Pclass']])['Survived'].value_counts().unstack()

######################## ######## 開始作圖 ########################sns.countplot(x='Sex', hue='Survived', data=df)

sns.countplot(x='Pclass', hue='Survived', data=df)

df['Survived'].value_counts(sort=True).plot(kind="pie", labels=['dead', 'survived'], autopct='%1.2f%%')

df.groupby(df['Sex'])['Survived'].value_counts().plot.bar()

####使用crosstab的對象作圖 pd.crosstab(df['Sex'], df['Survived']).plot(kind='bar')

################################## ############# 最簡單的做堆積條形圖的方法，就是使用table對象， ################################## table table.plot(kind = 'bar')

table = pd.crosstab(index=df['Sex'], columns=df['Survived']) tabletable.plot(kind = 'bar')table.plot(kind='bar', stacked = True)

################################### ############## 使用sns作圖 ################################### sns.countplot(x='Sex', hue='Survived', data=df)sns.countplot(x='Pclass', hue='Survived', data=df)#如果想使用多個分類，就需要使用catplot

##############年齡作圖df['Age'].plot(kind='kde') df[df['Survived']==0]['Age'].plot(kind='kde') df[df['Survived']==1]['Age'].plot(kind='kde')

sns.kdeplot(data=df['Age'])sns.kdeplot(data= df[df['Survived']== 0]['Age'], shade=True ) sns.kdeplot(data= df[df['Survived']== 1]['Age'], shade=True )

總結

以上是生活随笔為你收集整理的我的泰坦尼克数据分析的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： pandas 处理时间戳数据
下一篇： pandas isnull 函数

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

我的泰坦尼克数据分析

總結