泰坦尼克号数据集_泰坦尼克号项目可视化
生活随笔
收集整理的這篇文章主要介紹了
泰坦尼克号数据集_泰坦尼克号项目可视化
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
一,分析背景和目的
分析背景:在上一篇里做過泰坦尼克號項目的數據清洗,模型訓練,預估,鏈接如下https://zhuanlan.zhihu.com/p/157763714
本篇著重于該項目的可視化
分析目的:什么樣的人在泰坦尼克號事件中的存活率較高?
二,分析維度
三,導入數據
# Step1:導入數據處理包四,理解數據
1)理解字段
2)查看信息
#查看數據類型的信息 full.info()五,數據清洗
- 缺失值填充
六,數據可視化
1.泰坦尼克號存活數
train["Survived"].value_counts()2.總體生還概率
# 總體生還幾率 import matplotlib.pyplot as plt plt.pie(n,labels=["死亡","生存"],labeldistance=0.6,autopct="%.2f%%",pctdistance=0.4) plt.title("總體生還率")3.不同性別的人的存活率
Sex=full.groupby("Sex").Survived.mean() SexDF=pd.DataFrame(Sex) SexDF # 繪制直方圖 SexDF.plot(kind="bar") #添加文本 plt.xlabel("性別") plt.ylabel("存活率") #添加標題 plt.title("不同性別的人的存活率")可以看出,女性的存活率高于男性
4.不同登陸港口的人的存活率
#獲取數據并轉換數據類型 Embarked=full.groupby("Embarked").Survived.mean() Embarked_df=pd.DataFrame(Embarked) # 繪制柱狀圖 Embarked_df.plot(kind="bar",color="g") plt.xlabel("登陸港口") plt.ylabel("存活率") plt.title("不同登陸港口的人的存活率") plt.show()5.不同船艙的人的存活率
#獲取數據并轉換數據類型可以看出,船艙1的存活率是最高的
6.不同頭銜的人的存活率
'''可以看出已婚婦女的存活率最高
7.不同客艙號的人的存活率
full可以看出,客艙號D的存活率最高
8.不同家庭大小的人的存活率
#描述家庭大小 familyDf[ 'FamilySize' ] = full[ 'Parch' ] + full[ 'SibSp' ] + 1 full_df=pd.concat([full,familyDf],axis=1) #獲取并存放家庭大小及其存活率數據 familydf=full_df.groupby("FamilySize").Survived.mean() Family_df=pd.DataFrame(familydf) #繪制柱形圖 Family_df.plot(kind="bar",color="g") plt.xlabel("家庭大小") plt.ylabel("存活率") plt.title("不同家庭大小的人的存活率") plt.show()可以看出家庭成員規模為4的存活率最高
總結:
1.女性比男性存活率高
2.從法國 瑟堡市登錄的人存活率比在其他兩地登錄的人存活率高
3.在船艙1的乘客存活率較高
4.已婚婦女的存活率最高
5.客艙號D的乘客存活率最高
6.家庭成員規模為4的存活率最高
總結
以上是生活随笔為你收集整理的泰坦尼克号数据集_泰坦尼克号项目可视化的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python3.4 安装numpy报错_
- 下一篇: opencv4.4.0函数手册_实战 M