日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

泰坦尼克号数据集_泰坦尼克号项目可视化

發(fā)布時(shí)間:2025/4/16 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 泰坦尼克号数据集_泰坦尼克号项目可视化 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一,分析背景和目的

分析背景:在上一篇里做過泰坦尼克號(hào)項(xiàng)目的數(shù)據(jù)清洗,模型訓(xùn)練,預(yù)估,鏈接如下https://zhuanlan.zhihu.com/p/157763714

本篇著重于該項(xiàng)目的可視化

分析目的:什么樣的人在泰坦尼克號(hào)事件中的存活率較高?

二,分析維度

三,導(dǎo)入數(shù)據(jù)

# Step1:導(dǎo)入數(shù)據(jù)處理包

四,理解數(shù)據(jù)

1)理解字段

2)查看信息

#查看數(shù)據(jù)類型的信息 full.info()

五,數(shù)據(jù)清洗

  • 缺失值填充
#年齡 # 用平均值填充年齡這一列的缺失數(shù)據(jù) full["Age"].fillna(full["Age"].mean())#股票價(jià)格 # 用平均值填充股票價(jià)格這一列的缺失數(shù)據(jù) full["Fare"].fillna(full["Fare"].mean())#登船港口 # 用最常見類別取代Embarked這一列中缺失數(shù)據(jù) # 查看Embarked這一列的最常見類別 full["Embarked"].head() full["Embarked"].value_counts() # 用最常見類別進(jìn)行填充 full["Embarked"].fillna("S")#船艙號(hào) # 查看船艙號(hào)這一列的信息 full["Cabin"].head() # 發(fā)現(xiàn)有大量未知信息,于是用未知信息填充 full["Cabin"].fillna("U")

六,數(shù)據(jù)可視化

1.泰坦尼克號(hào)存活數(shù)

train["Survived"].value_counts()

2.總體生還概率

# 總體生還幾率 import matplotlib.pyplot as plt plt.pie(n,labels=["死亡","生存"],labeldistance=0.6,autopct="%.2f%%",pctdistance=0.4) plt.title("總體生還率")

3.不同性別的人的存活率

Sex=full.groupby("Sex").Survived.mean() SexDF=pd.DataFrame(Sex) SexDF # 繪制直方圖 SexDF.plot(kind="bar") #添加文本 plt.xlabel("性別") plt.ylabel("存活率") #添加標(biāo)題 plt.title("不同性別的人的存活率")

可以看出,女性的存活率高于男性

4.不同登陸港口的人的存活率

#獲取數(shù)據(jù)并轉(zhuǎn)換數(shù)據(jù)類型 Embarked=full.groupby("Embarked").Survived.mean() Embarked_df=pd.DataFrame(Embarked) # 繪制柱狀圖 Embarked_df.plot(kind="bar",color="g") plt.xlabel("登陸港口") plt.ylabel("存活率") plt.title("不同登陸港口的人的存活率") plt.show()

5.不同船艙的人的存活率

#獲取數(shù)據(jù)并轉(zhuǎn)換數(shù)據(jù)類型

可以看出,船艙1的存活率是最高的

6.不同頭銜的人的存活率

'''

可以看出已婚婦女的存活率最高

7.不同客艙號(hào)的人的存活率

full

可以看出,客艙號(hào)D的存活率最高

8.不同家庭大小的人的存活率

#描述家庭大小 familyDf[ 'FamilySize' ] = full[ 'Parch' ] + full[ 'SibSp' ] + 1 full_df=pd.concat([full,familyDf],axis=1) #獲取并存放家庭大小及其存活率數(shù)據(jù) familydf=full_df.groupby("FamilySize").Survived.mean() Family_df=pd.DataFrame(familydf) #繪制柱形圖 Family_df.plot(kind="bar",color="g") plt.xlabel("家庭大小") plt.ylabel("存活率") plt.title("不同家庭大小的人的存活率") plt.show()

可以看出家庭成員規(guī)模為4的存活率最高

總結(jié):

1.女性比男性存活率高

2.從法國 瑟堡市登錄的人存活率比在其他兩地登錄的人存活率高

3.在船艙1的乘客存活率較高

4.已婚婦女的存活率最高

5.客艙號(hào)D的乘客存活率最高

6.家庭成員規(guī)模為4的存活率最高

總結(jié)

以上是生活随笔為你收集整理的泰坦尼克号数据集_泰坦尼克号项目可视化的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。