當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

泰坦尼克号数据_如何使用Pandas进行可视化分析-以泰坦尼克号数据集为例

發(fā)布時(shí)間：2025/3/20 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了泰坦尼克号数据_如何使用Pandas进行可视化分析-以泰坦尼克号数据集为例小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

今天我們使用pandas進(jìn)行泰坦尼克號(hào)幸存情況的分析，我們希望從掌握的數(shù)據(jù)中能發(fā)現(xiàn)一些規(guī)律性的東西，來(lái)解釋什么樣的旅客更容易活下來(lái)？?

import pandas as pd

df=pd.read_csv("data/titanic_train.csv")

df.head()

1 旅客幸存率的分析?

2 生存關(guān)鍵因素分析

從現(xiàn)有的數(shù)據(jù)型變量之間的相關(guān)性分析，Pclass，Fare與生存率的相關(guān)度很高

年齡因素對(duì)生存率的影響

年齡因素不是非常明顯的相關(guān)因素，但是我們也能明顯的看出，在15歲以下這個(gè)區(qū)間，還是有大量的旅客活了下來(lái)(未成年人被優(yōu)待)。所以我們對(duì)年齡段進(jìn)行分割，看看是否有明顯的特征。

這里我們使用了pandas的分區(qū)函數(shù)，將年齡數(shù)據(jù)劃分為10個(gè)年齡段。

14歲以下的旅客生存率明顯高于其它年齡段！

但是我們還有一些因素沒(méi)有被包括進(jìn)來(lái)，這些因素是非數(shù)字化的因素，包括Sex,Cabin和Embarked，它們沒(méi)有被量化，而且有些還有確實(shí)值。這些因素或許也包含了重要信息，我們需要再對(duì)他們進(jìn)行處理，加入到數(shù)據(jù)分析的過(guò)程中。

性別對(duì)生存率的影響

女性更容易活下來(lái)

倉(cāng)位對(duì)生存率的影響

很顯示，有些客艙的生存率還是很高的。

客艙比較多，但也能清楚的看到，有些客艙生存率還是非常高的。這可能與這些倉(cāng)位便于逃生有關(guān)。為了更加清晰地了解客艙對(duì)生存率的影響，我們還可以對(duì)相同統(tǒng)計(jì)結(jié)果的客艙進(jìn)行合并(因?yàn)榇撌且环N編號(hào)，所以合并相同數(shù)據(jù)分布的船艙不影響數(shù)據(jù)分析的結(jié)果)。?

這樣我們就更清楚的看到哪些船艙生存率較高了，它們分別是01，02，03，12，04

這個(gè)圖很有意思了，生存率竟然和登船地點(diǎn)有關(guān)系了，在C港登船的旅客生存率更高!

原因就不好解釋了，可能在C港登船的女性或小孩子較多，也可能高等級(jí)乘客多。

進(jìn)一步的工作

在上述分析中，Age,Cabin和Embarked字段存在大量缺失值，影響了我們的數(shù)據(jù)分析結(jié)果。在后續(xù)的課程中我們將學(xué)習(xí)缺失值的填補(bǔ)方法，屆時(shí)我們的分析結(jié)果會(huì)有明顯的改觀
可視化分析能夠幫助我們直觀的洞察數(shù)據(jù)中蘊(yùn)含的大量有價(jià)值的信息，但可視分析對(duì)于更為復(fù)雜規(guī)律的發(fā)現(xiàn)還是力有不逮。從數(shù)據(jù)中發(fā)現(xiàn)更有價(jià)值的規(guī)律，還需要我們使用更為強(qiáng)大的數(shù)據(jù)挖掘技術(shù)，比如我們可以建立泰坦尼克號(hào)旅客生存預(yù)測(cè)模型，來(lái)預(yù)測(cè)每位旅客的生存情況。這個(gè)需求目前在kaggle上已經(jīng)有發(fā)布，最高的預(yù)測(cè)準(zhǔn)確度已經(jīng)達(dá)到90%以上。設(shè)想一下，如果我們?cè)谌粘９ぷ魃钪?#xff0c;能夠使用數(shù)據(jù)挖掘技術(shù)建立更多的預(yù)測(cè)模型，我們就可以在防震減災(zāi)、交通安全、醫(yī)療保健、經(jīng)濟(jì)建設(shè)等諸多領(lǐng)域有所貢獻(xiàn)，用大數(shù)據(jù)技術(shù)來(lái)推進(jìn)民生服務(wù)、經(jīng)濟(jì)發(fā)展和社會(huì)治理問(wèn)題的解決。

總結(jié)

以上是生活随笔為你收集整理的泰坦尼克号数据_如何使用Pandas进行可视化分析-以泰坦尼克号数据集为例的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： opcua客户端实现断线重连_干货：通过
下一篇： nginx 允许跨域_细谈跨域请求的桥梁

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

泰坦尼克号数据_如何使用Pandas进行可视化分析-以泰坦尼克号数据集为例

總結(jié)