泰坦尼克号数据_如何使用Pandas进行可视化分析-以泰坦尼克号数据集为例
今天我們使用pandas進(jìn)行泰坦尼克號(hào)幸存情況的分析,我們希望從掌握的數(shù)據(jù)中能發(fā)現(xiàn)一些規(guī)律性的東西,來(lái)解釋什么樣的旅客更容易活下來(lái)??
import pandas as pd
df=pd.read_csv("data/titanic_train.csv")
df.head()
1 旅客幸存率的分析?
2 生存關(guān)鍵因素分析
從現(xiàn)有的數(shù)據(jù)型變量之間的相關(guān)性分析,Pclass,Fare與生存率的相關(guān)度很高
年齡因素對(duì)生存率的影響
年齡因素不是非常明顯的相關(guān)因素,但是我們也能明顯的看出,在15歲以下這個(gè)區(qū)間,還是有大量的旅客活了下來(lái)(未成年人被優(yōu)待)。所以我們對(duì)年齡段進(jìn)行分割,看看是否有明顯的特征。
這里我們使用了pandas的分區(qū)函數(shù),將年齡數(shù)據(jù)劃分為10個(gè)年齡段。
14歲以下的旅客生存率明顯高于其它年齡段!
但是我們還有一些因素沒(méi)有被包括進(jìn)來(lái),這些因素是非數(shù)字化的因素,包括Sex,Cabin和Embarked,它們沒(méi)有被量化,而且有些還有確實(shí)值。這些因素或許也包含了重要信息,我們需要再對(duì)他們進(jìn)行處理,加入到數(shù)據(jù)分析的過(guò)程中。
性別對(duì)生存率的影響
女性更容易活下來(lái)
倉(cāng)位對(duì)生存率的影響
很顯示,有些客艙的生存率還是很高的。
客艙比較多,但也能清楚的看到,有些客艙生存率還是非常高的。這可能與這些倉(cāng)位便于逃生有關(guān)。為了更加清晰地了解客艙對(duì)生存率的影響,我們還可以對(duì)相同統(tǒng)計(jì)結(jié)果的客艙進(jìn)行合并(因?yàn)榇撌且环N編號(hào),所以合并相同數(shù)據(jù)分布的船艙不影響數(shù)據(jù)分析的結(jié)果)。?
這樣我們就更清楚的看到哪些船艙生存率較高了,它們分別是01,02,03,12,04
這個(gè)圖很有意思了,生存率竟然和登船地點(diǎn)有關(guān)系了,在C港登船的旅客生存率更高!
原因就不好解釋了,可能在C港登船的女性或小孩子較多,也可能高等級(jí)乘客多。
進(jìn)一步的工作
- 在上述分析中,Age,Cabin和Embarked字段存在大量缺失值,影響了我們的數(shù)據(jù)分析結(jié)果。在后續(xù)的課程中我們將學(xué)習(xí)缺失值的填補(bǔ)方法,屆時(shí)我們的分析結(jié)果會(huì)有明顯的改觀
- 可視化分析能夠幫助我們直觀的洞察數(shù)據(jù)中蘊(yùn)含的大量有價(jià)值的信息,但可視分析對(duì)于更為復(fù)雜規(guī)律的發(fā)現(xiàn)還是力有不逮。從數(shù)據(jù)中發(fā)現(xiàn)更有價(jià)值的規(guī)律,還需要我們使用更為強(qiáng)大的數(shù)據(jù)挖掘技術(shù),比如我們可以建立泰坦尼克號(hào)旅客生存預(yù)測(cè)模型,來(lái)預(yù)測(cè)每位旅客的生存情況。這個(gè)需求目前在kaggle上已經(jīng)有發(fā)布,最高的預(yù)測(cè)準(zhǔn)確度已經(jīng)達(dá)到90%以上。設(shè)想一下,如果我們?cè)谌粘9ぷ魃钪?#xff0c;能夠使用數(shù)據(jù)挖掘技術(shù)建立更多的預(yù)測(cè)模型,我們就可以在防震減災(zāi)、交通安全、醫(yī)療保健、經(jīng)濟(jì)建設(shè)等諸多領(lǐng)域有所貢獻(xiàn),用大數(shù)據(jù)技術(shù)來(lái)推進(jìn)民生服務(wù)、經(jīng)濟(jì)發(fā)展和社會(huì)治理問(wèn)題的解決。
總結(jié)
以上是生活随笔為你收集整理的泰坦尼克号数据_如何使用Pandas进行可视化分析-以泰坦尼克号数据集为例的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: opcua客户端实现断线重连_干货:通过
- 下一篇: nginx 允许跨域_细谈跨域请求的桥梁