泰坦尼克号数据_如何使用Pandas进行可视化分析-以泰坦尼克号数据集为例
今天我們使用pandas進行泰坦尼克號幸存情況的分析,我們希望從掌握的數據中能發現一些規律性的東西,來解釋什么樣的旅客更容易活下來??
import pandas as pd
df=pd.read_csv("data/titanic_train.csv")
df.head()
1 旅客幸存率的分析?
2 生存關鍵因素分析
從現有的數據型變量之間的相關性分析,Pclass,Fare與生存率的相關度很高
年齡因素對生存率的影響
年齡因素不是非常明顯的相關因素,但是我們也能明顯的看出,在15歲以下這個區間,還是有大量的旅客活了下來(未成年人被優待)。所以我們對年齡段進行分割,看看是否有明顯的特征。
這里我們使用了pandas的分區函數,將年齡數據劃分為10個年齡段。
14歲以下的旅客生存率明顯高于其它年齡段!
但是我們還有一些因素沒有被包括進來,這些因素是非數字化的因素,包括Sex,Cabin和Embarked,它們沒有被量化,而且有些還有確實值。這些因素或許也包含了重要信息,我們需要再對他們進行處理,加入到數據分析的過程中。
性別對生存率的影響
女性更容易活下來
倉位對生存率的影響
很顯示,有些客艙的生存率還是很高的。
客艙比較多,但也能清楚的看到,有些客艙生存率還是非常高的。這可能與這些倉位便于逃生有關。為了更加清晰地了解客艙對生存率的影響,我們還可以對相同統計結果的客艙進行合并(因為船艙是一種編號,所以合并相同數據分布的船艙不影響數據分析的結果)。?
這樣我們就更清楚的看到哪些船艙生存率較高了,它們分別是01,02,03,12,04
這個圖很有意思了,生存率竟然和登船地點有關系了,在C港登船的旅客生存率更高!
原因就不好解釋了,可能在C港登船的女性或小孩子較多,也可能高等級乘客多。
進一步的工作
- 在上述分析中,Age,Cabin和Embarked字段存在大量缺失值,影響了我們的數據分析結果。在后續的課程中我們將學習缺失值的填補方法,屆時我們的分析結果會有明顯的改觀
- 可視化分析能夠幫助我們直觀的洞察數據中蘊含的大量有價值的信息,但可視分析對于更為復雜規律的發現還是力有不逮。從數據中發現更有價值的規律,還需要我們使用更為強大的數據挖掘技術,比如我們可以建立泰坦尼克號旅客生存預測模型,來預測每位旅客的生存情況。這個需求目前在kaggle上已經有發布,最高的預測準確度已經達到90%以上。設想一下,如果我們在日常工作生活中,能夠使用數據挖掘技術建立更多的預測模型,我們就可以在防震減災、交通安全、醫療保健、經濟建設等諸多領域有所貢獻,用大數據技術來推進民生服務、經濟發展和社會治理問題的解決。
總結
以上是生活随笔為你收集整理的泰坦尼克号数据_如何使用Pandas进行可视化分析-以泰坦尼克号数据集为例的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: opcua客户端实现断线重连_干货:通过
- 下一篇: python 执行shell命令行效率提