日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

【pandas】结合泰坦尼克生还分析讲讲pandas常用基础操作

發(fā)布時(shí)間:2023/12/20 62 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【pandas】结合泰坦尼克生还分析讲讲pandas常用基础操作 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

目錄

    • 1.導(dǎo)入庫
    • 2.數(shù)據(jù)讀取
    • 3.基本信息查看
    • 4.獲取列
    • 5.缺失值處理
    • 6.數(shù)據(jù)映射
    • 7.刪除數(shù)據(jù)
    • 8.增加數(shù)據(jù)
    • 9.篩選查找
    • 10.排序
    • 11.數(shù)據(jù)透視
      • 1).船艙等級(jí)與生存率
      • 2).性別與生存率
    • 12.簡(jiǎn)單繪圖
      • 3).年齡與生存率

本文旨在結(jié)合經(jīng)典案例:泰坦尼克號(hào)數(shù)據(jù)集,介紹pandas的基礎(chǔ)操作,力求簡(jiǎn)潔清晰,可以作為一個(gè)教程,也可以作為一個(gè)速查表,歡迎多多收藏點(diǎn)贊~

泰坦尼克號(hào)數(shù)據(jù)集是一個(gè)非常經(jīng)典的數(shù)據(jù)集,它記錄了泰坦尼克號(hào)的乘客信息,包括年齡、性別、是否存活等等。
我們可以用pandas來對(duì)其進(jìn)行分析,一步一步揭開數(shù)據(jù)里的秘密,探索泰坦尼克號(hào)生還者們背后的真相

1.導(dǎo)入庫

首先,我們要把我們的工具:pandas,從工具箱里拿出來

import pandas as pd

2.數(shù)據(jù)讀取

pandas是一個(gè)處理數(shù)據(jù)的全能型工具箱,你能想到的任何數(shù)據(jù)處理的操作,它都能做
然后用pandas取出我們要加工的對(duì)象:數(shù)據(jù)集。

data = pd.read_csv("Titanic.csv")

3.基本信息查看

查看數(shù)據(jù)有哪些字段:

# 查看數(shù)據(jù)有哪些字段 data.columns# 描述性統(tǒng)計(jì)分析 data.describe()# 展示前3行數(shù)據(jù) data.head(3)

4.獲取列

# 獲取單列 data.Name # 獲取多列 data[["Name","Age"]]

5.缺失值處理

有時(shí)候數(shù)據(jù)并不不完整,存在一些缺失,這時(shí)候可以對(duì)缺失值進(jìn)行一些填充

# 查看各列缺失值個(gè)數(shù) data.isnull().sum()# 指定值填充缺失值 data.Embarked.fillna("S")# 均值填充 data.Age.fillna(data.Age.mean())

6.數(shù)據(jù)映射

在Excel中,VLOOKUP是很常用的方法,當(dāng)然pandas也能做到
例如:將數(shù)據(jù)中’male’映射為1,'female’映射為0

mapping = {"male":1, "female":0} data.Sex.map(mapping)

7.刪除數(shù)據(jù)

當(dāng)我不想要一些數(shù)據(jù)時(shí),可以把它刪除掉
例如PassengerId,僅僅是一個(gè)ID,沒有實(shí)際意義,那么可以把它刪除掉

data.drop("PassengerId",axis=1)

8.增加數(shù)據(jù)

可以根據(jù)一列或多列,計(jì)算出新的列,這在pandas里十分常見
在數(shù)據(jù)集中,SibSp表示乘客兄弟姐妹的數(shù)量,Parch表示父母孩子的數(shù)量
可以新建一列family,表示在船上他又多少個(gè)親人

data["family"] = data["SibSp"] + data["Parch"]

9.篩選查找

篩選查找是十分常用且重要的操作.pandas提供了比數(shù)據(jù)庫更簡(jiǎn)潔優(yōu)雅的查找操作.
例如:篩選出生還的乘客:

data.query("Survived == 1")

再例如:篩選大于八十歲的生還乘客:

data.query("Survived == 1 and Age >= 80")

10.排序

例如,按照年齡降序排列

data.sort_values(by = ["Age"],ascending = False)

11.數(shù)據(jù)透視

結(jié)合數(shù)據(jù)透視,我們一起分析一下泰坦尼克號(hào)生存情況如何

1).船艙等級(jí)與生存率

以船艙等級(jí)為行,生存情況為列 ; 對(duì)生存情況求平均,可以得到生存率

Pclass 1 0.629630 2 0.472826 3 0.242363 Name: Survived, dtype: float64

可以看到船艙等級(jí)越高,生還概率越大. 實(shí)際上,船艙等級(jí)越高,安全就越有保障,例如離逃生艙更近,有更高幾率逃生.

2).性別與生存率

以船艙等級(jí)為行,生存情況為列 ; 對(duì)生存情況求平均

Sex female 0.742038 male 0.188908 Name: Survived, dtype: float64

女性生存率遠(yuǎn)遠(yuǎn)高于男性,這也體現(xiàn)出19世紀(jì)英國(guó)人的紳士風(fēng)度,在大難臨頭時(shí)讓女人孩子老人先上逃生船

12.簡(jiǎn)單繪圖

結(jié)合圖片,我們最后看看年齡與生還率之間的關(guān)系

3).年齡與生存率

df1 = data.query("Survived == 1").Age df2 = data.query("Survived == 0").Ageimport matplotlib.pyplot as plt plt.hist([df1,df2],stacked=True,label=['Rescued','not saved'])plt.legend() plt.title('title') plt.title('Age_Survived')

總結(jié)

以上是生活随笔為你收集整理的【pandas】结合泰坦尼克生还分析讲讲pandas常用基础操作的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。