當(dāng)前位置：首頁(yè) >

pandas filter_数据分析之Pandas操作(2)

發(fā)布時(shí)間：2024/9/27 35 豆豆

生活随笔收集整理的這篇文章主要介紹了 pandas filter_数据分析之Pandas操作(2) 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

接著數(shù)據(jù)分析之Pandas操作(1)的介紹，本次介紹在實(shí)際應(yīng)用場(chǎng)景中幾個(gè)常用的函數(shù)。還是以titanic生存數(shù)據(jù)為例，本次需要導(dǎo)入pandas?、numpy?、scipy三個(gè)工具包。

import pandas as pdimport numpy as npfrom scipy.stats import zscoretrain_data?=?pd.read_csv("titanic/train.csv")

(1)查找及統(tǒng)計(jì)缺失值

使用函數(shù)：count，功能：統(tǒng)計(jì)非空個(gè)數(shù)#統(tǒng)計(jì)非空個(gè)數(shù)train_data.count()#統(tǒng)計(jì)空值個(gè)數(shù)train_data.shape[0]-train_data.count()使用函數(shù)：isnull，?功能：統(tǒng)計(jì)空值個(gè)數(shù)#計(jì)算全部數(shù)據(jù)中空值的總數(shù)，與train_data.shape[0]-train_data.count() 一致np.count_nonzero(train_data.isnull())#計(jì)算某一列中空值的個(gè)數(shù)np.count_nonzero(train_data['Age'].isnull())

(2)通過(guò)apply統(tǒng)計(jì)缺失值

首先自定義函數(shù)，返回某個(gè)維度的空值個(gè)數(shù)#通過(guò)定義函數(shù) 統(tǒng)計(jì)缺失值def missing_counts(vector): null_vector=pd.isnull(vector) null_counts=np.sum(null_vector) return null_counts將函數(shù)作用于數(shù)據(jù)集的每一行count_missing_row=train_data.apply(missing_counts,axis=1) count_missing_row.head(10)將函數(shù)作用于每一列count_missing_col=train_data.apply(missing_counts)(3)缺失值填充使用函數(shù)：fillna，功能：填充空值整個(gè)數(shù)據(jù)集填充train_data.fillna(0)具體某一列填充train_data['Age'].fillna(0)(4)缺失值刪除使用函數(shù)：dropna，功能：刪除空值train_data.dropna().head(10)注:缺失值填充及缺失中默認(rèn)是False,即不替換原有的數(shù)據(jù)集，如果想保留原有的數(shù)據(jù)集，可以重新一個(gè)數(shù)據(jù)集來(lái)存放處理過(guò)的數(shù)據(jù)。(5)匯總統(tǒng)計(jì)情景1：統(tǒng)計(jì)單個(gè)字段，單個(gè)數(shù)字特征#計(jì)算不同倉(cāng)位的乘客平均年齡avg_age_by_pclass=train_data.groupby('Pclass').Age.mean()#單獨(dú)計(jì)算1等倉(cāng)位的平均年齡avg_age_by_pclass=train_data.loc[train_data.Pclass==1]['Age'].mean()情景2：單個(gè)字段，多個(gè)數(shù)字特征，使用agg函數(shù)avg_age_by_pclass=train_data.groupby('Pclass')['Age'].agg([np.count_nonzero,np.mean,np.std])情景3：統(tǒng)計(jì)統(tǒng)計(jì)多個(gè)字段，多個(gè)數(shù)字特征avg_age_by_pclass=train_data.groupby('Pclass').agg( {'Age':'mean','Fare':'median' })情景4：重命名數(shù)字特征列，重新設(shè)置索引avg_age_by_pclass=train_data.groupby('Pclass')['Age'].agg([ np.count_nonzero, np.mean, np.std]).rename(columns={'count_nonzero':'count','mean':'avg','std':'std_dev'}).reset_index()(6)過(guò)濾，類(lèi)似SQL的having#按照倉(cāng)位分組，篩選倉(cāng)位人數(shù)大于200的數(shù)據(jù)，過(guò)濾倉(cāng)位等級(jí)為2的數(shù)據(jù)train_data.groupby('Pclass').filter(lambda?x:x['Pclass'].count()>=200)['Pclass'].value_counts()?#按照倉(cāng)位分組，篩選年齡均值大于29的數(shù)據(jù)，過(guò)濾倉(cāng)位等級(jí)為2的數(shù)據(jù)train_data.groupby('Pclass').filter(lambda?x:x['Age'].mean()>=29)['Pclass'].value_counts()(7)轉(zhuǎn)換：transform定義一個(gè)正態(tài)標(biāo)準(zhǔn)化函數(shù)#標(biāo)準(zhǔn)化函數(shù)def zscore_count(x):????return?((x-x.mean())/x.std())按照倉(cāng)位分組后對(duì)年齡字段標(biāo)準(zhǔn)化#按照倉(cāng)位分組后對(duì)年齡字段標(biāo)準(zhǔn)化z_transf=train_data.groupby('Pclass').Age.transform(zscore_count)z_transf.shape,train_data.shape不分組，對(duì)全量數(shù)據(jù)標(biāo)準(zhǔn)化all_z_score=zscore(train_data.Age)總結(jié)：通過(guò)兩次對(duì)pandas常用操作的介紹，希望能幫助大家起到一個(gè)入門(mén)的作用，但是，pandas功能強(qiáng)大，還有很多細(xì)節(jié)需要在實(shí)際應(yīng)用中去查閱官方文檔，不要拒絕閱讀英文官方文檔，查字典，慢慢讀。

總結(jié)

以上是生活随笔為你收集整理的pandas filter_数据分析之Pandas操作(2)的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： SPI 读取不同长度寄存器_[读书笔记
下一篇：能用来写安卓吗_iPad能代替笔记本吗，

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

pandas filter_数据分析之Pandas操作(2)

總結(jié)