當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

【数据处理】python数据清洗通用手法：缺失值处理

發(fā)布時(shí)間：2025/3/21 python 75 豆豆

生活随笔收集整理的這篇文章主要介紹了【数据处理】python数据清洗通用手法：缺失值处理小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

def missing_delete_var(df, threshold=None):"""df:數(shù)據(jù)集threshold:缺失率刪除的閾值return :刪除缺失后的數(shù)據(jù)集"""df2 = df.copy()missing_df = missing_cal(df)missing_col_num = missing_df[missing_df.missing_pct >= threshold].shape[0]missing_col = list(missing_df[missing_df.missing_pct >= threshold].col)df2 = df2.drop(missing_col, axis=1)return df2def missing_delete_user(df, threshold=None):"""df:數(shù)據(jù)集threshold:缺失個(gè)數(shù)刪除的閾值return :刪除缺失后的數(shù)據(jù)集"""df2 = df.copy()missing_series = df.isnull().sum(axis=1)missing_list = list(missing_series)missing_index_list = []for i, j in enumerate(missing_list):if j >= threshold:missing_index_list.append(i)df2 = df2[~(df2.index.isin(missing_index_list))]return df2def const_delete(df, col_list, threshold=None):"""df:數(shù)據(jù)集col_list:變量list集合threshold:同值化處理的閾值return :處理后的數(shù)據(jù)集"""df2 = df.copy()const_col = []for col in col_list:const_pct = df2[col].value_counts().iloc[0] / df2[df2[col].notnull()].shape[0]if const_pct >= threshold:const_col.append(col)df2 = df2.drop(const_col, axis=1)return df2def missing_cal(df):"""df :數(shù)據(jù)集return：每個(gè)變量的缺失率"""missing_series = df.isnull().sum() / df.shape[0]missing_df = pd.DataFrame(missing_series).reset_index()missing_df = missing_df.rename(columns={'index': 'col',0: 'missing_pct'})missing_df = missing_df.sort_values('missing_pct', ascending=False).reset_index(drop=True)return missing_dfdef data_processing(df, target):"""df:包含了label和特征的寬表return:df :清洗后的數(shù)據(jù)集"""# 特征缺失處理df = missing_delete_var(df, threshold=0.8)# 樣本缺失處理df = missing_delete_user(df, threshold=int(df.shape[1] * 0.8))col_list = [x for x in df.columns if x != target]# 常變量處理df = const_delete(df, col_list, threshold=0.9)desc = df.describe().T# 剔除方差為0的特征std_0_col = list(desc[desc['std'] == 0].index)if len(std_0_col) > 0:df = df.drop(std_0_col, axis=1)df.reset_index(drop=True, inplace=True)# 缺失值計(jì)算和填充miss_df = missing_cal(df)cate_col = list(df.select_dtypes(include=['O']).columns)num_col = [x for x in list(df.select_dtypes(include=['int64', 'float64']).columns) if x != 'label']# 分類(lèi)型特征填充cate_miss_col1 = [x for x in list(miss_df[miss_df.missing_pct > 0.05]['col']) if x in cate_col]cate_miss_col2 = [x for x in list(miss_df[miss_df.missing_pct <= 0.05]['col']) if x in cate_col]num_miss_col1 = [x for x in list(miss_df[miss_df.missing_pct > 0.05]['col']) if x in num_col]num_miss_col2 = [x for x in list(miss_df[miss_df.missing_pct <= 0.05]['col']) if x in num_col]for col in cate_miss_col1:df[col] = df[col].fillna('未知')for col in cate_miss_col2:df[col] = df[col].fillna(df[col].mode()[0])for col in num_miss_col1:df[col] = df[col].fillna(-999)for col in num_miss_col2:df[col] = df[col].fillna(df[col].median())return df, miss_df

??對(duì)數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)科學(xué)、金融風(fēng)控等感興趣的小伙伴，需要數(shù)據(jù)集、代碼、行業(yè)報(bào)告等各類(lèi)學(xué)習(xí)資料，可添加微信：wu805686220（記得要備注喔！），也可關(guān)注微信公眾號(hào)：風(fēng)控圏子（別打錯(cuò)字，是圏子，不是圈子，算了直接復(fù)制吧！）

關(guān)注公眾號(hào)后，可聯(lián)系圈子助手加入如下社群：

機(jī)器學(xué)習(xí)風(fēng)控討論群（微信群）
反欺詐討論群（微信群）
python學(xué)習(xí)交流群（微信群）
研習(xí)社資料（qq群：102755159）（干貨、資料、項(xiàng)目、代碼、報(bào)告、課件）

相互學(xué)習(xí)，共同成長(zhǎng)。

《新程序員》：云原生和全面數(shù)字化實(shí)踐50位技術(shù)專(zhuān)家共同創(chuàng)作，文字、視頻、音頻交互閱讀

總結(jié)

以上是生活随笔為你收集整理的【数据处理】python数据清洗通用手法：缺失值处理的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：【科技金融】CART树现金贷风控策略
下一篇：【数据处理】python变量分箱常见手法

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

【数据处理】python数据清洗通用手法：缺失值处理

總結(jié)