python异常值处理箱型图_如何利用python处理异常值?
在數據清洗階段,我們需要找到異常值,并對其進行相應的一些處理。在python中,異常值的處理常常需要結合一些數據模型或概率分布來解決。下面做一個簡單的介紹。
1.打開pycharm開發工具,在運行窗口輸入命令:
import pandas as pd #導入pandas庫
2.輸入數據集。
data=pd.DataFrame({'name':['A','B','C','D','E','F','G'],'cost':[2,127,4,6,3,13,14],'sales':[13,18,32,54,23,33,44]})
print(data)
3.通過z-score方法判斷異常值,即對原始值X進行正態標準化:(X-mean(X))/std(X),根據計算的結果判斷樣本值與中心的偏離程度。
df1=data.copy()#為了不影響原始數據集,復制數據集data
print(df1)
4.按列計算均值和標準差。
df1['cost']=(df1['cost']-df1['cost'].mean())/df1['cost'].std()#標準化cost_z列
5.對sales列進行標準化。
df1['sales']=(df1['sales']-df1['sales'].mean())/df1['sales'].std()#標準化cost_z列
df1['sales']
6.查看標準化后的數據集。
print(df1)
標準化后的絕對值越大,數據越有可能異常,是否異常根據設定的閾值判斷。
7.假設cost列閾值為2,通過下面的方法找到異常值。
df1['cost'].abs()>2#判斷數據是否異常
data[df1['cost'].abs()>2]#取出原數據集中的異常點
?
總結
以上是生活随笔為你收集整理的python异常值处理箱型图_如何利用python处理异常值?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: matlab phog,科学网—UCF
- 下一篇: 测试python第二周_python第二