用python玩转数据测试与作业_用Python玩转数据分析10
MOOC上的課程《用Python玩轉數據分析》的學習筆記。
數據探索與預處理之數據清洗
數據探索包括檢查數據錯誤,了解數據分布特征和內在規律
數據預處理包括數據清洗,數據集成(integration),數據變換,數據規約(reduction)
本次主要講解數據清洗,包括缺失值和異常值的檢測和處理。
缺失值處理首先可以用 導入后的數據對象名.isnull() 來查看是否存在缺失值
刪除:當多個屬性的值缺失或者關鍵屬性缺失時,可將該條記錄刪除
>>>導入后的數據對象名.dropna(axis=0/1, how='any/all',其他參數設置可在help中查看)
第一個數字0表示刪除有缺失值的行(默認),1表示刪除有缺失值的列。第二個any表示這一行/列有一個缺失值就刪除(默認),all表示這一行/列全部是缺失值再刪除。
填充:可考慮用均值、眾數、中位數填充,也可用缺失值上下的數據、插值函數、最近鄰或者回歸建模得到的極大似然估計來填充。
>>>導入后的數據對象名.fillna(導入后的數據對象名.mean(), inplace=True) (用均值填充,且直接更改了原始的DataFrame)
>>>導入后的數據對象名.fillna(method = 'ffill / bfill') (用上一個/下一個非缺失值填充)
異常值處理如何觀察異常值?
簡單統計,繪圖,基于密度、最近鄰和聚類等方法。這里介紹幾種簡單實用的。
describe方法
>>>導入后的數據對象名.describe() (可以顯示最大值、最小值、四分位數和方差等結果)
箱形圖方法
>>>導入后的數據對象名.boxplot()
3sigma方法
原理:如果數據服從正態分布,那么在均值上下3倍標準差之外的數就很可能是異常值。
可利用DataFrame的布爾索引來編寫程序
>>>導入后的數據對象名.[abs(數據對象名 - 數據對象名.mean())>3*數據對象名.std()]
然后dropna(how = 'all')就可以顯示包含異常值的記錄。
異常值處理
可以用和缺失值處理一樣的方法,刪除或者填充;也可以不處理;還可以用分箱法binning等方式處理。需要根據實際情況具體分析。
總結
以上是生活随笔為你收集整理的用python玩转数据测试与作业_用Python玩转数据分析10的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 鸿蒙os2.0公测机型,鸿蒙OS2.0第
- 下一篇: python怎么写出来的_如何写出优雅又