日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

用python玩转数据测试与作业_用Python玩转数据分析10

發布時間:2024/8/23 python 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 用python玩转数据测试与作业_用Python玩转数据分析10 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

MOOC上的課程《用Python玩轉數據分析》的學習筆記。

數據探索與預處理之數據清洗

數據探索包括檢查數據錯誤,了解數據分布特征和內在規律

數據預處理包括數據清洗,數據集成(integration),數據變換,數據規約(reduction)

本次主要講解數據清洗,包括缺失值和異常值的檢測和處理。

缺失值處理首先可以用 導入后的數據對象名.isnull() 來查看是否存在缺失值

刪除:當多個屬性的值缺失或者關鍵屬性缺失時,可將該條記錄刪除

>>>導入后的數據對象名.dropna(axis=0/1, how='any/all',其他參數設置可在help中查看)

第一個數字0表示刪除有缺失值的行(默認),1表示刪除有缺失值的列。第二個any表示這一行/列有一個缺失值就刪除(默認),all表示這一行/列全部是缺失值再刪除。

填充:可考慮用均值、眾數、中位數填充,也可用缺失值上下的數據、插值函數、最近鄰或者回歸建模得到的極大似然估計來填充。

>>>導入后的數據對象名.fillna(導入后的數據對象名.mean(), inplace=True) (用均值填充,且直接更改了原始的DataFrame)

>>>導入后的數據對象名.fillna(method = 'ffill / bfill') (用上一個/下一個非缺失值填充)

異常值處理如何觀察異常值?

簡單統計,繪圖,基于密度、最近鄰和聚類等方法。這里介紹幾種簡單實用的。

describe方法

>>>導入后的數據對象名.describe() (可以顯示最大值、最小值、四分位數和方差等結果)

箱形圖方法

>>>導入后的數據對象名.boxplot()

3sigma方法

原理:如果數據服從正態分布,那么在均值上下3倍標準差之外的數就很可能是異常值。

可利用DataFrame的布爾索引來編寫程序

>>>導入后的數據對象名.[abs(數據對象名 - 數據對象名.mean())>3*數據對象名.std()]

然后dropna(how = 'all')就可以顯示包含異常值的記錄。

異常值處理

可以用和缺失值處理一樣的方法,刪除或者填充;也可以不處理;還可以用分箱法binning等方式處理。需要根據實際情況具體分析。

總結

以上是生活随笔為你收集整理的用python玩转数据测试与作业_用Python玩转数据分析10的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。