数据挖掘06-基于标准差和箱体图的单指标异常点检测【原理、数据及代码】
數據挖掘06-基于標準差和箱體圖的單指標異常點檢測
- 一、基于箱體圖
- 二、基于標準差
- 三、效果圖及數據代碼獲取方式
- 3.1 原數據
- 3.2 檢測結果匯總表格:
- 3.3 數據及代碼獲取:
在數據的處理過程中,不可避免的會產生缺失值、異常值,下面來講一下我在工作中使用到的兩種常見的判斷異常值的方法。
一、基于箱體圖
箱體圖,即箱線圖,從下到上五條線分別表示最小值、下四分位數、中位數、上四分位數和最大值。
百度百科-箱線圖
箱體圖是一種用于顯示一組數據分散情況資料的統計圖,可以通過設定標準,將大于或小于箱體圖上下界的數值識別為異常值。
如上圖所示,
將數據的下四分位數記為Q1,即樣本中僅有25%的數據小于Q1;
將數據的上四分位數記為Q3,即樣本中僅有25%的數據大于Q3;
將上四分位數和下四分位數的差值記為IQR,即IQR=Q3-Q1;
令箱體圖上界為Q3+1.5*IQR,下界為Q1-1.5*IQR。
如上圖所示,c列有很多的異常值。
?
二、基于標準差
當數據服從標準正態分布時,99%的數值與均值的距離應該在3個標準差之內,95%的數值與均值的距離應該在2個標準差之內,如下圖所示。
當數值與均值的距離超出3個標準差,則可認為它是異常值。
百度百科-標準差
三、效果圖及數據代碼獲取方式
3.1 原數據
3.2 檢測結果匯總表格:
檢測結果包含:
[指標名,總數據量,非空數據量,空值數據量,無效值數據量,零值數據量,正常平均值,正常標準差,標準差上界,標準差下界,箱體圖上界,箱體圖下界,箱體圖檢測異常數據量,標準差檢測異常數據量等等…]
3.3 數據及代碼獲取:
github:https://github.com/SeafyLiang/Python_study/blob/master/pandas_study/single_od.py
國內:https://gitee.com/seafyLiang/Python_study/blob/master/pandas_study/single_od.py
?
歡迎關注我的公眾號“機器學習工具箱”,技術文章第一時間推送。
總結
以上是生活随笔為你收集整理的数据挖掘06-基于标准差和箱体图的单指标异常点检测【原理、数据及代码】的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 性能监视器 Performance Mo
- 下一篇: 计算机与机械工程相结合的专业,计算机和机