日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

数据挖掘06-基于标准差和箱体图的单指标异常点检测【原理、数据及代码】

發布時間:2023/12/14 53 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据挖掘06-基于标准差和箱体图的单指标异常点检测【原理、数据及代码】 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數據挖掘06-基于標準差和箱體圖的單指標異常點檢測

    • 一、基于箱體圖
    • 二、基于標準差
    • 三、效果圖及數據代碼獲取方式
      • 3.1 原數據
      • 3.2 檢測結果匯總表格:
      • 3.3 數據及代碼獲取:

在數據的處理過程中,不可避免的會產生缺失值、異常值,下面來講一下我在工作中使用到的兩種常見的判斷異常值的方法


一、基于箱體圖

箱體圖,即箱線圖,從下到上五條線分別表示最小值下四分位數中位數上四分位數最大值
百度百科-箱線圖
箱體圖是一種用于顯示一組數據分散情況資料的統計圖,可以通過設定標準,將大于或小于箱體圖上下界的數值識別為異常值。


如上圖所示,
將數據的下四分位數記為Q1,即樣本中僅有25%的數據小于Q1
將數據的上四分位數記為Q3,即樣本中僅有25%的數據大于Q3
上四分位數和下四分位數的差值記為IQR,即IQR=Q3-Q1
令箱體圖上界為Q3+1.5*IQR下界為Q1-1.5*IQR

import pandas as pd import matplotlib.pyplot as pltdf = pd.read_csv('data/od_test.csv') df.boxplot() plt.show()


如上圖所示,c列有很多的異常值。
?

二、基于標準差

當數據服從標準正態分布時,99%的數值與均值的距離應該在3個標準差之內,95%的數值與均值的距離應該在2個標準差之內,如下圖所示。
當數值與均值的距離超出3個標準差,則可認為它是異常值。




百度百科-標準差

s = df_notnull[od_column] # 標準差上下限計算 normal_mean = s.mean() normal_std = s.std() std_lower = normal_mean - 3 * normal_std std_upper = normal_mean + 3 * normal_std

三、效果圖及數據代碼獲取方式

3.1 原數據

3.2 檢測結果匯總表格:




檢測結果包含:
[指標名,總數據量,非空數據量,空值數據量,無效值數據量,零值數據量,正常平均值,正常標準差,標準差上界,標準差下界,箱體圖上界,箱體圖下界,箱體圖檢測異常數據量,標準差檢測異常數據量等等…]

3.3 數據及代碼獲取:

github:https://github.com/SeafyLiang/Python_study/blob/master/pandas_study/single_od.py
國內:https://gitee.com/seafyLiang/Python_study/blob/master/pandas_study/single_od.py
?


歡迎關注我的公眾號“機器學習工具箱”,技術文章第一時間推送。

總結

以上是生活随笔為你收集整理的数据挖掘06-基于标准差和箱体图的单指标异常点检测【原理、数据及代码】的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。