日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘06-基于标准差和箱体图的单指标异常点检测【原理、数据及代码】

發布時間:2023/12/14 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据挖掘06-基于标准差和箱体图的单指标异常点检测【原理、数据及代码】 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數據挖掘06-基于標準差和箱體圖的單指標異常點檢測

    • 一、基于箱體圖
    • 二、基于標準差
    • 三、效果圖及數據代碼獲取方式
      • 3.1 原數據
      • 3.2 檢測結果匯總表格:
      • 3.3 數據及代碼獲取:

在數據的處理過程中,不可避免的會產生缺失值、異常值,下面來講一下我在工作中使用到的兩種常見的判斷異常值的方法


一、基于箱體圖

箱體圖,即箱線圖,從下到上五條線分別表示最小值下四分位數中位數上四分位數最大值
百度百科-箱線圖
箱體圖是一種用于顯示一組數據分散情況資料的統計圖,可以通過設定標準,將大于或小于箱體圖上下界的數值識別為異常值。


如上圖所示,
將數據的下四分位數記為Q1,即樣本中僅有25%的數據小于Q1
將數據的上四分位數記為Q3,即樣本中僅有25%的數據大于Q3
上四分位數和下四分位數的差值記為IQR,即IQR=Q3-Q1
令箱體圖上界為Q3+1.5*IQR下界為Q1-1.5*IQR

import pandas as pd import matplotlib.pyplot as pltdf = pd.read_csv('data/od_test.csv') df.boxplot() plt.show()


如上圖所示,c列有很多的異常值。
?

二、基于標準差

當數據服從標準正態分布時,99%的數值與均值的距離應該在3個標準差之內,95%的數值與均值的距離應該在2個標準差之內,如下圖所示。
當數值與均值的距離超出3個標準差,則可認為它是異常值。




百度百科-標準差

s = df_notnull[od_column] # 標準差上下限計算 normal_mean = s.mean() normal_std = s.std() std_lower = normal_mean - 3 * normal_std std_upper = normal_mean + 3 * normal_std

三、效果圖及數據代碼獲取方式

3.1 原數據

3.2 檢測結果匯總表格:




檢測結果包含:
[指標名,總數據量,非空數據量,空值數據量,無效值數據量,零值數據量,正常平均值,正常標準差,標準差上界,標準差下界,箱體圖上界,箱體圖下界,箱體圖檢測異常數據量,標準差檢測異常數據量等等…]

3.3 數據及代碼獲取:

github:https://github.com/SeafyLiang/Python_study/blob/master/pandas_study/single_od.py
國內:https://gitee.com/seafyLiang/Python_study/blob/master/pandas_study/single_od.py
?


歡迎關注我的公眾號“機器學習工具箱”,技術文章第一時間推送。

總結

以上是生活随笔為你收集整理的数据挖掘06-基于标准差和箱体图的单指标异常点检测【原理、数据及代码】的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。