grubbs检测c语言,Grubbs算法检测离群值
▲概述:一組測量數據中,如果個別數據偏離平均值很遠,那么這個(這些)數據稱作“可疑值”。如果用統計方法—例如格拉布斯(Grubbs)法判斷,能將“可疑值”從此組測量數據中剔除而不參與平均值的計算,那么該“可疑值”就稱作“異常值(粗大誤差)”。本文就是介紹如何用格拉布斯法判斷“可疑值”是否為“異常值”。
▲測量數據:例如測量10次(n=10),獲得以下數據:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列數據:將上述測量數據按從小到大的順序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。
▲計算平均值x-和標準差s:x-=7.89;標準差s=2.704。計算時,必須將所有10個數據全部包含在內。
▲計算偏離值:平均值與最小值之差為7.89-4.7=3.19;最大值與平均值之差為14.0-7.89=6.11。
▲確定一個可疑值:比較起來,最大值與平均值之差6.11大于平均值與最小值之差3.19,因此認為最大值14.0是可疑值。
▲計算Gi值:Gi=(xi-x-)/s;其中i是可疑值的排列序號
——10號;因此G10=( x10-x-)/s=(14.0-7.89)/2.704=2.260。由于x10-x-是殘差,而s是標準差,因而可認為G10是殘差與標準差的比值。下面要把計算值Gi與格拉布斯表給出的臨界值GP(n)比較,如果計算的Gi值大于表中的臨界值GP(n),則能判斷該測量數據是異常值,可以剔除。但是要提醒,臨界值GP(n)與兩個參數有關:檢出水平α (與置信概率P有關)和測量次數n (與自由度f有關)。
▲定檢出水平α:如果要求嚴格,檢出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不嚴格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。
▲查格拉布斯表獲得臨界值:根據選定的P值(此處為0.95)和測量次數n(此處為10),查格拉布斯表,橫豎相交得臨界值G95(10)=2.176。
▲比較計算值Gi和臨界值G95(10):Gi=2.260,G95(10)=2.176,Gi>G95(10)。
▲判斷是否為異常值:因為Gi>G95(10),可以判斷測量值14.0為異常值,將它從10個測量數據中剔除。
▲余下數據考慮:剩余的9個數據再按以上步驟計算,如果計算的Gi>G95(9),仍然是異常值,剔除;如果Gi<G95(9),不是異常值,則不剔除。本例余下的9個數據中沒有異常值。
格拉布斯表——臨界值GP(n)
P
n
0.95
0.99
P
n
0.95
0.99
3
1.135
1.155
17
2.475
2.785
4
1.463
1.492
18
2.504
2.821
5
1.672
1.749
19
2.532
2.854
6
1.822
1.944
20
2.557
2.884
7
1.938
2.097
21
2.580
2.912
8
2.032
2.231
22
2.603
2.939
9
2.110
2.323
23
2.624
2.963
10
2.176
2.410
24
2.644
2.987
11
2.234
2.485
25
2.663
3.009
12
2.285
2.550
30
2.745
3.103
13
2.331
2.607
35
2.811
3.178
14
2.371
2.659
40
2.866
3.240
15
2.409
2.705
45
2.914
3.292
16
2.443
2.747
50
2.956
3.336
對異常值及統計檢驗法的解釋
■測量過程是對一個無限大總體的抽樣:對固定條件下的一種測量,理論上可以無限次測量下去,可以得到無窮多的測量數據,這些測量數據構成一個容量為無限大的總體;或者換一個角度看,本來就存在一個包含無窮多測量數據的總體。實際的測量只不過是從該無限大總體中隨機抽取一個容量為n(例如n=10)的樣本。這種樣本也可以有無數個,每個樣本相當于總體所含測量數據的不同隨機組合。樣本中的正常值應當來自該總體。通常的目的是用樣本的統計量來估計總體參量。總體一般假設為正態分布。
■異常值區分:樣本中的正常值應當屬于同一總體;而異常值有兩種情況:第一種情況異常值不屬于該總體,抽樣抽錯了,從另外一個總體抽出一個(一些)數據,其值與總體平均值相差較大;第二種情況異常值雖屬于該總體,但可能是該總體固有隨機變異性的極端表現,比如說超過3σ的數據,出現的概率很小。用統計判斷方法就是將異常值找出來,舍去。
■犯錯誤1:將本來不屬于該總體的、第一種情況的異常值判斷出來舍去,不會犯錯誤;將本來屬于該總體的、出現的概率小的、第二種情況的異常值判斷出來舍去,就會犯錯誤。
■犯錯誤2:還有一種情況,不屬于該總體但數值又和該總體平均值接近的數據被抽樣抽出來,統計檢驗方法判斷不出它是異常值,就會犯另外一種錯誤。
■異常值檢驗法:判斷異常值的統計檢驗法有很多種,例如格拉布斯法、狄克遜法、偏度-峰度法、拉依達法、奈爾法等等。每種方法都有其適用范圍和優缺點。
■格拉布斯法最佳:每種統計檢驗法都會犯犯錯誤1和錯誤2。但是有人做過統計,在所有方法中,格拉布斯法犯這兩種錯誤的概率最小,所以推薦使用格拉布斯法。
■多種方法結合使用:為了減少犯錯誤的概率,可以將3種以上統計檢驗法結合使用,根據多數方法的判斷結果,確定可疑值是否為異常值。
■異常值來源:測量儀器不正常,測量環境偏離正常值較大,計算機出錯,看錯,讀錯,抄錯,算錯,轉移錯誤。
——
總結
以上是生活随笔為你收集整理的grubbs检测c语言,Grubbs算法检测离群值的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: STM32利用光敏二极管实现光度测量
- 下一篇: word如何设置长宽高_word怎么设计