格拉布斯法—异常值判断(异常值)
數(shù)值數(shù)據(jù)類型:
方法一:Z-Score
方法二:DBSCAN
方法三:Lsolation Forest
方法四:Mahalanobis距離 (主要解決多元離散群點(diǎn)問題)
方法五:PCA(去除平均值、計(jì)算協(xié)方差特征值與特征向量、降序排列特征值和特征向量、將排序中較大特征值和特征向量映射到新空間可視化分析)
方法六:Transfromer根據(jù)start和end索引算子輸出的預(yù)測(cè)值距離
方法七:LOF、Cluster、KNN、密度、聚類、距離、樹、圖
算法優(yōu)化類型:
格拉布斯法、狄克遜法、偏度-峰度法、拉依達(dá)法、奈爾法等
格拉布斯法—異常值判斷
▲概述:一組測(cè)量數(shù)據(jù)中,如果個(gè)別數(shù)據(jù)偏離平均值很遠(yuǎn),那么這個(gè)(這些)數(shù)據(jù)稱作“可疑值”。如果用統(tǒng)計(jì)方法—例如格拉布斯(Grubbs)法判斷,能將“可疑值”從此組測(cè)量數(shù)據(jù)中剔除而不參與平均值的計(jì)算,那么該“可疑值”就稱作“異常值(粗大誤差)”。本文就是介紹如何用格拉布斯法判斷“可疑值”是否為“異常值”。
▲測(cè)量數(shù)據(jù):例如測(cè)量10次(n=10),獲得以下數(shù)據(jù):8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列數(shù)據(jù):將上述測(cè)量數(shù)據(jù)按從小到大的順序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。
▲計(jì)算平均值x-和標(biāo)準(zhǔn)差s:x-=7.89;標(biāo)準(zhǔn)差s=2.704。計(jì)算時(shí)必須將所有10個(gè)數(shù)據(jù)全部包含在內(nèi)。
▲計(jì)算偏離值:平均值與最小值之差為7.89-4.7=3.19;最大值與平均值之差為14.0-7.89=6.11。
▲確定一個(gè)可疑值:比較起來最大值與平均值之差6.11大于平均值與最小值之差3.19,因此認(rèn)為最大值14.0是可疑值。
▲計(jì)算Gi值:Gi=(xi-x- )/s;其中i是可疑值的排列序號(hào)
——10號(hào);因此G10=( x10-x- )/s=(14.0-7.89)/2.704=2.260。由于 x10-x-是殘差,而s是標(biāo)準(zhǔn)差,因而可認(rèn)為G10是殘差與標(biāo)準(zhǔn)差的比值。下面要把計(jì)算值Gi與格拉布斯表給出的臨界值GP(n)比較,如果計(jì)算的Gi值大于表中的臨界值GP(n),則能判斷該測(cè)量數(shù)據(jù)是異常值,可以剔除。但是要提醒,臨界值GP(n)與兩個(gè)參數(shù)有關(guān):檢出水平α (與置信概率P有關(guān))和測(cè)量次數(shù)n (與自由度f有關(guān))。
▲定檢出水平α:如果要求嚴(yán)格,檢出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不嚴(yán)格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。
▲查格拉布斯表獲得臨界值:根據(jù)選定的P值(此處為0.95)和測(cè)量次數(shù)n(此處為10),查格拉布斯表,橫豎相交得臨界值G95(10)=2.176。
▲比較計(jì)算值Gi和臨界值G95(10):Gi=2.260,G95(10)=2.176,Gi>G95(10)。
▲判斷是否為異常值:因?yàn)镚i>G95(10),可以判斷測(cè)量值14.0為異常值,將它從10個(gè)測(cè)量數(shù)據(jù)中剔除。
▲余下數(shù)據(jù)考慮:剩余的9個(gè)數(shù)據(jù)再按以上步驟計(jì)算,如果計(jì)算的Gi>G95(9),仍然是異常值,剔除;如果Gi<G95(9),不是異常值,則不剔除。本例余下的9個(gè)數(shù)據(jù)中沒有異常值。
格拉布斯表——臨界值GP(n)
對(duì)異常值及統(tǒng)計(jì)檢驗(yàn)法的解釋
■測(cè)量過程是對(duì)一個(gè)無限大總體的抽樣:對(duì)固定條件下的一種測(cè)量,理論上可以無限次測(cè)量下去,可以得到無窮多的測(cè)量數(shù)據(jù),這些測(cè)量數(shù)據(jù)構(gòu)成一個(gè)容量為無限大的總體;或者換一個(gè)角度看,本來就存在一個(gè)包含無窮多測(cè)量數(shù)據(jù)的總體。實(shí)際的測(cè)量只不過是從該無限大總體中隨機(jī)抽取一個(gè)容量為n(例如n=10)的樣本。這種樣本也可以有無數(shù)個(gè),每個(gè)樣本相當(dāng)于總體所含測(cè)量數(shù)據(jù)的不同隨機(jī)組合。樣本中的正常值應(yīng)當(dāng)來自該總體。通常的目的是用樣本的統(tǒng)計(jì)量來估計(jì)總體參量。總體一般假設(shè)為正態(tài)分布。
■異常值區(qū)分:樣本中的正常值應(yīng)當(dāng)屬于同一總體;而異常值有兩種情況:第一種情況異常值不屬于該總體,抽樣抽錯(cuò)了,從另外一個(gè)總體抽出一個(gè)(一些)數(shù)據(jù),其值與總體平均值相差較大;第二種情況異常值雖屬于該總體,但可能是該總體固有隨機(jī)變異性的極端表現(xiàn),比如說超過3σ的數(shù)據(jù),出現(xiàn)的概率很小。用統(tǒng)計(jì)判斷方法就是將異常值找出來,舍去。
■犯錯(cuò)誤1:將本來不屬于該總體的、第一種情況的異常值判斷出來舍去,不會(huì)犯錯(cuò)誤;將本來屬于該總體的、出現(xiàn)的概率小的、第二種情況的異常值判斷出來舍去,就會(huì)犯錯(cuò)誤。
■犯錯(cuò)誤2:還有一種情況,不屬于該總體但數(shù)值又和該總體平均值接近的數(shù)據(jù)被抽樣抽出來,統(tǒng)計(jì)檢驗(yàn)方法判斷不出它是異常值,就會(huì)犯另外一種錯(cuò)誤。
■異常值檢驗(yàn)法:判斷異常值的統(tǒng)計(jì)檢驗(yàn)法有很多種,例如格拉布斯法、狄克遜法、偏度-峰度法、拉依達(dá)法、奈爾法等等。每種方法都有其適用范圍和優(yōu)缺點(diǎn)。
■格拉布斯法最佳:每種統(tǒng)計(jì)檢驗(yàn)法都會(huì)犯犯錯(cuò)誤1和錯(cuò)誤2。但是有人做過統(tǒng)計(jì),在所有方法中,格拉布斯法犯這兩種錯(cuò)誤的概率最小,所以推薦使用格拉布斯法。
■多種方法結(jié)合使用:為了減少犯錯(cuò)誤的概率,可以將3種以上統(tǒng)計(jì)檢驗(yàn)法結(jié)合使用,根據(jù)多數(shù)方法的判斷結(jié)果,確定可疑值是否為異常值。
■異常值來源:測(cè)量?jī)x器不正常,測(cè)量環(huán)境偏離正常值較大,計(jì)算機(jī)出錯(cuò),看錯(cuò),讀錯(cuò),抄錯(cuò),算錯(cuò),轉(zhuǎn)移錯(cuò)誤。
總結(jié)
以上是生活随笔為你收集整理的格拉布斯法—异常值判断(异常值)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 训练集,测试集和验证集
- 下一篇: Matlab和Fluent联合仿真实现涡