當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

格拉布斯法—异常值判断（异常值）

發(fā)布時(shí)間：2023/12/31 编程问答 58 豆豆

生活随笔收集整理的這篇文章主要介紹了格拉布斯法—异常值判断（异常值）小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

數(shù)值數(shù)據(jù)類型：
方法一：Z-Score
方法二：DBSCAN
方法三：Lsolation Forest
方法四：Mahalanobis距離（主要解決多元離散群點(diǎn)問題）
方法五：PCA（去除平均值、計(jì)算協(xié)方差特征值與特征向量、降序排列特征值和特征向量、將排序中較大特征值和特征向量映射到新空間可視化分析）
方法六：Transfromer根據(jù)start和end索引算子輸出的預(yù)測(cè)值距離
方法七：LOF、Cluster、KNN、密度、聚類、距離、樹、圖

算法優(yōu)化類型：
格拉布斯法、狄克遜法、偏度-峰度法、拉依達(dá)法、奈爾法等
格拉布斯法—異常值判斷

▲概述：一組測(cè)量數(shù)據(jù)中，如果個(gè)別數(shù)據(jù)偏離平均值很遠(yuǎn)，那么這個(gè)(這些)數(shù)據(jù)稱作“可疑值”。如果用統(tǒng)計(jì)方法—例如格拉布斯(Grubbs)法判斷，能將“可疑值”從此組測(cè)量數(shù)據(jù)中剔除而不參與平均值的計(jì)算，那么該“可疑值”就稱作“異常值(粗大誤差)”。本文就是介紹如何用格拉布斯法判斷“可疑值”是否為“異常值”。

▲測(cè)量數(shù)據(jù)：例如測(cè)量10次(n＝10)，獲得以下數(shù)據(jù)：8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

▲排列數(shù)據(jù)：將上述測(cè)量數(shù)據(jù)按從小到大的順序排列，得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定，可疑值不是最小值就是最大值。

▲計(jì)算平均值x-和標(biāo)準(zhǔn)差s：x-＝7.89；標(biāo)準(zhǔn)差s＝2.704。計(jì)算時(shí)必須將所有10個(gè)數(shù)據(jù)全部包含在內(nèi)。

▲計(jì)算偏離值：平均值與最小值之差為7.89－4.7＝3.19；最大值與平均值之差為14.0－7.89＝6.11。

▲確定一個(gè)可疑值：比較起來最大值與平均值之差6.11大于平均值與最小值之差3.19，因此認(rèn)為最大值14.0是可疑值。

▲計(jì)算Gi值：Gi＝(xi－x- )/s；其中i是可疑值的排列序號(hào)

——10號(hào)；因此G10＝( x10－x- )/s＝(14.0－7.89)/2.704＝2.260。由于 x10－x-是殘差，而s是標(biāo)準(zhǔn)差，因而可認(rèn)為G10是殘差與標(biāo)準(zhǔn)差的比值。下面要把計(jì)算值Gi與格拉布斯表給出的臨界值GP(n)比較，如果計(jì)算的Gi值大于表中的臨界值GP(n)，則能判斷該測(cè)量數(shù)據(jù)是異常值，可以剔除。但是要提醒，臨界值GP(n)與兩個(gè)參數(shù)有關(guān)：檢出水平α (與置信概率P有關(guān))和測(cè)量次數(shù)n (與自由度f有關(guān))。

▲定檢出水平α：如果要求嚴(yán)格，檢出水平α可以定得小一些，例如定α＝0.01，那么置信概率P＝1－α＝0.99；如果要求不嚴(yán)格，α可以定得大一些，例如定α＝0.10，即P＝0.90；通常定α＝0.05，P＝0.95。

▲查格拉布斯表獲得臨界值：根據(jù)選定的P值(此處為0.95)和測(cè)量次數(shù)n(此處為10)，查格拉布斯表，橫豎相交得臨界值G95(10)＝2.176。

▲比較計(jì)算值Gi和臨界值G95(10)：Gi＝2.260，G95(10)＝2.176，Gi＞G95(10)。

▲判斷是否為異常值：因?yàn)镚i＞G95(10)，可以判斷測(cè)量值14.0為異常值，將它從10個(gè)測(cè)量數(shù)據(jù)中剔除。

▲余下數(shù)據(jù)考慮：剩余的9個(gè)數(shù)據(jù)再按以上步驟計(jì)算，如果計(jì)算的Gi＞G95(9)，仍然是異常值，剔除；如果Gi＜G95(9)，不是異常值，則不剔除。本例余下的9個(gè)數(shù)據(jù)中沒有異常值。

格拉布斯表——臨界值GP(n)

對(duì)異常值及統(tǒng)計(jì)檢驗(yàn)法的解釋

■測(cè)量過程是對(duì)一個(gè)無限大總體的抽樣：對(duì)固定條件下的一種測(cè)量，理論上可以無限次測(cè)量下去，可以得到無窮多的測(cè)量數(shù)據(jù)，這些測(cè)量數(shù)據(jù)構(gòu)成一個(gè)容量為無限大的總體；或者換一個(gè)角度看，本來就存在一個(gè)包含無窮多測(cè)量數(shù)據(jù)的總體。實(shí)際的測(cè)量只不過是從該無限大總體中隨機(jī)抽取一個(gè)容量為n(例如n＝10)的樣本。這種樣本也可以有無數(shù)個(gè)，每個(gè)樣本相當(dāng)于總體所含測(cè)量數(shù)據(jù)的不同隨機(jī)組合。樣本中的正常值應(yīng)當(dāng)來自該總體。通常的目的是用樣本的統(tǒng)計(jì)量來估計(jì)總體參量。總體一般假設(shè)為正態(tài)分布。

■異常值區(qū)分：樣本中的正常值應(yīng)當(dāng)屬于同一總體；而異常值有兩種情況：第一種情況異常值不屬于該總體，抽樣抽錯(cuò)了，從另外一個(gè)總體抽出一個(gè)(一些)數(shù)據(jù)，其值與總體平均值相差較大；第二種情況異常值雖屬于該總體，但可能是該總體固有隨機(jī)變異性的極端表現(xiàn)，比如說超過3σ的數(shù)據(jù)，出現(xiàn)的概率很小。用統(tǒng)計(jì)判斷方法就是將異常值找出來，舍去。

■犯錯(cuò)誤1：將本來不屬于該總體的、第一種情況的異常值判斷出來舍去，不會(huì)犯錯(cuò)誤；將本來屬于該總體的、出現(xiàn)的概率小的、第二種情況的異常值判斷出來舍去，就會(huì)犯錯(cuò)誤。

■犯錯(cuò)誤2：還有一種情況，不屬于該總體但數(shù)值又和該總體平均值接近的數(shù)據(jù)被抽樣抽出來，統(tǒng)計(jì)檢驗(yàn)方法判斷不出它是異常值，就會(huì)犯另外一種錯(cuò)誤。

■異常值檢驗(yàn)法：判斷異常值的統(tǒng)計(jì)檢驗(yàn)法有很多種，例如格拉布斯法、狄克遜法、偏度-峰度法、拉依達(dá)法、奈爾法等等。每種方法都有其適用范圍和優(yōu)缺點(diǎn)。

■格拉布斯法最佳：每種統(tǒng)計(jì)檢驗(yàn)法都會(huì)犯犯錯(cuò)誤1和錯(cuò)誤2。但是有人做過統(tǒng)計(jì)，在所有方法中，格拉布斯法犯這兩種錯(cuò)誤的概率最小，所以推薦使用格拉布斯法。

■多種方法結(jié)合使用：為了減少犯錯(cuò)誤的概率，可以將3種以上統(tǒng)計(jì)檢驗(yàn)法結(jié)合使用，根據(jù)多數(shù)方法的判斷結(jié)果，確定可疑值是否為異常值。

■異常值來源：測(cè)量?jī)x器不正常，測(cè)量環(huán)境偏離正常值較大，計(jì)算機(jī)出錯(cuò)，看錯(cuò)，讀錯(cuò)，抄錯(cuò)，算錯(cuò)，轉(zhuǎn)移錯(cuò)誤。

總結(jié)

以上是生活随笔為你收集整理的格拉布斯法—异常值判断（异常值）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：训练集，测试集和验证集
下一篇： Matlab和Fluent联合仿真实现涡