日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

格拉布斯法—异常值判断(异常值)

發(fā)布時(shí)間:2023/12/31 编程问答 58 豆豆
生活随笔 收集整理的這篇文章主要介紹了 格拉布斯法—异常值判断(异常值) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

數(shù)值數(shù)據(jù)類型:
方法一:Z-Score
方法二:DBSCAN
方法三:Lsolation Forest
方法四:Mahalanobis距離 (主要解決多元離散群點(diǎn)問題)
方法五:PCA(去除平均值、計(jì)算協(xié)方差特征值與特征向量、降序排列特征值和特征向量、將排序中較大特征值和特征向量映射到新空間可視化分析)
方法六:Transfromer根據(jù)start和end索引算子輸出的預(yù)測(cè)值距離
方法七:LOF、Cluster、KNN、密度、聚類、距離、樹、圖

算法優(yōu)化類型:
格拉布斯法、狄克遜法、偏度-峰度法、拉依達(dá)法、奈爾法等
格拉布斯法—異常值判斷

▲概述:一組測(cè)量數(shù)據(jù)中,如果個(gè)別數(shù)據(jù)偏離平均值很遠(yuǎn),那么這個(gè)(這些)數(shù)據(jù)稱作“可疑值”。如果用統(tǒng)計(jì)方法—例如格拉布斯(Grubbs)法判斷,能將“可疑值”從此組測(cè)量數(shù)據(jù)中剔除而不參與平均值的計(jì)算,那么該“可疑值”就稱作“異常值(粗大誤差)”。本文就是介紹如何用格拉布斯法判斷“可疑值”是否為“異常值”。

▲測(cè)量數(shù)據(jù):例如測(cè)量10次(n=10),獲得以下數(shù)據(jù):8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

▲排列數(shù)據(jù):將上述測(cè)量數(shù)據(jù)按從小到大的順序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。

▲計(jì)算平均值x-和標(biāo)準(zhǔn)差s:x-=7.89;標(biāo)準(zhǔn)差s=2.704。計(jì)算時(shí)必須將所有10個(gè)數(shù)據(jù)全部包含在內(nèi)。

▲計(jì)算偏離值:平均值與最小值之差為7.89-4.7=3.19;最大值與平均值之差為14.0-7.89=6.11。

▲確定一個(gè)可疑值:比較起來最大值與平均值之差6.11大于平均值與最小值之差3.19,因此認(rèn)為最大值14.0是可疑值。

▲計(jì)算Gi值:Gi=(xi-x- )/s;其中i是可疑值的排列序號(hào)

——10號(hào);因此G10=( x10-x- )/s=(14.0-7.89)/2.704=2.260。由于 x10-x-是殘差,而s是標(biāo)準(zhǔn)差,因而可認(rèn)為G10是殘差與標(biāo)準(zhǔn)差的比值。下面要把計(jì)算值Gi與格拉布斯表給出的臨界值GP(n)比較,如果計(jì)算的Gi值大于表中的臨界值GP(n),則能判斷該測(cè)量數(shù)據(jù)是異常值,可以剔除。但是要提醒,臨界值GP(n)與兩個(gè)參數(shù)有關(guān):檢出水平α (與置信概率P有關(guān))和測(cè)量次數(shù)n (與自由度f有關(guān))。

▲定檢出水平α:如果要求嚴(yán)格,檢出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不嚴(yán)格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。

▲查格拉布斯表獲得臨界值:根據(jù)選定的P值(此處為0.95)和測(cè)量次數(shù)n(此處為10),查格拉布斯表,橫豎相交得臨界值G95(10)=2.176。

▲比較計(jì)算值Gi和臨界值G95(10):Gi=2.260,G95(10)=2.176,Gi>G95(10)。

▲判斷是否為異常值:因?yàn)镚i>G95(10),可以判斷測(cè)量值14.0為異常值,將它從10個(gè)測(cè)量數(shù)據(jù)中剔除。

▲余下數(shù)據(jù)考慮:剩余的9個(gè)數(shù)據(jù)再按以上步驟計(jì)算,如果計(jì)算的Gi>G95(9),仍然是異常值,剔除;如果Gi<G95(9),不是異常值,則不剔除。本例余下的9個(gè)數(shù)據(jù)中沒有異常值。

格拉布斯表——臨界值GP(n)

對(duì)異常值及統(tǒng)計(jì)檢驗(yàn)法的解釋

■測(cè)量過程是對(duì)一個(gè)無限大總體的抽樣:對(duì)固定條件下的一種測(cè)量,理論上可以無限次測(cè)量下去,可以得到無窮多的測(cè)量數(shù)據(jù),這些測(cè)量數(shù)據(jù)構(gòu)成一個(gè)容量為無限大的總體;或者換一個(gè)角度看,本來就存在一個(gè)包含無窮多測(cè)量數(shù)據(jù)的總體。實(shí)際的測(cè)量只不過是從該無限大總體中隨機(jī)抽取一個(gè)容量為n(例如n=10)的樣本。這種樣本也可以有無數(shù)個(gè),每個(gè)樣本相當(dāng)于總體所含測(cè)量數(shù)據(jù)的不同隨機(jī)組合。樣本中的正常值應(yīng)當(dāng)來自該總體。通常的目的是用樣本的統(tǒng)計(jì)量來估計(jì)總體參量。總體一般假設(shè)為正態(tài)分布。

■異常值區(qū)分:樣本中的正常值應(yīng)當(dāng)屬于同一總體;而異常值有兩種情況:第一種情況異常值不屬于該總體,抽樣抽錯(cuò)了,從另外一個(gè)總體抽出一個(gè)(一些)數(shù)據(jù),其值與總體平均值相差較大;第二種情況異常值雖屬于該總體,但可能是該總體固有隨機(jī)變異性的極端表現(xiàn),比如說超過3σ的數(shù)據(jù),出現(xiàn)的概率很小。用統(tǒng)計(jì)判斷方法就是將異常值找出來,舍去。

■犯錯(cuò)誤1:將本來不屬于該總體的、第一種情況的異常值判斷出來舍去,不會(huì)犯錯(cuò)誤;將本來屬于該總體的、出現(xiàn)的概率小的、第二種情況的異常值判斷出來舍去,就會(huì)犯錯(cuò)誤。

■犯錯(cuò)誤2:還有一種情況,不屬于該總體但數(shù)值又和該總體平均值接近的數(shù)據(jù)被抽樣抽出來,統(tǒng)計(jì)檢驗(yàn)方法判斷不出它是異常值,就會(huì)犯另外一種錯(cuò)誤。

■異常值檢驗(yàn)法:判斷異常值的統(tǒng)計(jì)檢驗(yàn)法有很多種,例如格拉布斯法、狄克遜法、偏度-峰度法、拉依達(dá)法、奈爾法等等。每種方法都有其適用范圍和優(yōu)缺點(diǎn)。

■格拉布斯法最佳:每種統(tǒng)計(jì)檢驗(yàn)法都會(huì)犯犯錯(cuò)誤1和錯(cuò)誤2。但是有人做過統(tǒng)計(jì),在所有方法中,格拉布斯法犯這兩種錯(cuò)誤的概率最小,所以推薦使用格拉布斯法。

■多種方法結(jié)合使用:為了減少犯錯(cuò)誤的概率,可以將3種以上統(tǒng)計(jì)檢驗(yàn)法結(jié)合使用,根據(jù)多數(shù)方法的判斷結(jié)果,確定可疑值是否為異常值。

■異常值來源:測(cè)量?jī)x器不正常,測(cè)量環(huán)境偏離正常值較大,計(jì)算機(jī)出錯(cuò),看錯(cuò),讀錯(cuò),抄錯(cuò),算錯(cuò),轉(zhuǎn)移錯(cuò)誤。

總結(jié)

以上是生活随笔為你收集整理的格拉布斯法—异常值判断(异常值)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。