日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

R语言之离群点检验(part1)--利用箱线图原理检测离群点

發(fā)布時間:2023/12/19 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 R语言之离群点检验(part1)--利用箱线图原理检测离群点 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

學(xué)習(xí)筆記
參考書目:《R語言與數(shù)據(jù)挖掘》、《統(tǒng)計學(xué)》


利用箱線圖原理檢測離群點

箱線圖

箱線圖是由數(shù)據(jù)的最大值、最小值、中位數(shù)、兩個四分位數(shù)這五個特征值繪制而成的,它主要用于反映原始數(shù)據(jù)分布的特征。

箱線圖:

若觀察值超過了上四分位數(shù)加1.5倍四分位差,或者小于下四分位數(shù)減1.5倍四分位差,則在箱線圖中會作為離群點被單獨標(biāo)出。

所以,當(dāng)我們拿到一組單變量數(shù)值型觀測時,若某個觀測值大于四分位數(shù)加1.5倍四分位差,或者小于下四分位數(shù)減1.5倍四分位差,則可以判定為離群值。

R語言實現(xiàn)

  • 相關(guān)函數(shù)
boxplot.stats() #該函數(shù)返回結(jié)果中有一個out組件,它存儲了檢測出的離群點的數(shù)值
  • 案例

代碼:

#模擬數(shù)據(jù): set.seed(1234) x <- rnorm(100) y <- rnorm(100)df <- data.frame(x = x,y = y)#分別獲取x和y的離群點的行號,再取并集(當(dāng)然還有取交集的方法intersect): attach(df)(boxplot.stats(x)$out) #3.043766 -2.855759 (boxplot.stats(y)$out) #2.919140 -3.233152 -2.651741 -3.396064 (x_out <- which(x %in% boxplot.stats(x)$out)) #[1] 178 192 (y_out <- which(y %in% boxplot.stats(y)$out)) #[1] 27 37 182 192detach(df) out_point <- union(x_out, y_out)#繪圖: plot(df, main = '散點圖') points(df[out_point, ], col = 'red', pch = 'o', cex = 2)

圖像:

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結(jié)

以上是生活随笔為你收集整理的R语言之离群点检验(part1)--利用箱线图原理检测离群点的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。