當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

R语言与数据的概括性度量

發布時間：2023/12/19 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了 R语言与数据的概括性度量小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

參考書目：《統計學》-賈俊平；《統計學：從數據到結論》-吳喜之；
理論部分：數據的概括性度量

以下例子會用到的數據(這些數據被放在一個叫data5.txt的文件里)：

74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.5 79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0 75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.0 73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.5

讀取數據：

Tdata <- read.table("data5.txt", header = F) new_data <- as.vector(as.matrix(Tdata))

眾數

> #眾數 > z <- table(new_data) > (z[which(z==max(z))]) new_data72 73.5 74.3 5 5 5

注意：眾數可以有多個，也可以沒有。

中位數

> #中位數 > (med_data <- median(new_data)) [1] 73.5

四分位數

#下四分位數 > quantile(new_data, 0.25)25% 71.2 #上四分位數 > quantile(new_data, 0.75)75% 75.65

五位數總括(最小值、下四分位數、中位數、上四分位數、最大值)

> (fivenum(new_data)) [1] 64.3 71.2 73.5 75.7 80.5

簡單平均數

> #均值 > (mean_data <- mean(new_data)) [1] 73.64

因為平均數易受數據極端值的影響，所以我們可以刪除極端值，過濾掉一部分比例的數據，再計算均值

> #過濾掉極小和極大各10%的極端值 > (mean_data2 <- mean(new_data, trim = 0.1)) [1] 73.70937

trim的參數值可以在0~0.5之間進行選擇，如果大于等于0.5則會選擇中位數作為均值。

比如：

> mean(c(-30, -20, -10, 1:10, 50, 100), trim = 3/15) [1] 5 > mean(c(-30, -20, -10, 1:10, 50, 100), trim = 2/15) [1] 4.090909 > mean(c(-30, -20, -10, 1:10, 50, 100), trim = 1) [1] 5 > mean(c(-30, -20, -10, 1:10, 50, 100, 200), trim = 1) [1] 5.5

極差

> #極差 > (diff(range(new_data))) [1] 16.2

四分位差

> #四分位差 > (diff(quantile(new_data, c(0.25, 0.75))))75% 4.45

平均差

> #平均差 > my_md <- function(x){mean(abs(x - mean(x, na.rm = T)), na.rm = T)} > (my_md(new_data)) [1] 2.987

方差標準差(這里計算的是樣本的方差標準差，分母為n-1)

> #方差 > (var_data <- var(new_data)) [1] 15.33836 > #標準差 > (sd_data <- sd(new_data)) [1] 3.916422

標準誤

> #標準誤 > (standard_error_data <- sd_data/(length(new_data))^(0.5)) [1] 0.6192406

標準得分

#標準得分 scale(new_data)

偏度與峰度

> #偏度 > (S_data <- skewness(new_data)) [1] -0.1563461 > #峰度 > (K_data <- kurtosis(new_data)) [1] 2.889835

總結

以上是生活随笔為你收集整理的R语言与数据的概括性度量的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： R语言与数据的图表展示(part1)--
下一篇：《统计学：从数据到结论》学习笔记(par