當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

基本统计分析

發(fā)布時間：2023/12/20 编程问答 53 豆豆

生活随笔收集整理的這篇文章主要介紹了基本统计分析小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

1基本統(tǒng)計分析
- 1.1描述性統(tǒng)計分析
- - 1.1.1 summary()函數(shù)
  - 1.1.2 sapply()函數(shù)
  - 1.1.3 describe()函數(shù)
  - 1.1.4 stat.desc()函數(shù)
- 1.2 分組計算描述性統(tǒng)計量
- - 1.2.1 aggregate()分組
  - 1.2.2 by()函數(shù)
2 結(jié)果可視化
3 相關
- 3.1 相關的類型
- 3.2 相關性的顯著性檢驗

1基本統(tǒng)計分析

1.1描述性統(tǒng)計分析

在描述性統(tǒng)計量的計算方面，R中的選擇很多。你可以使用summary()函數(shù)來獲取描述性統(tǒng)計量。

1.1.1 summary()函數(shù)

#讀入x的值 x <- c("mpg", "hp", "wt") #進行描述統(tǒng)計分析 summary(mtcars[x])

在描述性統(tǒng)計分析中包含了每個變量的最小值、最大值、四分位數(shù)和數(shù)值型變量的均值，以及因子向量和邏輯型向量的頻數(shù)統(tǒng)計。

1.1.2 sapply()函數(shù)

sapply()函數(shù)可計算所選擇的任意描述性統(tǒng)計量。其使用格式為：sapply(x, FUN, options)。其中的x是你的數(shù)據(jù)框（或矩陣），FUN為一個任意的函數(shù)。如果指定了options，它們將被傳遞
給FUN。你可以在這里插入的典型函數(shù)有mean()、sd()、var()、min()、max()、median()length()、range()和quantile()。函數(shù)fivenum()可返回最小值、下四分位數(shù)、中位數(shù)、上四分位數(shù)和最大值。

#構(gòu)建函數(shù) mytest <- function(x, na.omit=FALSE){ if (na.omit) x <- x[!is.na(x)] m <- mean(x) n <- length(x) s <- sd(x) skew <- sum((x-m)^3/s^3)/n kurt <- sum((x-m)^4/s^4)/n - 3 return(c(n=n, mean=m, stdev=s, skew=skew, kurtosis=kurt)) } #給定變量 x <- c("mpg", "hp", "wt") #調(diào)用函數(shù) sapply(mtcars[x], mytest)

1.1.3 describe()函數(shù)

通過Hmisc包中的describe()函數(shù)也可以計算描述性統(tǒng)計量。

#describe函數(shù) library("Hmisc") x <- c("mpg", "hp", "wt") describe(mtcars[x])

從運行結(jié)果來看，同樣可以得到每個變量的基本統(tǒng)計分析信息。

1.1.4 stat.desc()函數(shù)

我們還可以通過pastecs包中的stat.desc()函數(shù)計算描述性統(tǒng)計量。pastecs包中有一個名為stat.desc()的函數(shù)，它可以計算種類繁多的描述性統(tǒng)計量。使用
格式為：stat.desc(x, basic=TRUE, desc=TRUE, norm=FALSE, p=0.95)。

#stat.desc()函數(shù) library("pastecs") x <- c("mpg", "hp", "wt") stat.desc(mtcars[x])

1.2 分組計算描述性統(tǒng)計量

在比較多組個體或觀測時，關注的焦點經(jīng)常是各組的描述性統(tǒng)計信息，而不是樣本整體的描述性統(tǒng)計信息。同樣地，在R中完成這個任務有若干種方法。我們將以獲取變速箱類型各水平的描述性統(tǒng)計量開始。

1.2.1 aggregate()分組

#aggregate()分組 x <- c("mpg", "hp", "wt") #均值 aggregate(mtcars[x], by=list(am=mtcars$am), mean) #標準差 aggregate(mtcars[x], by=list(am=mtcars$am), sd)

aggregate()僅允許在每次調(diào)用中使用平均數(shù)、標準差這樣的單返回值函數(shù)，它無法一次返回若干個統(tǒng)計量。

1.2.2 by()函數(shù)

by（）函數(shù)使用格式為：by(data, INDICES, FUN) ，其中data是一個數(shù)據(jù)框或矩陣，INDICES是一個因子或因子組成的列表，定義了分組，FUN是任意函數(shù)。

#by()函數(shù) #構(gòu)建自定義函數(shù) dstest <- function(x)sapply(x, mytest) x <- c("mpg", "hp", "wt") by(mtcars[x], mtcars$am, dstest)

2 結(jié)果可視化

在R中用于創(chuàng)建頻數(shù)表和列聯(lián)表有很多種方法。

一維列聯(lián)表可以使用table()函數(shù)來生成簡單的頻數(shù)統(tǒng)計表。

#數(shù)據(jù)加載Arthritis library("vcd") #一維列聯(lián)表, table_new <- with(Arthritis,table(Improved))

3 相關

相關系數(shù)可以用來描述定量變量之間的關系。相關系數(shù)的符號（±）表明關系的方向（正相關或負相關），其值的大小表示關系的強弱程度（完全不相關時為0，完全相關時為1）。

3.1 相關的類型

在R中可以計算多種相關系數(shù)，包括Pearson相關系數(shù)、Spearman相關系數(shù)、Kendall相關系數(shù)、偏相關系數(shù)、多分格（polychoric）相關系數(shù)和（polyserial）相關系數(shù)。
Pearson、Spearman和Kendall相關
Pearson積差相關系數(shù)衡量了兩個定量變量之間的線性相關程度。Spearman等級相關系數(shù)則衡量分級定序變量之間的相關程度。Kendall’s Tau相關系數(shù)也是一種非參數(shù)的等級相關度量。cor()函數(shù)可以計算這三種相關系數(shù)，而cov()函數(shù)可用來計算協(xié)方差。其中cor與cov的參數(shù)為：

#使用R的自帶數(shù)據(jù)集 states<- state.x77[,1:6] #計算前六位方差 cov(states) #協(xié)方差 cor(states)

3.2 相關性的顯著性檢驗

在R中可以使用cor.test()函數(shù)對單個的Pearson，Spearman和Kendall相關系數(shù)進行檢驗。其函數(shù)適應格式為：cor.test(x, y, alternative = , method = )。其中的x和y為要檢驗相關性的變量，alternative則用來指定進行雙側(cè)檢驗或單側(cè)檢驗（取值為"two.side"、“l(fā)ess"或"greater”），而method用以指定要計算的相關類型（“pearson”、“kendall” 或 “spearman” ）。現(xiàn)在對兩個變量進行相關性系數(shù)進行檢驗。

cor.test(states[,3], states[,5])

但是，cor.test()每次只能檢驗一種相關關系。要想一次性檢驗多種的相關系數(shù)檢驗，可以使用psych包中提供的
corr.test()函數(shù)。corr.test()函數(shù)可以為Pearson、Spearman或Kendall相關計算相關矩陣和顯著性水平。

#多個相關系數(shù)檢驗 library("psych") corr.test(states, use="complete")

參數(shù)use=的取值可為"pairwise"或"complete"，它們分別表示對缺失值執(zhí)行成對刪除或行刪除。參數(shù)method=的取值可為"pearson"（默認值）、“spearman"或"kendall”。

來自《R語言實戰(zhàn)第二版》，僅為記錄自己的學習筆記。不做其他的。

總結(jié)

以上是生活随笔為你收集整理的基本统计分析的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

统计分析

上一篇：智慧公寓管理系统解决方案
下一篇：北京工业大学大一C语言课程设计--四子