基本统计分析
文章目錄
- 1基本統(tǒng)計分析
- 1.1描述性統(tǒng)計分析
- 1.1.1 summary()函數(shù)
- 1.1.2 sapply()函數(shù)
- 1.1.3 describe()函數(shù)
- 1.1.4 stat.desc()函數(shù)
- 1.2 分組計算描述性統(tǒng)計量
- 1.2.1 aggregate()分組
- 1.2.2 by()函數(shù)
- 2 結(jié)果可視化
- 3 相關
- 3.1 相關的類型
- 3.2 相關性的顯著性檢驗
1基本統(tǒng)計分析
1.1描述性統(tǒng)計分析
在描述性統(tǒng)計量的計算方面,R中的選擇很多。你可以使用summary()函數(shù)來獲取描述性統(tǒng)計量。
1.1.1 summary()函數(shù)
#讀入x的值 x <- c("mpg", "hp", "wt") #進行描述統(tǒng)計分析 summary(mtcars[x])
在描述性統(tǒng)計分析中包含了每個變量的最小值、最大值、四分位數(shù)和數(shù)值型變量的均值,以及因子向量和邏輯型向量的頻數(shù)統(tǒng)計。
1.1.2 sapply()函數(shù)
sapply()函數(shù)可計算所選擇的任意描述性統(tǒng)計量。其使用格式為:sapply(x, FUN, options)。其中的x是你的數(shù)據(jù)框(或矩陣),FUN為一個任意的函數(shù)。如果指定了options,它們將被傳遞
給FUN。你可以在這里插入的典型函數(shù)有mean()、sd()、var()、min()、max()、median()length()、range()和quantile()。函數(shù)fivenum()可返回最小值、下四分位數(shù)、中位數(shù)、上四分位數(shù)和最大值。
1.1.3 describe()函數(shù)
通過Hmisc包中的describe()函數(shù)也可以計算描述性統(tǒng)計量。
#describe函數(shù) library("Hmisc") x <- c("mpg", "hp", "wt") describe(mtcars[x])
從運行結(jié)果來看,同樣可以得到每個變量的基本統(tǒng)計分析信息。
1.1.4 stat.desc()函數(shù)
我們還可以通過pastecs包中的stat.desc()函數(shù)計算描述性統(tǒng)計量。pastecs包中有一個名為stat.desc()的函數(shù),它可以計算種類繁多的描述性統(tǒng)計量。使用
格式為:stat.desc(x, basic=TRUE, desc=TRUE, norm=FALSE, p=0.95)。
1.2 分組計算描述性統(tǒng)計量
在比較多組個體或觀測時,關注的焦點經(jīng)常是各組的描述性統(tǒng)計信息,而不是樣本整體的描述性統(tǒng)計信息。同樣地,在R中完成這個任務有若干種方法。我們將以獲取變速箱類型各水平的描述性統(tǒng)計量開始。
1.2.1 aggregate()分組
#aggregate()分組 x <- c("mpg", "hp", "wt") #均值 aggregate(mtcars[x], by=list(am=mtcars$am), mean) #標準差 aggregate(mtcars[x], by=list(am=mtcars$am), sd)
aggregate()僅允許在每次調(diào)用中使用平均數(shù)、標準差這樣的單返回值函數(shù),它無法一次返回若干個統(tǒng)計量。
1.2.2 by()函數(shù)
by()函數(shù)使用格式為:by(data, INDICES, FUN) ,其中data是一個數(shù)據(jù)框或矩陣,INDICES是一個因子或因子組成的列表,定義了分組,FUN是任意函數(shù)。
#by()函數(shù) #構(gòu)建自定義函數(shù) dstest <- function(x)sapply(x, mytest) x <- c("mpg", "hp", "wt") by(mtcars[x], mtcars$am, dstest)2 結(jié)果可視化
在R中用于創(chuàng)建頻數(shù)表和列聯(lián)表有很多種方法。
一維列聯(lián)表可以使用table()函數(shù)來生成簡單的頻數(shù)統(tǒng)計表。
3 相關
相關系數(shù)可以用來描述定量變量之間的關系。相關系數(shù)的符號(±)表明關系的方向(正相關或負相關),其值的大小表示關系的強弱程度(完全不相關時為0,完全相關時為1)。
3.1 相關的類型
在R中可以計算多種相關系數(shù),包括Pearson相關系數(shù)、Spearman相關系數(shù)、Kendall相關系數(shù)、偏相關系數(shù)、多分格(polychoric)相關系數(shù)和(polyserial)相關系數(shù)。
Pearson、Spearman和Kendall相關
Pearson積差相關系數(shù)衡量了兩個定量變量之間的線性相關程度。Spearman等級相關系數(shù)則衡量分級定序變量之間的相關程度。Kendall’s Tau相關系數(shù)也是一種非參數(shù)的等級相關度量。cor()函數(shù)可以計算這三種相關系數(shù),而cov()函數(shù)可用來計算協(xié)方差。其中cor與cov的參數(shù)為:
3.2 相關性的顯著性檢驗
在R中可以使用cor.test()函數(shù)對單個的Pearson,Spearman和Kendall相關系數(shù)進行檢驗。其函數(shù)適應格式為:cor.test(x, y, alternative = , method = )。其中的x和y為要檢驗相關性的變量,alternative則用來指定進行雙側(cè)檢驗或單側(cè)檢驗(取值為"two.side"、“l(fā)ess"或"greater”),而method用以指定要計算的相關類型(“pearson”、“kendall” 或 “spearman” )。現(xiàn)在對兩個變量進行相關性系數(shù)進行檢驗。
cor.test(states[,3], states[,5])
但是,cor.test()每次只能檢驗一種相關關系。要想一次性檢驗多種的相關系數(shù)檢驗,可以使用psych包中提供的
corr.test()函數(shù)。corr.test()函數(shù)可以為Pearson、Spearman或Kendall相關計算相關矩陣和顯著性水平。
參數(shù)use=的取值可為"pairwise"或"complete",它們分別表示對缺失值執(zhí)行成對刪除或行刪除。參數(shù)method=的取值可為"pearson"(默認值)、“spearman"或"kendall”。
來自《R語言實戰(zhàn)第二版》,僅為記錄自己的學習筆記。不做其他的。
總結(jié)
- 上一篇: 智慧公寓管理系统解决方案
- 下一篇: 北京工业大学 大一C语言课程设计--四子