當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

r 函数返回多个值_第四讲 R描述性统计分析

發(fā)布時間：2025/3/11 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了 r 函数返回多个值_第四讲 R描述性统计分析小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

在“R與生物統(tǒng)計專題”中，我們會從介紹R的基本知識展開到生物統(tǒng)計原理及其在R中的實現(xiàn)。以從淺入深，層層遞進(jìn)的形式在投必得醫(yī)學(xué)公眾號更新。

在上一講中，我們介紹了第三講 R編程基礎(chǔ)-矩陣和數(shù)據(jù)框?(戳這里即可跳轉(zhuǎn))。到現(xiàn)在為止，大家已經(jīng)學(xué)完了R語言的基礎(chǔ)知識，馬上就開始進(jìn)階地學(xué)習(xí)一些R語言相關(guān)的統(tǒng)計學(xué)技能了。

今天的更新，我們會帶您學(xué)習(xí)R的基本統(tǒng)計學(xué)技能：描述性統(tǒng)計分析。

1. 將數(shù)據(jù)導(dǎo)入R

1.1 準(zhǔn)備好你的數(shù)據(jù)命名約定

避免名稱帶有空格。

? ????? 好的列名：patient_age或patient.age。

? ??????列名錯誤：patient age。

避免使用帶有特殊符號的名稱：？，$，*，+，＃，(，)，-，/，}，{，|，>，
避免以數(shù)字開頭的變量名。請改用字母。
好的列名稱：patient_1st_meal或x1st_meal。
列名錯誤：1st_male
列名必須是唯一的。不允許重復(fù)的名稱。
R區(qū)分大小寫。這意味著名稱不同于名稱或名稱。
避免數(shù)據(jù)中出現(xiàn)空白行。
刪除文件中的任何評論。
用NA替換缺少的值(不可用)。
如果你有包含日期的列，請使用四位數(shù)格式。
格式良好：20160101。
格式錯誤：01/01/16

1.2 將數(shù)據(jù)保存在外部.txt標(biāo)簽或.csv文件中1.3 如下將數(shù)據(jù)導(dǎo)入R# 對于.txt文件my_data # 對于.csv文件my_data

在這里，我們將使用名為iris的內(nèi)置R數(shù)據(jù)集。

# 導(dǎo)入R內(nèi)自帶的iris數(shù)據(jù)集library(datasets)data(iris)# 將數(shù)據(jù)存儲在變量my_data中my_data 1.3 檢查數(shù)據(jù)

你可以使用head()和tails()函數(shù)檢查數(shù)據(jù)，這將分別顯示數(shù)據(jù)的第一部分和最后一部分。

# 顯示前六行內(nèi)容head(my_data, 6)

輸出結(jié)果如下

Sepal.Length?Sepal.Width?Petal.Length?Petal.Width?Species

1??????????5.1?????????3.5??????????1.4?????? 0.2??setosa

2??????????4.9?????????3.0??????????1.4???????0.2??setosa

3??????????4.7?????????3.2??????????1.3?????? 0.2??setosa

4??????????4.6?????????3.1??????????1.5???? ? 0.2??setosa

5??????????5.0?????????3.6??????????1.4???? ? 0.2??setosa

6??????????5.4?????????3.9??????????1.7?????? 0.4??setosa

2.?常用的描述性統(tǒng)計的R函數(shù)

一些用于計算描述性統(tǒng)計量的R函數(shù)：

??R函數(shù)?

3. 單個組的描述性統(tǒng)計

3.1 集中趨勢的度量：均值，中位數(shù)，眾數(shù)

粗略地說，集中趨勢衡量的是數(shù)據(jù)的“平均”或“中間”。最常用的衡量指標(biāo)包括：

集中趨勢

平均值：平均值。它對異常值很敏感。

中位數(shù)：中間值。這是一個強有力的替代手段。

眾數(shù)：最頻繁出現(xiàn)的值

在R中

函數(shù)mean()和median()可以分別計算平均值和中位數(shù)；

# 計算平均值mean(my_data$Sepal.Length)

[1] 5.843333

# 計算中位數(shù)median(my_data$Sepal.Length)

[1] 5.8

3.2 可變性的度量

可變性度量給出了數(shù)據(jù)“分散”的程度。

范圍

極值：最小值和最大值

范圍：最大值減去最小值

# 計算最小值min(my_data$Sepal.Length)

[1] 4.3

# 計算最大值max(my_data$Sepal.Length)

[1] 7.9

# 范圍range(my_data$Sepal.Length)

[1] 4.3 7.9

四分位間距

四分位數(shù)將數(shù)據(jù)均勻分為4部分。四分位數(shù)間距(IQR)：對應(yīng)于第一和第三四分位數(shù)之間的差異-有時被用作標(biāo)準(zhǔn)偏差的可靠替代方案。

R功能：

quantile(x, probs = seq(0, 1, 0.25))

x：需要樣本分位數(shù)的數(shù)值向量。
probs：在[0,1]之間的概率數(shù)值向量。

例：

quantile(my_data$Sepal.Length)

0% ?25% ?50% ?75% 100%

4.3 ?5.1 ?5.8 ?6.4 ?7.9

# 計算十分位數(shù)(0.1，0.2，0.3，…，0.9)：quantile(my_data$Sepal.Length, seq(0, 1, 0.1))# 計算四分位間距：IQR(my_data$Sepal.Length)

[1] 1.3

方差和標(biāo)準(zhǔn)差

方差表示與均值的平均平方差之和。標(biāo)準(zhǔn)差是方差的平方根。它測量數(shù)據(jù)中數(shù)值與平均值的平均偏差。

# 計算方差var(my_data$Sepal.Length)# 計算標(biāo)準(zhǔn)差sd(my_data$Sepal.Length)絕對中位數(shù)

絕對中位數(shù)(Median absolute deviation,MAD)：數(shù)據(jù)中值與中值的偏差，即先計算出數(shù)據(jù)與它們的中位數(shù)之間的殘差(偏差)，MAD就是這些偏差的絕對值的中位數(shù)。

# 計算中位數(shù)median(my_data$Sepal.Length)# 計算絕對中位數(shù)mad(my_data$Sepal.Length)統(tǒng)計描述方式的選擇

范圍。它不經(jīng)常使用，因為它對異常值非常敏感。

四分位間距。對于異常值，它非常強大。它多與中位數(shù)結(jié)合使用。

方差。完全無法解釋的，因為它不使用與數(shù)據(jù)相同的單位。除了用作數(shù)學(xué)工具外，很少被使用。

標(biāo)準(zhǔn)偏差。方差的平方根。它以與數(shù)據(jù)相同的單位表示。在均值是集中趨勢的分布(多指正態(tài)分布)的情況下，通常使用標(biāo)準(zhǔn)偏差。

絕對中位數(shù)。對于具有離群值的數(shù)據(jù)，這是一種估算標(biāo)準(zhǔn)偏差的可靠方法。但是不經(jīng)常使用。
總而言之，四分位間距和標(biāo)準(zhǔn)差是用于報告數(shù)據(jù)變異性的兩種最常用的度量。

3.3 計算變量和整個數(shù)據(jù)框的整體摘要summary()函數(shù)

函數(shù)summary()可用于顯示一個變量或整個數(shù)據(jù)框的多個統(tǒng)計變量概況。

單個變量的概況。

返回六個值：平均值，中位數(shù)，第25和，75四分位數(shù)，最小值和最大值。

summary(my_data$Sepal.Length)

輸出結(jié)果如下:

Min. 1st Qu. Median Mean 3rd Qu. Max.4.300 5.100 5.800 5.843 6.400 7.900數(shù)據(jù)框概況。

在這種情況下，函數(shù)summary()將自動應(yīng)用于每列。結(jié)果的格式取決于列中包含的數(shù)據(jù)類型。例如：

如果列是數(shù)字變量，則返回均值，中位數(shù)，最小值，最大值和四分位數(shù)。
如果該列是一個因素變量(factor)，則返回每個組中的觀察數(shù)。

summary(my_data, digits = 1)

輸出結(jié)果如下:

Sepal.Length Sepal.Width Petal.Length Petal.Width SpeciesMin. :4 Min. :2 Min. :1 Min. :0.1 setosa :501st Qu.:5 1st Qu.:3 1st Qu.:2 1st Qu.:0.3 versicolor:50Median :6 Median :3 Median :4 Median :1.3 virginica :50Mean :6 Mean :3 Mean :4 Mean :1.23rd Qu.:6 3rd Qu.:3 3rd Qu.:5 3rd Qu.:1.8Max. :8 Max. :4 Max. :7 Max. :2.53.4 缺失值的情況Tips

當(dāng)數(shù)據(jù)包含缺失值時，即使僅缺少一個值，某些R函數(shù)也會返回錯誤或NA。

例如，即使向量中僅丟失一個值，mean()函數(shù)也將返回NA。使用參數(shù)na.rm = TRUE可以避免這種情況，該參數(shù)告訴函數(shù)在計算之前刪除所有NA。使用均值函數(shù)的示例如下：

mean(my_data$Sepal.Length, na.rm = TRUE)

好了，本期講解就先到這里。

在之后的更新中，我們會進(jìn)一步為您介紹R的入門，以及常用生物統(tǒng)計方法和R實現(xiàn)。歡迎關(guān)注，投必得醫(yī)學(xué)手把手帶您走入R和生物統(tǒng)計的世界。

提前打個預(yù)告，接下來我們要正式開始學(xué)習(xí)R語言的統(tǒng)計學(xué)技能啦，下一期將會更新“R的描述性統(tǒng)計分析”。喜歡的同學(xué)們快快關(guān)注起來吧。

第一講 R-基本介紹及安裝第二講 R-編程基礎(chǔ)-運算、數(shù)據(jù)類型和向量等基本介紹第三講 R編程基礎(chǔ)-矩陣和數(shù)據(jù)框

當(dāng)然啦，R語言的掌握是在長期訓(xùn)練中慢慢積累的。一個人學(xué)習(xí)太累，不妨加入“R與統(tǒng)計交流群”，和數(shù)百位碩博一起學(xué)習(xí)。

快掃二維碼撩客服，

帶你進(jìn)入投必得醫(yī)學(xué)交流群，

讓我們共同進(jìn)步！

↓↓

- END -

長按二維碼關(guān)注「投必得醫(yī)學(xué)」，更多科研干貨在等你！

麻煩點一下在看再走唄

總結(jié)

以上是生活随笔為你收集整理的r 函数返回多个值_第四讲 R描述性统计分析的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：前端网页广告无线翻滚_从小白到web前端
下一篇：电子科技大学2019年计算机复试分数线,

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

r 函数返回多个值_第四讲 R描述性统计分析

總結(jié)