當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

r语言回归分析分类变量_R语言 | 回归分析（二）

發(fā)布時(shí)間：2023/12/15 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了 r语言回归分析分类变量_R语言 | 回归分析（二）小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

R語言

語言學(xué)與R語言的碰撞

Xu & Yang

PhoneticSan

學(xué)習(xí)參考

Discovering Statistics Using R

Statistics for Linguistics with R

How to Do Linguistics with R

R in Action

Analyzing Linguistic Data

R Graphics Cookbook

··· ···

Recap

相關(guān)是用來描述和測量兩個(gè)變量之間關(guān)系的統(tǒng)計(jì)分析方法，很多情況下是對沒有控制或操縱情況下變量的觀察。

根據(jù)關(guān)系的方向，相關(guān)可以分為正相關(guān)和負(fù)相關(guān)兩種類型。以此，我們可以繪制出一條直線來預(yù)測。

一個(gè)簡單的線性回歸由斜率和截距組成，記為Yi?= b0?+?b1Xi?+?εi,其中b0和b1被稱為回歸系數(shù)，εi被稱為殘差，是觀測到的數(shù)據(jù)到回歸線的距離。

使用R2可以判斷線性回歸模型的擬合優(yōu)度，范圍在[0,1]浮動(dòng)，越接近1說明擬合程度越好。

在R中使用lm( )函數(shù)可以實(shí)現(xiàn)回歸分析的建模，完成建模后使用summary( )函數(shù)查看建模結(jié)果，并使用anova( )函數(shù)與base model (null model)比較，如果有顯著性差異，說明我們添加的因素對因變量有影響。

R: The R Project for Statistical Computing

https://www.r-project.org/

RStudio:

https://rstudio.com/

R Project

Linguistics

?線性回歸的假設(shè)

上一期我們介紹了最基礎(chǔ)的線性回歸方式，并了解到了lm( )函數(shù)的使用方法。通過寫相關(guān)代碼我們了解到，線性回歸分析本質(zhì)上是不斷添加參數(shù)以和無參數(shù)的null model (base model)進(jìn)行比較，從而檢驗(yàn)自變量是否對因變量有影響。與其他假設(shè)檢驗(yàn)一樣，當(dāng)你在進(jìn)行線性回歸分析前，要注意它們能順利進(jìn)行的三個(gè)前提假設(shè)，包括線性(linearity)、殘差正態(tài)性(normality of residuals)、殘差的方差齊性(homoscedasticity of residuals)，下面我們對這三個(gè)方面進(jìn)行解釋。

線性回歸分析的三個(gè)假設(shè)

首先是線性，實(shí)際上這個(gè)問題我們在前面也提到過，也很顯而易見：「線性」回歸分析，如果變量之間的相關(guān)性不是線性的，你就不能使用線性回歸分析了。這個(gè)假設(shè)不需要額外地檢驗(yàn)，在我們進(jìn)行線性回歸模型擬合的時(shí)候，采用了R2來判斷擬合優(yōu)度。如果R2接近0，說明我們的擬合并不好，也側(cè)面說明我們的數(shù)據(jù)并不是線性相關(guān)。

線性回歸要求必須線性相關(guān)

第二個(gè)要求是殘差正態(tài)性，即殘差的分布必須服從正態(tài)分布。需要注意的是，這里的正態(tài)分布要求不是數(shù)據(jù)本身，而是殘差。如何得到殘差？我們不需要進(jìn)行計(jì)算，在使用lm( )函數(shù)的過程中，R就已經(jīng)為我們計(jì)算好了殘差，只要直接調(diào)用即可。檢驗(yàn)正態(tài)分布的方法與之前提到的一樣，使用Q-Q圖或者shapiro.test( )函數(shù)都可以。我們以上一期的english數(shù)據(jù)為例，回顧一下建模過程。

# 加載languageR包library(languageR)# 建立線性回歸模型eng.m data=english)# QQ圖檢驗(yàn)正態(tài)分布qqnorm(eng.m$residuals)# Shapiro-Wilk檢驗(yàn)shapiro.test(eng.m$residuals)

正態(tài)分布檢驗(yàn)示意

最后是殘差的方差齊性。可能很多人會(huì)疑問，我們的回歸分析大部分一個(gè)自變量只對應(yīng)一個(gè)因變量，怎么計(jì)算方差？要注意，我們這里提到的方差齊性，指的是「殘差」而不是原始數(shù)據(jù)。如果以殘差為縱坐標(biāo)，自變量為橫坐標(biāo)繪制散點(diǎn)圖，它的分散比較均勻，殘差沒有出現(xiàn)隨著自變量的變化而變化，那么說明方差是齊性的。反之，則說明反差的方差不是齊性的。

殘差的方差齊性

如何檢驗(yàn)回歸分析中殘差的方差齊性？我們可以借用car包中的ncvTest( )函數(shù)或spreadLevelPlot( )函數(shù)進(jìn)行檢驗(yàn)，前者與shapiro.test( )函數(shù)一樣，直接輸出結(jié)果，如果出現(xiàn)顯著性差異，則說明方差不是齊性的。后者則與Q-Q圖一樣會(huì)輸出最佳擬合曲線的擬合值與殘差絕對值的散點(diǎn)圖，如果點(diǎn)沒有均勻分布在水平線上下，則說明方差不是齊性的。我們以eng.m為例，那么如下：

# 加載car包library(car)# 使用ncvTest函數(shù)檢驗(yàn)方差齊性ncvTest(eng.m)# 使用spreadLevelPlot檢驗(yàn)方差齊性spreadLevelPlot(eng.m)

通過檢驗(yàn)結(jié)果可以看到，我們上次的數(shù)據(jù)并不具有方差齊性，因此我們需要考慮不能使用線性回歸分析進(jìn)行檢驗(yàn)。

方差齊性檢驗(yàn)

綜上所述，在進(jìn)行線性回歸分析的時(shí)候，我們主要的步驟是：建立線性回歸模型，查驗(yàn)?zāi)Ｐ褪欠穹先齻€(gè)前提假設(shè)；創(chuàng)建null model；對兩個(gè)模型進(jìn)行假設(shè)檢驗(yàn)。

線性回歸分析基本步驟

現(xiàn)在，我們了解了最基礎(chǔ)的線性回歸分析方法。但是顯而易見的是，我們的語言研究中并不可能只有一個(gè)因素對因變量有影響，我們可以在有多個(gè)預(yù)測變量對情況下，對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行回歸分析嗎？答案是肯定的，這時(shí)候我們需要采用的方法叫做多元回歸分析(multiple regression analysis)。

R Project

Linguistics

?多元回歸分析

在面對多于一個(gè)預(yù)測變量的情況下，我們使用的方法被稱作多元回歸分析。它與簡單的線性回歸分析原理是一樣的，不同之處在于，對于每一個(gè)額外的(多出來的)預(yù)測變量，我們都要賦予它們一個(gè)相關(guān)系數(shù)。那么，我們可以一直加需要的相關(guān)系數(shù)，那么我們的多元回歸分析的基本公式則是Y = b₀+ b₁X₁+ b₂X₂+ ... + b_nX_n+ ε，每一個(gè)系數(shù)表示其對應(yīng)的預(yù)測變量對因變量的影響，表現(xiàn)在圖上就是斜率的大小。

多元回歸分析示意(兩個(gè)預(yù)測變量)

多元回歸分析所使用的函數(shù)依舊是lm( )函數(shù)，我們繼續(xù)以languageR包中的english數(shù)據(jù)為例。上期我們考察了閱讀時(shí)間RTlexdec和書寫頻率WrittenFrequency之間的關(guān)系，假設(shè)我們認(rèn)為LengthInLetters這一列的數(shù)據(jù)對RTlexdec可能也有影響，那么我們就直接使用?把這個(gè)因素加在后面即可，表示我要考慮該因素。為了進(jìn)行比較，我們把null model、一個(gè)預(yù)測變量的模型、兩個(gè)預(yù)測變量的模型如下展示。

eng.base 1, eng.m.1 data=english)eng.m.2 data=english)

進(jìn)行擬合后，要記得查看擬合優(yōu)度。這里我們假設(shè)擬合很不錯(cuò)，我們的下一步就是進(jìn)行檢驗(yàn)分析，查看預(yù)測變量對因變量是否有影響。我們分為自下而上(bottom-up)和自上而下(top-bottom)兩種方式，前者是先將簡單的擬合模型進(jìn)行比較，慢慢加預(yù)測變量，而后者與之相反，率先從最復(fù)雜的模型開始。我們以自下而上的方式為例，首先比較eng.base和eng.m.1，出現(xiàn)了顯著性差異，說明第一個(gè)預(yù)測變量WrittenFrequency對RTlexdec有顯著影響。接著我們繼續(xù)加一個(gè)預(yù)測變量，比較eng.m.1和eng.m.2，發(fā)現(xiàn)并沒有出現(xiàn)顯著性差異，這說明第二個(gè)預(yù)測變量對因變量沒有出現(xiàn)影響。我們也可以直接把它們放在一起，即anova(eng.base, eng.m.1, eng.m.1)也是可以的。

多元回歸的分析檢驗(yàn)

最后，我們需要指出，既然出現(xiàn)了多個(gè)變量，那么我們就要考慮主效應(yīng)和交互效應(yīng)的問題。如何把兩個(gè)預(yù)測變量的交互效應(yīng)考慮進(jìn)多元回歸分析中？以english為例，我們可以這樣進(jìn)行建模。

eng.m.3 <- lm(RTlexdec ~ WrittenFrequency + LengthInLetters + WrittenFrequency : LengthInLetters, data = english)

其中的WrittenFrequency : LengthInLetters意味著我們考察的是它們的交互效應(yīng)。建立好模型后，繼續(xù)使用anova( )分析結(jié)果，有沒有顯著性差異呢？這里就留待你自己運(yùn)行代碼查看了。

之前我們談到的所有預(yù)測變量，全部是連續(xù)型預(yù)測變量，而有一些研究涉及到的是分類型變量。比如，動(dòng)詞詞組或名詞詞組這樣的短語類型對閱讀時(shí)長的影響，這時(shí)候我們的預(yù)測變量則變成了分類型，還可以繼續(xù)使用回歸分析嗎？如果輸出結(jié)果是分類型變量，也可以回歸分析嗎？答案是可以。這一期講了很多，所以這些問題留待下一期進(jìn)行詳細(xì)解釋。

—END—

排版：Xu & Yang

總結(jié)

以上是生活随笔為你收集整理的r语言回归分析分类变量_R语言 | 回归分析（二）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：深圳买车上牌流程
下一篇： easyuefi只能在基于uefi启动的

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

r语言 回归分析 分类变量_R语言 | 回归分析（二）

總結(jié)

r语言回归分析分类变量_R语言 | 回归分析（二）