日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

r语言 回归分析 分类变量_R语言 | 回归分析(二)

發(fā)布時(shí)間:2023/12/15 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 r语言 回归分析 分类变量_R语言 | 回归分析(二) 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

R語(yǔ)言

語(yǔ)言學(xué)與R語(yǔ)言的碰撞

Xu & Yang

PhoneticSan

學(xué)習(xí)參考

Discovering Statistics Using R

Statistics for Linguistics with R

How to Do Linguistics with R

R in Action

Analyzing Linguistic Data

R Graphics Cookbook

··· ···

Recap

  • 相關(guān)是用來(lái)描述和測(cè)量?jī)蓚€(gè)變量之間關(guān)系的統(tǒng)計(jì)分析方法,很多情況下是對(duì)沒(méi)有控制或操縱情況下變量的觀察。

  • 根據(jù)關(guān)系的方向,相關(guān)可以分為正相關(guān)和負(fù)相關(guān)兩種類(lèi)型。以此,我們可以繪制出一條直線來(lái)預(yù)測(cè)。

  • 一個(gè)簡(jiǎn)單的線性回歸由斜率和截距組成,記為Yi?= b0?+?b1Xi?+?εi,其中b0和b1被稱為回歸系數(shù),εi被稱為殘差,是觀測(cè)到的數(shù)據(jù)到回歸線的距離。

  • 使用R2可以判斷線性回歸模型的擬合優(yōu)度,范圍在[0,1]浮動(dòng),越接近1說(shuō)明擬合程度越好。

  • 在R中使用lm( )函數(shù)可以實(shí)現(xiàn)回歸分析的建模,完成建模后使用summary( )函數(shù)查看建模結(jié)果,并使用anova( )函數(shù)與base model (null model)比較,如果有顯著性差異,說(shuō)明我們添加的因素對(duì)因變量有影響。

  • R: The R Project for Statistical Computing

    https://www.r-project.org/

    RStudio:

    https://rstudio.com/

    R Project

    Linguistics

    1

    ?線性回歸的假設(shè)

    上一期我們介紹了最基礎(chǔ)的線性回歸方式,并了解到了lm( )函數(shù)的使用方法。通過(guò)寫(xiě)相關(guān)代碼我們了解到,線性回歸分析本質(zhì)上是不斷添加參數(shù)以和無(wú)參數(shù)的null model (base model)進(jìn)行比較,從而檢驗(yàn)自變量是否對(duì)因變量有影響。與其他假設(shè)檢驗(yàn)一樣,當(dāng)你在進(jìn)行線性回歸分析前,要注意它們能順利進(jìn)行的三個(gè)前提假設(shè),包括線性(linearity)、殘差正態(tài)性(normality of residuals)、殘差的方差齊性(homoscedasticity of residuals),下面我們對(duì)這三個(gè)方面進(jìn)行解釋。

    線性回歸分析的三個(gè)假設(shè)

    首先是線性,實(shí)際上這個(gè)問(wèn)題我們?cè)谇懊嬉蔡岬竭^(guò),也很顯而易見(jiàn):「線性」回歸分析,如果變量之間的相關(guān)性不是線性的,你就不能使用線性回歸分析了。這個(gè)假設(shè)不需要額外地檢驗(yàn),在我們進(jìn)行線性回歸模型擬合的時(shí)候,采用了R2來(lái)判斷擬合優(yōu)度。如果R2接近0,說(shuō)明我們的擬合并不好,也側(cè)面說(shuō)明我們的數(shù)據(jù)并不是線性相關(guān)。

    線性回歸要求必須線性相關(guān)

    第二個(gè)要求是殘差正態(tài)性,即殘差的分布必須服從正態(tài)分布。需要注意的是,這里的正態(tài)分布要求不是數(shù)據(jù)本身,而是殘差。如何得到殘差?我們不需要進(jìn)行計(jì)算,在使用lm( )函數(shù)的過(guò)程中,R就已經(jīng)為我們計(jì)算好了殘差,只要直接調(diào)用即可。檢驗(yàn)正態(tài)分布的方法與之前提到的一樣,使用Q-Q圖或者shapiro.test( )函數(shù)都可以。我們以上一期的english數(shù)據(jù)為例,回顧一下建模過(guò)程。

    # 加載languageR包library(languageR)# 建立線性回歸模型eng.m data=english)# QQ圖檢驗(yàn)正態(tài)分布qqnorm(eng.m$residuals)# Shapiro-Wilk檢驗(yàn)shapiro.test(eng.m$residuals)

    正態(tài)分布檢驗(yàn)示意

    最后是殘差的方差齊性。可能很多人會(huì)疑問(wèn),我們的回歸分析大部分一個(gè)自變量只對(duì)應(yīng)一個(gè)因變量,怎么計(jì)算方差?要注意,我們這里提到的方差齊性,指的是「殘差」而不是原始數(shù)據(jù)。如果以殘差為縱坐標(biāo),自變量為橫坐標(biāo)繪制散點(diǎn)圖,它的分散比較均勻,殘差沒(méi)有出現(xiàn)隨著自變量的變化而變化,那么說(shuō)明方差是齊性的。反之,則說(shuō)明反差的方差不是齊性的。

    殘差的方差齊性

    如何檢驗(yàn)回歸分析中殘差的方差齊性?我們可以借用car包中的ncvTest( )函數(shù)或spreadLevelPlot( )函數(shù)進(jìn)行檢驗(yàn),前者與shapiro.test( )函數(shù)一樣,直接輸出結(jié)果,如果出現(xiàn)顯著性差異,則說(shuō)明方差不是齊性的。后者則與Q-Q圖一樣會(huì)輸出最佳擬合曲線的擬合值與殘差絕對(duì)值的散點(diǎn)圖,如果點(diǎn)沒(méi)有均勻分布在水平線上下,則說(shuō)明方差不是齊性的。我們以eng.m為例,那么如下:

    # 加載car包library(car)# 使用ncvTest函數(shù)檢驗(yàn)方差齊性ncvTest(eng.m)# 使用spreadLevelPlot檢驗(yàn)方差齊性spreadLevelPlot(eng.m)

    通過(guò)檢驗(yàn)結(jié)果可以看到,我們上次的數(shù)據(jù)并不具有方差齊性,因此我們需要考慮不能使用線性回歸分析進(jìn)行檢驗(yàn)。

    方差齊性檢驗(yàn)

    綜上所述,在進(jìn)行線性回歸分析的時(shí)候,我們主要的步驟是:建立線性回歸模型,查驗(yàn)?zāi)P褪欠穹先齻€(gè)前提假設(shè);創(chuàng)建null model;對(duì)兩個(gè)模型進(jìn)行假設(shè)檢驗(yàn)。

    線性回歸分析基本步驟

    現(xiàn)在,我們了解了最基礎(chǔ)的線性回歸分析方法。但是顯而易見(jiàn)的是,我們的語(yǔ)言研究中并不可能只有一個(gè)因素對(duì)因變量有影響,我們可以在有多個(gè)預(yù)測(cè)變量對(duì)情況下,對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行回歸分析嗎?答案是肯定的,這時(shí)候我們需要采用的方法叫做多元回歸分析(multiple regression analysis)。

    R Project

    Linguistics

    2

    ?多元回歸分析

    在面對(duì)多于一個(gè)預(yù)測(cè)變量的情況下,我們使用的方法被稱作多元回歸分析。它與簡(jiǎn)單的線性回歸分析原理是一樣的,不同之處在于,對(duì)于每一個(gè)額外的(多出來(lái)的)預(yù)測(cè)變量,我們都要賦予它們一個(gè)相關(guān)系數(shù)。那么,我們可以一直加需要的相關(guān)系數(shù),那么我們的多元回歸分析的基本公式則是Y = b0+ b1X1+ b2X2+ ... + bnXn+ ε,每一個(gè)系數(shù)表示其對(duì)應(yīng)的預(yù)測(cè)變量對(duì)因變量的影響,表現(xiàn)在圖上就是斜率的大小。

    多元回歸分析示意(兩個(gè)預(yù)測(cè)變量)

    多元回歸分析所使用的函數(shù)依舊是lm( )函數(shù),我們繼續(xù)以languageR包中的english數(shù)據(jù)為例。上期我們考察了閱讀時(shí)間RTlexdec和書(shū)寫(xiě)頻率WrittenFrequency之間的關(guān)系,假設(shè)我們認(rèn)為L(zhǎng)engthInLetters這一列的數(shù)據(jù)對(duì)RTlexdec可能也有影響,那么我們就直接使用?把這個(gè)因素加在后面即可,表示我要考慮該因素。為了進(jìn)行比較,我們把null model、一個(gè)預(yù)測(cè)變量的模型、兩個(gè)預(yù)測(cè)變量的模型如下展示。

    eng.base 1, eng.m.1 data=english)eng.m.2 data=english)

    進(jìn)行擬合后,要記得查看擬合優(yōu)度。這里我們假設(shè)擬合很不錯(cuò),我們的下一步就是進(jìn)行檢驗(yàn)分析,查看預(yù)測(cè)變量對(duì)因變量是否有影響。我們分為自下而上(bottom-up)和自上而下(top-bottom)兩種方式,前者是先將簡(jiǎn)單的擬合模型進(jìn)行比較,慢慢加預(yù)測(cè)變量,而后者與之相反,率先從最復(fù)雜的模型開(kāi)始。我們以自下而上的方式為例,首先比較eng.base和eng.m.1,出現(xiàn)了顯著性差異,說(shuō)明第一個(gè)預(yù)測(cè)變量WrittenFrequency對(duì)RTlexdec有顯著影響。接著我們繼續(xù)加一個(gè)預(yù)測(cè)變量,比較eng.m.1和eng.m.2,發(fā)現(xiàn)并沒(méi)有出現(xiàn)顯著性差異,這說(shuō)明第二個(gè)預(yù)測(cè)變量對(duì)因變量沒(méi)有出現(xiàn)影響。我們也可以直接把它們放在一起,即anova(eng.base, eng.m.1, eng.m.1)也是可以的。

    多元回歸的分析檢驗(yàn)

    最后,我們需要指出,既然出現(xiàn)了多個(gè)變量,那么我們就要考慮主效應(yīng)和交互效應(yīng)的問(wèn)題。如何把兩個(gè)預(yù)測(cè)變量的交互效應(yīng)考慮進(jìn)多元回歸分析中?以english為例,我們可以這樣進(jìn)行建模。

    eng.m.3 <- lm(RTlexdec ~ WrittenFrequency + LengthInLetters + WrittenFrequency : LengthInLetters, data = english)

    其中的WrittenFrequency : LengthInLetters意味著我們考察的是它們的交互效應(yīng)。建立好模型后,繼續(xù)使用anova( )分析結(jié)果,有沒(méi)有顯著性差異呢?這里就留待你自己運(yùn)行代碼查看了。

    之前我們談到的所有預(yù)測(cè)變量,全部是連續(xù)型預(yù)測(cè)變量,而有一些研究涉及到的是分類(lèi)型變量。比如,動(dòng)詞詞組或名詞詞組這樣的短語(yǔ)類(lèi)型對(duì)閱讀時(shí)長(zhǎng)的影響,這時(shí)候我們的預(yù)測(cè)變量則變成了分類(lèi)型,還可以繼續(xù)使用回歸分析嗎?如果輸出結(jié)果是分類(lèi)型變量,也可以回歸分析嗎?答案是可以。這一期講了很多,所以這些問(wèn)題留待下一期進(jìn)行詳細(xì)解釋。

    —END—

    排版:Xu & Yang

    總結(jié)

    以上是生活随笔為你收集整理的r语言 回归分析 分类变量_R语言 | 回归分析(二)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。