日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

UA MATH571A R语言回归分析实践 多元回归1 医疗费用的决定

發(fā)布時(shí)間:2025/4/14 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 UA MATH571A R语言回归分析实践 多元回归1 医疗费用的决定 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

UA MATH571A R語(yǔ)言回歸分析實(shí)踐 多元回歸1 醫(yī)療費(fèi)用

  • 基礎(chǔ)回歸分析

這一講開(kāi)始討論多元回歸,這里選擇的例子是尋找家庭醫(yī)療費(fèi)用的決定因素。家庭醫(yī)療費(fèi)用由哪些因素決定是衛(wèi)生經(jīng)濟(jì)學(xué)、保險(xiǎn)精算等領(lǐng)域共同關(guān)注的問(wèn)題之一,它對(duì)于醫(yī)療收費(fèi)與補(bǔ)貼政策的制定、健康醫(yī)療保險(xiǎn)保費(fèi)厘定等具有重要指導(dǎo)意義。這個(gè)例子的數(shù)據(jù)我上傳資源了,如果需要可以自行下載。

先來(lái)看看數(shù)據(jù)大概什么樣子

我們關(guān)注的被解釋變量是charges,這個(gè)就是是家庭醫(yī)療費(fèi)用(用YYY表示),它是一個(gè)quantitative variable,也就是數(shù)值型變量;年齡age、性別sex、體質(zhì)比BMI、children、smoker、地區(qū)region是解釋變量(分別用X1,X2,?,X6X_1,X_2,\cdots,X_6X1?,X2?,?,X6?表示)。其中sex、smoker和region是categorical variable或者qualitative variable,也就是類型變量,他們的值只是表示屬于某個(gè)類型,沒(méi)有數(shù)值上的含義。Smoker指的是個(gè)體是否吸煙、children指的是有幾個(gè)小孩。

基礎(chǔ)回歸分析

根據(jù)這些變量,我們可以構(gòu)建一個(gè)baseline
Y=β0+β1X1+β2X2+β3X3+β4X4+β5X5+β6X6+?Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + \beta_4 X_4+ \beta_5 X_5+ \beta_6 X_6+\epsilon Y=β0?+β1?X1?+β2?X2?+β3?X3?+β4?X4?+β5?X5?+β6?X6?+?
基于這六個(gè)解釋變量可以構(gòu)建的最簡(jiǎn)單額度多元回歸模型就是這個(gè),我們先用這個(gè)模型進(jìn)行一些簡(jiǎn)單的分析,然后和我們?cè)谝辉貧w里面做的一樣,我們看看模型的解釋力如何,做一下模型診斷卡看看能不能提高解釋力;和一元回歸不一樣的是,在多元回歸中,我們需要探索是不是每個(gè)解釋變量都有很高的解釋力,都應(yīng)該加入模型中?是不是需要考慮高階項(xiàng)或者交互項(xiàng)?有沒(méi)有可能找到一個(gè)解釋力最強(qiáng)的模型?但在做更深入探索之前,我們需要先分析最簡(jiǎn)單的這個(gè)回歸,以確保這個(gè)問(wèn)題和這些數(shù)據(jù)是值得去深挖的。

首先讀取數(shù)據(jù),read.csv和setwd的注意事項(xiàng)和一元回歸一樣。

setwd("D:/Stat PhD/taking course/summer1/ref/regression") Data <- read.csv("insurance.csv", header = TRUE, sep = ",", quote = "\"",dec = ".", fill = TRUE, comment.char = "") Age <- as.numeric(Data[,1]) Sex <- as.numeric(Data[,2]) BMI <- as.numeric(Data[,3]) Chil <- as.numeric(Data[,4]) Smoke <- as.numeric(Data[,5]) Region <- as.numeric(Data[,6]) Y <- as.numeric(Data[,7])

然后也是用lm函數(shù)來(lái)做多元回歸,lm的輸入叫公式,這個(gè)輸入的含義是用Age、Sex、BMI、Children、Smoker、Region來(lái)回歸Y,每個(gè)變量中間用加號(hào)連接,把估計(jì)好的模型對(duì)象賦值給mreg01.lm然后輸出它的總結(jié)信息

> mreg01.lm <- lm(Y~ Age+Sex+BMI+Chil+Smoke+Region) > summary(mreg01.lm)Call: lm(formula = Y ~ Age + Sex + BMI + Chil + Smoke + Region)Residuals:Min 1Q Median 3Q Max -11434.4 -2813.8 -969.4 1379.1 29678.6 Coefficients:Estimate Std. Error t value Pr(>|t|) (Intercept) -13253.55 1109.70 -11.943 < 2e-16 *** Age 257.44 11.89 21.653 < 2e-16 *** Sex -129.96 332.94 -0.390 0.696353 BMI 330.51 27.66 11.950 < 2e-16 *** Chil 477.08 137.69 3.465 0.000547 *** Smoke 23821.46 412.00 57.819 < 2e-16 *** Region 428.58 204.62 2.095 0.036399 * --- Signif. codes: 0***0.001**0.01*0.05.0.1 ‘ ’ 1Residual standard error: 6062 on 1331 degrees of freedom Multiple R-squared: 0.7505, Adjusted R-squared: 0.7494 F-statistic: 667.4 on 6 and 1331 DF, p-value: < 2.2e-16

Call后面的是lm函數(shù)執(zhí)行的公式,residuals后面的是殘差的描述性統(tǒng)計(jì)。簡(jiǎn)單看一下系數(shù),發(fā)現(xiàn)年齡、BMI、家里小孩數(shù)量、是不是抽煙對(duì)家庭醫(yī)療費(fèi)用支出是具有顯著的正向效應(yīng)的。給定其他條件不變、年齡越大,醫(yī)療費(fèi)用會(huì)越高;家里小孩越多,醫(yī)療費(fèi)用會(huì)越高;抽煙的人醫(yī)療費(fèi)用顯著地更高,這三個(gè)結(jié)論都非常符合直覺(jué)。給定其他條件不變,BMI越大,說(shuō)明個(gè)體越胖,肥胖者的確是更容易患心腦血管疾病,所以BMI越大醫(yī)療費(fèi)用越高也可以理解。性別對(duì)醫(yī)療費(fèi)用的影響不顯著。地區(qū)在0.05的顯著性水平下也是顯著的,因?yàn)檫@個(gè)是美國(guó)的數(shù)據(jù),所以大概就是說(shuō)醫(yī)療費(fèi)用平均是西南<東南<東北<西北。

倒數(shù)第三行是殘差的標(biāo)準(zhǔn)誤和自由度,倒數(shù)第二行是R方和調(diào)整后的R方,第一個(gè)R方說(shuō)明這個(gè)多元線性回歸模型能夠解釋75.05%的醫(yī)療費(fèi)用的變化,第二個(gè)R方和第一個(gè)R方非常接近,說(shuō)明這個(gè)模型過(guò)擬合的風(fēng)險(xiǎn)非常低,這兩個(gè)R方共同說(shuō)明多元線性回歸對(duì)家庭醫(yī)療費(fèi)用的解釋力是比較強(qiáng)的。倒數(shù)一行是對(duì)模型整體的F檢驗(yàn),原假設(shè)是所有的系數(shù)β0,?,β6\beta_0,\cdots,\beta_6β0?,?,β6?都是0,因?yàn)閜值非常小,我們課很自信地拒絕原假設(shè),認(rèn)可這個(gè)模型的解釋力。

下面用ANOVA來(lái)更細(xì)致地看看F檢驗(yàn)具體是怎么來(lái)的,與一元回歸一致,把模型對(duì)象輸入給anova函數(shù)就好:

> anova(mreg01.lm) Analysis of Variance TableResponse: YDf Sum Sq Mean Sq F value Pr(>F) Age 1 1.7530e+10 1.7530e+10 477.0365 < 2.2e-16 *** Sex 1 7.9167e+08 7.9167e+08 21.5430 3.801e-06 *** BMI 1 5.2576e+09 5.2576e+09 143.0724 < 2.2e-16 *** Chil 1 5.5111e+08 5.5111e+08 14.9970 0.0001129 *** Smoke 1 1.2287e+11 1.2287e+11 3343.5902 < 2.2e-16 *** Region 1 1.6122e+08 1.6122e+08 4.3872 0.0363993 * Residuals 1331 4.8912e+10 3.6748e+07 --- Signif. codes: 0***0.001**0.01*0.05.0.1 ‘ ’ 1

第一列是自由度的分配,一共有1338個(gè)樣本,所以是1337個(gè)自由度,每個(gè)解釋變量占一個(gè),所以回歸模型占6個(gè)自由度,殘差占剩下1331個(gè)自由度。第二列是平方和的分解,我們可以看到抽煙與否、年齡、BMI這三個(gè)因素占了最多的平方和,說(shuō)明他們具有最多與醫(yī)療費(fèi)用相關(guān)的信息,這和回歸系數(shù)告訴我們的信息是一致的。第四列的F是對(duì)單個(gè)系數(shù)的做的F檢驗(yàn)的統(tǒng)計(jì)量,與t檢驗(yàn)的結(jié)果有區(qū)別的只有sex,因?yàn)闅埐畹淖杂啥仁潜容^大的所以相對(duì)而言殘差的均方和比較少,系數(shù)F檢驗(yàn)要顯著要求分到的平方和就不用那么多,sex的F檢驗(yàn)就很神奇的顯著了。因?yàn)閟ex系數(shù)估計(jì)量的標(biāo)準(zhǔn)誤比較大,所以t檢驗(yàn)不能得出它的系數(shù)顯著異于0。把這6個(gè)對(duì)單個(gè)系數(shù)簡(jiǎn)單的F加起來(lái)就是回歸里面那個(gè)對(duì)全模型做的F檢驗(yàn)的F統(tǒng)計(jì)量。

因?yàn)殛P(guān)于性別出現(xiàn)了一些不一致的地方,需要更細(xì)致地考慮一下它的系數(shù)是不是真的顯著異于0的,這里用兩個(gè)思路,分別用序貫ANOVA和廣義線性檢驗(yàn)法,前者檢驗(yàn)在有了其他五個(gè)解釋變量后,性別這個(gè)變量還值不值得加;后者是對(duì)性別的系數(shù)是否為0的檢驗(yàn)。先做一下序貫ANOVA,

> mreg02.lm <- lm(Y~ Age+BMI+Chil+Smoke+Region+Sex) > anova(mreg02.lm) Analysis of Variance TableResponse: YDf Sum Sq Mean Sq F value Pr(>F) Age 1 1.7530e+10 1.7530e+10 477.0365 < 2.2e-16 *** BMI 1 5.4464e+09 5.4464e+09 148.2103 < 2.2e-16 *** Chil 1 5.7152e+08 5.7152e+08 15.5523 8.443e-05 *** Smoke 1 1.2345e+11 1.2345e+11 3359.2908 < 2.2e-16 *** Region 1 1.6111e+08 1.6111e+08 4.3841 0.03646 * Sex 1 5.5989e+06 5.5989e+06 0.1524 0.69635 Residuals 1331 4.8912e+10 3.6748e+07 --- Signif. codes: 0***0.001**0.01*0.05.0.1 ‘ ’ 1

這里就不得不提一下lm的輸入公式的隱藏功能,Y~后面跟的解釋變量的順序其實(shí)就是解釋變量進(jìn)入模型的順序,第一個(gè)是Age說(shuō)明Age先進(jìn)入模型,前五個(gè)的順序我們不關(guān)心,但最后一個(gè)一定要是性別,這樣估計(jì)出來(lái)的模型對(duì)象輸入到anova中得到的關(guān)于性別的分析就是在有了其他五個(gè)解釋變量后再把性別加入模型的。我們可以看到,當(dāng)性別最后進(jìn)入模型時(shí),它的平方和就遠(yuǎn)遠(yuǎn)不如它第二個(gè)進(jìn)入模型的情況了,說(shuō)明如果有了其他五個(gè)解釋變量,性別的效應(yīng)的確是不會(huì)顯著異于0的。

接下來(lái)不考慮序貫的情況,因?yàn)樾蜇灥母杏X(jué)還是有點(diǎn)欺負(fù)最后進(jìn)入模型的解釋變量。我們用廣義線性檢驗(yàn)的思路,假設(shè)性別的效應(yīng)為0,那么去掉性別,用其他五個(gè)解釋變量估計(jì)一個(gè)reduced model,模型對(duì)象賦值給Rreg01.lm,用這個(gè)和full model的對(duì)象,也就是mreg01.lm做ANOVA,reduced在前,full在后這樣輸入,可以看到這個(gè)檢驗(yàn)的p值就和baseline里面的t檢驗(yàn)的p值一樣了,說(shuō)明性別這個(gè)變量的價(jià)值可能真的是不大的。

> Rreg01.lm <- lm(Y~ Age+BMI+Chil+Smoke+Region) > anova(Rreg01.lm,mreg01.lm) Analysis of Variance TableModel 1: Y ~ Age + BMI + Chil + Smoke + Region Model 2: Y ~ Age + Sex + BMI + Chil + Smoke + RegionRes.Df RSS Df Sum of Sq F Pr(>F) 1 1332 4.8917e+10 2 1331 4.8912e+10 1 5598924 0.1524 0.6964

總結(jié)

以上是生活随笔為你收集整理的UA MATH571A R语言回归分析实践 多元回归1 医疗费用的决定的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。