SPSS教程:手把手教你设置哑变量以及解读结果
今天我們將結(jié)合SPSS軟件,向大家介紹在回歸模型中何如實(shí)現(xiàn)啞變量的設(shè)置,并對(duì)引入啞變量后的模型結(jié)果進(jìn)行解讀。
Logistic /Cox回歸
在SPSS中,Logistic回歸和Cox回歸設(shè)置啞變量的方式是一致的,因此本文以Logistic回歸為例進(jìn)行說明。
一、研究實(shí)例
某研究人員擬探討不同種族人群中某疾病發(fā)病風(fēng)險(xiǎn)有無差異,收集了4種不同種族人群的相關(guān)數(shù)據(jù)資料(1=Black美國(guó)黑人,2=White美國(guó)白人,3=Indian美國(guó)印第安人,4=Asian亞裔美國(guó)人)。
根據(jù)數(shù)據(jù)類型判斷,種族為無序多分類資料,需要將種族轉(zhuǎn)化為啞變量后,進(jìn)行Logistic回歸。
二、SPSS操作
1. Analyze → Regression → Binary Logistic,進(jìn)入到Logistic回歸模塊
?
?
2. 將Event選入Dependent框中,將Gender、Age、Race選入Covariates框中
?
?
3. 點(diǎn)擊Categorical進(jìn)入定義分類變量的對(duì)話框,將需要轉(zhuǎn)化的變量Race選入Categorical Covariates框中,點(diǎn)擊Contrast旁的下拉框選擇Indicator,Reference Category設(shè)置為First,即設(shè)定第一個(gè)分類為參照。
在本次研究中,Race=1為黑人,即我們選擇黑人作為參照。最后再點(diǎn)擊Change確認(rèn)更改為Race(Indicator(first))。
?
?
?
在選擇啞變量編碼方式時(shí),Contrast下拉選項(xiàng)一共提供了7種編碼方式:
(1)?Indicator(指示對(duì)比):用于指定某一分類為參照,指定的參照取決于Reference Category中選擇Last還是First,即只能以該變量的第一類或者最后一類作為參照。Indicator為默認(rèn)方法,也是我們最常用的設(shè)置參照類的方法。
(2)?Simple(簡(jiǎn)單對(duì)比): Simple和Indicator兩個(gè)方法雖然參數(shù)編碼不同,但其實(shí)質(zhì)是一樣的,均為各分類分別與參照進(jìn)行相比。
(3)?Difference(差異對(duì)比):即該分類變量的某個(gè)分類,與前面所有分類的平均值進(jìn)行比較,此法與Helmert法相反,因此也叫做反Helmert法。此選項(xiàng)常用于有序分類變量。
(4)?Helmert(赫爾默特對(duì)比):即該分類變量的某個(gè)分類,與其后面所有分類的平均值進(jìn)行比較,同樣也適用于有序分類變量。
(5)?Repeated(重復(fù)對(duì)比):即該分類變量的各個(gè)分類,均與前面相鄰的一個(gè)分類進(jìn)行比較,此時(shí)前一分類為參照。
(6)?Polynomial(多項(xiàng)式對(duì)比):它假設(shè)各個(gè)分類間隔是等距的,只能用于數(shù)值型的變量。(注意:如果此時(shí)原始變量為字符型,例如A、B、C、D,在SPSS中使用該方法時(shí)它會(huì)提示Polynomial contrasts may not be specified for string variables。而對(duì)于其他6種方法是允許原始變量是字符型,SPSS可以將其自動(dòng)轉(zhuǎn)化為0或1形式的啞變量。)
(7)?Deviation(偏差對(duì)比):即除參照外,其余每一個(gè)分類都與總體水平相比,此時(shí)每個(gè)分類的回歸系數(shù)都是相對(duì)于總體水平而言的改變量。
4. 點(diǎn)擊Continue回到主對(duì)話框,再點(diǎn)擊OK完成操作。
?
三、結(jié)果解讀
?
?
1. 結(jié)果顯示, SPSS將 Race自動(dòng)轉(zhuǎn)化為3個(gè)啞變量,分別為Race(1) (2) (3),代表白人、印第安人和亞裔人,參照為黑人。在α=0.05的檢驗(yàn)水準(zhǔn)下,Race(1) (2) (3) 回歸系數(shù)檢驗(yàn)P值均<0.05,提示白人、印第安人和亞裔種族某疾病的發(fā)生風(fēng)險(xiǎn)均與黑人種族之間存在統(tǒng)計(jì)學(xué)差異。
2. 白人、印第安人和亞裔相對(duì)于黑人種族,其OR值和95% CI分別為0.247(0.102, 0.598)、0.181(0.070, 0.466)、0.132(0.049, 0.357),提示白人、印第安人和亞裔人中該疾病的發(fā)生風(fēng)險(xiǎn)均顯著低于黑人種族。
多重線性回歸
針對(duì)多重線性回歸,我們需要通過重新編碼的方式,先將其轉(zhuǎn)換為啞變量,然后再帶入到回歸模型中。
?
一、研究實(shí)例
?
仍然以上面的研究實(shí)例進(jìn)行介紹,某研究人員擬探討不同種族人群中BMI有無差異,收集了4種不同種族人群的相關(guān)數(shù)據(jù)資料(1=Black美國(guó)黑人,2=White美國(guó)白人,3=Indian美國(guó)印第安人,4=Asian亞裔美國(guó)人)。
根據(jù)數(shù)據(jù)類型判斷,種族為無序多分類資料,需要將種族轉(zhuǎn)化為啞變量后,進(jìn)行多重線性回歸。
二、SPSS操作
方法一
1. Transform → CreateDummy Variables
將需要轉(zhuǎn)換為啞變量的Race因素選入CreateDummy Variables for中,在Root Names(One Per SelectedVariable)框中輸入轉(zhuǎn)換后的啞變量名Race_,并點(diǎn)擊OK完成操作
注意:使用SPSS軟件自帶的創(chuàng)建啞變量的功能,原始變量有n個(gè)分類,就會(huì)產(chǎn)生n個(gè)啞變量,例如Race為4分類,系統(tǒng)自動(dòng)生成4個(gè)啞變量。在構(gòu)建多重線性回歸模型時(shí),需要確定其中一個(gè)啞變量作為參照,然后把剩余n-1個(gè)啞變量帶入到模型中。
方法二
1. Transform → Recode into Different Variables
?
將需要轉(zhuǎn)換為啞變量的Race因素選入Numeric Variable->Output Variable框中,在Name框中輸入轉(zhuǎn)變的第一個(gè)啞變量名字Race1,并點(diǎn)擊Change進(jìn)行命名
?
2. 點(diǎn)擊Old and New Values進(jìn)入重新編碼的對(duì)話框
在Old Value中的Value框中填寫1,在New Value中的Value框中填寫1,并點(diǎn)擊Add添加,得到1->1。
?
?
然后選擇Old Value中的All other values,在New Value中的Value框中填寫0,并點(diǎn)擊Add添加,得到ELSE->0
?
?
上述步驟表示將原有變量Race中第1分類,在啞變量Race1中賦值為1,將其他所有分類在啞變量Race1中賦值為0。
按照同樣的方法,我們可以生成Race2和Race3,共3個(gè)啞變量。如果覺得生成3個(gè)啞變量很麻煩,我們可以進(jìn)入程序編輯頁(yè)面,編寫一條簡(jiǎn)單的程序進(jìn)行重新編碼賦值,如下圖所示。
?
?
賦值完成后,我們就可以在數(shù)據(jù)視圖界面看到新生成的3個(gè)啞變量。啞變量生成好后,我們就可以開始進(jìn)行多重線性回歸了。
?
?
3. Analyze → Regression → Linear
?
?
將BMI選入Dependent框中,將Race1、Race2、Race3、Gender和Age一同選入Independent(s)框中,Method選擇Enter法,點(diǎn)擊OK完成操作。
?
?
三、結(jié)果解讀
?
?
1. 我們通過重新編碼將Race轉(zhuǎn)化為3個(gè)啞變量,分別為Race1、2、3,代表黑人、白人和印第安人,此時(shí)參照為亞裔人。在α=0.05的檢驗(yàn)水準(zhǔn)下,Race1、2、3回歸系數(shù)檢驗(yàn)P值均<0.05,提示黑人、白人和印第安人的BMI均與亞裔人之間存在統(tǒng)計(jì)學(xué)差異。
2. 黑人、白人和印第安人與亞裔人相比,其β值和95% CI分別為1.543(0.163, 2.923)、2.331(0.996, 3.665)、1.585(0.208, 2.963),提示黑人、白人和印第安人的BMI要顯著高于亞裔人。
設(shè)置啞變量時(shí)的注意事項(xiàng)
1.?原則上啞變量在模型中應(yīng)同進(jìn)同出,也就是說在一個(gè)模型中,如果同一個(gè)分類變量的不同啞變量,出現(xiàn)了有些啞變量有統(tǒng)計(jì)學(xué)顯著性,有些無統(tǒng)計(jì)學(xué)顯著性的情況下,為了保證所有啞變量代表含義的正確性,應(yīng)當(dāng)在模型中納入所有的啞變量。
因此,我們?cè)谝雴∽兞窟M(jìn)入模型時(shí),需選擇Enter強(qiáng)制進(jìn)入法,以保證所有啞變量都能保留在最后的模型中。
2.?被選為參照的那一類分組,應(yīng)該保證有一定的樣本量。如果參照組樣本量太少,則將會(huì)導(dǎo)致其他分類與參照相比時(shí),參數(shù)估計(jì)的標(biāo)準(zhǔn)誤較大,可信區(qū)間較大,精度降低,會(huì)出現(xiàn)估計(jì)參數(shù)極大或極小的現(xiàn)象。
?
END
?
總結(jié)
以上是生活随笔為你收集整理的SPSS教程:手把手教你设置哑变量以及解读结果的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java查询mongodb数据_从mon
- 下一篇: UNIX网络编程第三版