當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

单变量线性回归模型与结果解读

發(fā)布時(shí)間：2023/12/29 编程问答 43 豆豆

生活随笔收集整理的這篇文章主要介紹了单变量线性回归模型与结果解读小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?模型一般形式

? ? ? ?統(tǒng)計(jì)模型的一般形式是Y=m(X)+e。其中Y為輸出變量、響應(yīng)變量、因變量、被解釋變量；m為均值；e為不可控因子，可以理解為噪聲。故模型等式右邊是用X組成的函數(shù)去描述Y的均值，即模型是在平均的意義下去描述自變量與因變量間的關(guān)系，所以在解讀模型的時(shí)候，我不會(huì)將模型說(shuō)死。

? ? ? ?模型中不同形式的m（X）會(huì)幻化為不同的模型體系，一般可以將模型分為兩大類：

m（X）可以幻化為數(shù)學(xué)公式，即公式模型，一般比較成熟的都是公式模型，例如回歸模型的理論與底蘊(yùn)就比較完善，模型的假定都是可以進(jìn)行檢驗(yàn)的；
m（X）過(guò)于復(fù)雜，用公式無(wú)法描述，需要用算法去描述，即算法模型，例如決策樹(shù)模型。

? ? ? ?其實(shí)，建模的作用就是將看上去不太可能的事情聯(lián)系到一起，同時(shí)又能將事情的來(lái)龍去脈解釋清楚。模型構(gòu)建之前都有假定，模型構(gòu)建的好不好、是否合適都取決于模型是否符合假定，當(dāng)然更核心的還是要關(guān)注模型在業(yè)務(wù)場(chǎng)景的應(yīng)用，這才是建模的最主要的目的。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?回歸的基本思路

? ? ? ?在模型領(lǐng)域，解釋性較好的模型毋庸置疑就是回歸。回歸模型主要能做兩件事情，一是用模型去體現(xiàn)事物間的關(guān)系，即解釋模型變量間的關(guān)系；二是用模型進(jìn)行預(yù)測(cè)。

? ? ? ?如下圖所示，回歸建模的工作流程即將客觀現(xiàn)實(shí)轉(zhuǎn)化為數(shù)據(jù)后進(jìn)行建模，終極目標(biāo)是用數(shù)學(xué)模型將事物的來(lái)龍去脈解釋清楚，作為數(shù)據(jù)分析師，講故事的能力真的非常重要。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?回歸模型里的坑

? ? ? ?構(gòu)建回歸模型時(shí)經(jīng)常需要對(duì)變量進(jìn)行變換，在調(diào)整量綱的過(guò)程中不怕數(shù)據(jù)長(zhǎng)度發(fā)生變化，怕的是數(shù)據(jù)的相對(duì)長(zhǎng)度發(fā)生變化，因?yàn)檠劬δ芸吹降目臻g為歐式空間，歐式空間的弱點(diǎn)是數(shù)據(jù)很容易受到量綱的影響，所以在構(gòu)建模型進(jìn)行數(shù)據(jù)變換的時(shí)候并不能隨心所欲的變換。

? ? ? ?數(shù)據(jù)變換過(guò)程中我經(jīng)常會(huì)使用BOX-COX變換，這種變換的方法為：

λ不等于0的時(shí)候，?
λ等于0的時(shí)候，?

? ? ? ?這種BOX-COX的數(shù)據(jù)變換方式有幾個(gè)特點(diǎn)：

這種變換可以改變分布形狀，使數(shù)據(jù)成為對(duì)稱甚至正態(tài)分布，至少，這種變換能將數(shù)據(jù)分布往正態(tài)分布方向拉一拉；
這種變換能保持原數(shù)據(jù)的大小次序；
這種變換對(duì)變換結(jié)果有比較好的解釋。例如：

λ=2的時(shí)候變換變?yōu)榱?可以叫做平方變換；

λ=1的時(shí)候變換變?yōu)榱?可以叫做恒等變換；

λ=0.5的時(shí)候變換變?yōu)?可以叫做平方根變換；

λ=0的時(shí)候可以叫做對(duì)數(shù)變換；

λ=-0.5的時(shí)候，y可以叫做平方根倒數(shù)變換；

變換需要y的最大值和y的最小值的比值要大于2，即原始數(shù)據(jù)Y的最大值和最小值的變化范圍不能太小使用BOX-COX變換才是有效的，如果變化范圍過(guò)小則數(shù)據(jù)不敏感。但是實(shí)際工作中我還沒(méi)有遇到過(guò)比值小于2的情況。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?怎樣衡量模型好壞

? ? ? ?建模過(guò)程中首先應(yīng)該考慮檢驗(yàn)能否通過(guò)，如果檢驗(yàn)通過(guò)，則需要考慮模型好不好、行不行，即必須要進(jìn)行模型診斷，任何一個(gè)模型都有一個(gè)正常、期待的樣子，即假定，模型建好后都應(yīng)該看下模型擬合的結(jié)果是否符合假定，建模不是很難的過(guò)程，困難的點(diǎn)在于數(shù)據(jù)是否符合假定的衡量。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?簡(jiǎn)單線性回歸模型的假定

? ? ? ?簡(jiǎn)單線性回歸模型有下面幾個(gè)假定：

線性假定

? ? ? ?所謂線性假定指構(gòu)建模型時(shí)需將模型構(gòu)建成線性的模式，例如Y=b0+b1x2+e，雖然是x2的形式，但可將x2的整體看做X。即在進(jìn)行參數(shù)估計(jì)的時(shí)候，自變量X可以采用任何形式，但是模型整體需要保證是類線性的模式；

正交假定

? ? ? ?X和e之間不相關(guān)；

獨(dú)立同分布

? ? ? ?殘差間相互獨(dú)立，方差需齊性，即相等；

Y服從正態(tài)分布

? ? ? ?一般直接檢驗(yàn)因變量Y是不是正態(tài)分布比較麻煩，實(shí)際檢驗(yàn)的是殘差。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 單變量線性回歸模型SAS示例

? ? ? ?單變量線性回歸模型一般形式為：Y=b0+b1X1+e。其中Y為因變量，X為自變量或預(yù)測(cè)變量，e為擾動(dòng)項(xiàng)，b為模型的系數(shù)。如下示例建模背景為針對(duì)消費(fèi)與收入構(gòu)建單變量線性回歸模型，下面為SAS實(shí)現(xiàn)代碼以及我對(duì)模型結(jié)果的解讀思路：

PROC REG DATA=XUHUI PLOTS(ONLY)=ALL;

? ? ? ? Linear_Regression_Model:?MODEL cost=income/dw spec;

? ? ? ? OUTPUT OUT=result

? ? ? ? PREDICTED=predicted_cost?

? ? ? ? RESIDUAL=residual_cost?

? ? ? ? STUDENT=student_cost?

? ? ? ? RSTUDENT=rstudent_cost;

RUN;QUIT;

結(jié)果解讀：

看F檢驗(yàn)結(jié)果與調(diào)整R方：

? ? ? ?F檢驗(yàn)，如果P值小則為合理；調(diào)整R方，這里調(diào)整R方過(guò)小，說(shuō)明這個(gè)一元回歸模型可能僅僅一個(gè)自變量是不夠的；

看DW與spc：

? ? ? ?DW為自相關(guān)衡量指標(biāo)，靠近2沒(méi)有自相關(guān)，靠近4和0有自相關(guān)，這里DW為1.42有點(diǎn)靠近未判定區(qū)。一般，DW只能檢驗(yàn)一階自相關(guān)，更復(fù)雜的情況無(wú)法檢驗(yàn)；spc為異方差檢驗(yàn)指標(biāo)，即懷特檢驗(yàn)，即下方第一和第二距制定的檢驗(yàn)，P值小表明沒(méi)有異方差。

? ? ? ?其實(shí)，DW檢驗(yàn)也好、懷特檢驗(yàn)也好，都屬于弱檢驗(yàn)，他們的檢驗(yàn)結(jié)果的可靠性和實(shí)用性不大，只能作為參考，一般實(shí)際中我還是會(huì)去看殘差圖再次進(jìn)行檢驗(yàn)。

看分布，類似鐘型，如果不是鐘型可以對(duì)Y做Box-Cox變換。

利用預(yù)測(cè)值殘差圖查看模型是否符合假定

? ? ? ?如果模型符合假定，那么模型的殘差均值為0、方差為常數(shù)，圖形中方差用范圍去體現(xiàn)，比較期望的狀態(tài)應(yīng)該是以均值為中心、區(qū)間保持穩(wěn)定。這里殘差圖的形態(tài)說(shuō)明出現(xiàn)了異方差，即消費(fèi)越大花錢的方差越大，需要進(jìn)行變換，這個(gè)地方我不太喜歡用最小二乘的方法進(jìn)行處理，一般我會(huì)想去用合適的方法對(duì)變量進(jìn)行變換。

擬合診斷圖：

? ? ? ?第一列圖形用于判斷數(shù)據(jù)是否是正態(tài)，右上角的四張圖用于判斷強(qiáng)影響點(diǎn)。

我的公眾號(hào)：Data Analyst

個(gè)人網(wǎng)站：https://www.datanalyst.net/

總結(jié)

以上是生活随笔為你收集整理的单变量线性回归模型与结果解读的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：特别好用，在线就能画原型的工具！
下一篇：京瓷4501i打印机扫描步骤_京瓷301