单变量线性回归模型与结果解读
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?模型一般形式
? ? ? ?統計模型的一般形式是Y=m(X)+e。其中Y為輸出變量、響應變量、因變量、被解釋變量;m為均值;e為不可控因子,可以理解為噪聲。故模型等式右邊是用X組成的函數去描述Y的均值,即模型是在平均的意義下去描述自變量與因變量間的關系,所以在解讀模型的時候,我不會將模型說死。
? ? ? ?模型中不同形式的m(X)會幻化為不同的模型體系,一般可以將模型分為兩大類:
- m(X)可以幻化為數學公式,即公式模型,一般比較成熟的都是公式模型,例如回歸模型的理論與底蘊就比較完善,模型的假定都是可以進行檢驗的;
- m(X)過于復雜,用公式無法描述,需要用算法去描述,即算法模型,例如決策樹模型。
? ? ? ?其實,建模的作用就是將看上去不太可能的事情聯系到一起,同時又能將事情的來龍去脈解釋清楚。模型構建之前都有假定,模型構建的好不好、是否合適都取決于模型是否符合假定,當然更核心的還是要關注模型在業務場景的應用,這才是建模的最主要的目的。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?回歸的基本思路
? ? ? ?在模型領域,解釋性較好的模型毋庸置疑就是回歸。回歸模型主要能做兩件事情,一是用模型去體現事物間的關系,即解釋模型變量間的關系;二是用模型進行預測。
? ? ? ?如下圖所示,回歸建模的工作流程即 將客觀現實轉化為數據后進行建模,終極目標是用數學模型將事物的來龍去脈解釋清楚,作為數據分析師,講故事的能力真的非常重要。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?回歸模型里的坑
? ? ? ?構建回歸模型時經常需要對變量進行變換,在調整量綱的過程中不怕數據長度發生變化,怕的是數據的相對長度發生變化,因為眼睛能看到的空間為歐式空間,歐式空間的弱點是數據很容易受到量綱的影響,所以在構建模型進行數據變換的時候并不能隨心所欲的變換。
? ? ? ?數據變換過程中我經常會使用BOX-COX變換,這種變換的方法為:
- λ不等于0的時候,?
- λ等于0的時候,?
? ? ? ?這種BOX-COX的數據變換方式有幾個特點:
- 這種變換可以改變分布形狀,使數據成為對稱甚至正態分布,至少,這種變換能將數據分布往正態分布方向拉一拉;
- 這種變換能保持原數據的大小次序;
- 這種變換對變換結果有比較好的解釋。例如:
λ=2的時候變換變為了,可以叫做平方變換;
λ=1的時候變換變為了,可以叫做恒等變換;
λ=0.5的時候變換變為,可以叫做平方根變換;
λ=0的時候可以叫做對數變換;
λ=-0.5的時候,y可以叫做平方根倒數變換;
- 變換需要y的最大值和y的最小值的比值要大于2,即原始數據Y的最大值和最小值的變化范圍不能太小使用BOX-COX變換才是有效的,如果變化范圍過小則數據不敏感。但是實際工作中我還沒有遇到過比值小于2的情況。
?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?怎樣衡量模型好壞
? ? ? ?建模過程中首先應該考慮檢驗能否通過,如果檢驗通過,則需要考慮模型好不好、行不行,即必須要進行模型診斷,任何一個模型都有一個正常、期待的樣子,即假定,模型建好后都應該看下模型擬合的結果是否符合假定,建模不是很難的過程,困難的點在于數據是否符合假定的衡量。
?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?簡單線性回歸模型的假定
? ? ? ?簡單線性回歸模型有下面幾個假定:
- 線性假定
? ? ? ?所謂線性假定指構建模型時需將模型構建成線性的模式,例如Y=b0+b1x2+e,雖然是x2的形式,但可將x2的整體看做X。即在進行參數估計的時候,自變量X可以采用任何形式,但是模型整體需要保證是類線性的模式;
- 正交假定
? ? ? ?X和e之間不相關;
- 獨立同分布
? ? ? ?殘差間相互獨立,方差需齊性,即相等;
- Y服從正態分布
? ? ? ?一般直接檢驗因變量Y是不是正態分布比較麻煩,實際檢驗的是殘差。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 單變量線性回歸模型SAS示例
? ? ? ?單變量線性回歸模型一般形式為:Y=b0+b1X1+e。其中Y為因變量,X為自變量或預測變量,e為擾動項,b為模型的系數。如下示例建模背景為針對消費與收入構建單變量線性回歸模型,下面為SAS實現代碼以及我對模型結果的解讀思路:
PROC REG DATA=XUHUI PLOTS(ONLY)=ALL;
? ? ? ? Linear_Regression_Model:?MODEL cost=income/dw spec;
? ? ? ? OUTPUT OUT=result
? ? ? ? PREDICTED=predicted_cost?
? ? ? ? RESIDUAL=residual_cost?
? ? ? ? STUDENT=student_cost?
? ? ? ? RSTUDENT=rstudent_cost;
RUN;QUIT;
結果解讀:
- 看F檢驗結果與調整R方:
? ? ? ?F檢驗,如果P值小則為合理;調整R方,這里調整R方過小,說明這個一元回歸模型可能僅僅一個自變量是不夠的;
- 看DW與spc:
? ? ? ?DW為自相關衡量指標,靠近2沒有自相關,靠近4和0有自相關,這里DW為1.42有點靠近未判定區。一般,DW只能檢驗一階自相關,更復雜的情況無法檢驗;spc為異方差檢驗指標,即懷特檢驗,即下方第一和第二距制定的檢驗,P值小表明沒有異方差。
? ? ? ?其實,DW檢驗也好、懷特檢驗也好,都屬于弱檢驗,他們的檢驗結果的可靠性和實用性不大,只能作為參考,一般實際中我還是會去看殘差圖再次進行檢驗。
- 看分布,類似鐘型,如果不是鐘型可以對Y做Box-Cox變換。
- 利用預測值殘差圖查看模型是否符合假定
? ? ? ?如果模型符合假定,那么模型的殘差均值為0、方差為常數,圖形中方差用范圍去體現,比較期望的狀態應該是以均值為中心、區間保持穩定。這里殘差圖的形態說明出現了異方差,即消費越大花錢的方差越大,需要進行變換,這個地方我不太喜歡用最小二乘的方法進行處理,一般我會想去用合適的方法對變量進行變換。
- 擬合診斷圖:
? ? ? ?第一列圖形用于判斷數據是否是正態,右上角的四張圖用于判斷強影響點。
我的公眾號:Data Analyst
個人網站:https://www.datanalyst.net/
?
總結
以上是生活随笔為你收集整理的单变量线性回归模型与结果解读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 特别好用,在线就能画原型的工具!
- 下一篇: 京瓷4501i打印机扫描步骤_京瓷301