简单线性回归
引言
對于線性回歸模型,很多人在做數據分析的時候都運用過,用于分析兩個變量之間的關系,但可能對其中的原理并沒有進行細致的思考,比如r2數值的統計意義?在統計學上,線性模型的有效性如何進行評估?估計y的均值和單次y的95%置信區間CI是怎么做的?等等,這里對這些原理進行解釋,但不給出證明。
簡單線性回歸的例子
一個財險公司想要把主要住宅火災的損失金額y與火災點到最近的消防站的距離建立聯系,這項研究在一個大城市范圍很大的郊區完成,每起火災的損失金額y與受災點到最近的消防站的距離x都被記錄下來,結果如下表所示:
求解:
1. 運用直線概率模型給出火災損失和受災點到最近的消防站距離的關系
2. 在統計上評判模型的有效性
3. 當距離為3.5公里時,給出受災損失的平均值估計的誤差范圍及單次受災損失估計的誤差范圍(95%置信區間)
解答:
1)假定受災損失和距離符合直線模型:y=β0+β1*x+ε
2)求解出直線模型的參數β0,β1,可以方便地利用統計軟件計(Excel,Minitab)算出來,下圖為Excel計算出的回歸分析參數
可以看出:
3)確定隨機誤差部分ε的概率分布。如上圖Excel輸出結果,標準差s=2.3163
4)檢驗模型的有效性
a.檢驗火災損失與火災點距離消防站的距離有沒有線性關系,即β1=0檢驗
H0:β1=0
Ha:β1>0
df=n-2=15-2=13,在p=0.05顯著性水平時對應的t0.05=1.771,t=7.23>t0.05,所以拒絕原假設,即β1>0,火災損失與火災點距離消防站的距離有線性關系。
b.看決定系數r2=0.923, 說明火災損失樣本的變異性有約92%可以通過火災點到消防站的距離x的線性模型來解釋,說明模型的具有很強的線性關系
5)當x=3.5時,E(y)95%的置信區間以及y的預測值95%的置信區間都在下圖所思的Minitab輸出結果中。
預測值y_hat=27.496
y的平均值y_bar 95%的置信區間是(26.1901,28.8011),說明在距離為3.5英里時,我們有95%的把握,發生火災損失的平均值在26190~28801美元之間
預測單次y值的95%的置信區間是(22.324,32.667),說明在距離為3.5英里時,我們有95%的把握,發生火災損失在22324~32667美元之間
概率模型
確定性模型(deterministic model)
變量之間存在確切的關系,比如y=15x
概率模型(probabilistic model)
變量之間存在的關系有一個確定性部門和隨機誤差部分組成,比如y=15x+隨機誤差ε
概率模型的一般形式:
y=確定性部分+隨機誤差ε
其中y是感興趣的變量。我們往往假設隨機誤差的期望值是零,即y的期望
E(y)=確定性部分
線性模型
線性模型是最簡單的概率模型,其要素包括:
線性模型擬合-最小二乘法
幾個概念
殘差平方和:SSE(Sum of Squares for Error) = RSS (residual sum of squares)
也稱誤差平方和,y真實值和y預測值(估計值)之間的誤差和
回歸平方和:SSR(Sum of Squares for regression) = ESS (explained sum of squares)
由回歸關系可以解釋的誤差平方和
總離差平方和:SST(Sum of Squares for total) = TSS(total sum of squares)
SSE+SSR=SST或 RSS+ESS=TSS
最小二乘直線y^=β^0+β^1x的性質:
1.誤差和(SE)為零
2.誤差平方和(SSE)比其他任何一條執行模型都小
最小二乘估計公式
模型隨機誤差項ε的概率分布
4個假設:
1. ε的期望為0。對于一個給定的x,ε的值在無限長的試驗序列中均值是0,y的期望E(y)=β0+β1x
2. 對于所有給定的自變量x,ε的概率分布方差是常數
3. ε的概率分布服從正態分布
4. 任何兩個觀測值對應的ε都是獨立的
其性質可以用下圖來說明。實際運用時,這些假設并不需要完全成立,只需部分滿足
誤差ε的方差σ^2估計
在SSE的計算中,可能需要反復計算SSyy,SSxy,β等值,為避免代入誤差,一般要保留6位有效數字。
我們期望大部分(95%)觀測值y分別位于他們的最小二乘預測值y^的2s范圍內。
評價模型的有效性:對斜率β1對推斷
推斷β1是否=0
如果x對y的預測不起作用,則β1=0
β1的抽樣分布
其中S為ε的方差
模型的有效性檢驗:β1檢驗
模型的有效性檢驗需要滿足的條件
簡單線下回歸,即ε的4個假設
模型β1的(1-α)置信區間
相關系數和決定系數
相關系數(coefficient of correlation)
用于衡量兩個變量的線性相關強度
說明:
1. 高相關系數并不一定意味著x和y存在因果關系,僅僅說明兩個變量之間可能存在線性趨勢
2. 低相關系數并不一定說明x和y之間沒有關系,僅僅說明x和y不是很強的線性相關
決定系數(coefficient of determination)--相關系數r方,模型有效性度量
一種測量模型有效性的方法就是測量x對于預測y的貢獻,為此,我們計算使用來x提供的信息后,y的預測誤差減少了多少
1. 如果假定x對于預測y沒有一點貢獻,那么y的最佳預測值就是樣本評價值y_bar, 預測誤差為離差平方和SST(SSyy)
2. 如果假定x對于預測y有貢獻,那么y的最佳預測值就是樣本評價值y_hat, 預測誤差為殘差平方和SSE,
如下圖的x,y散點圖,b為x對y對預測沒有貢獻,c為x對y對預測有貢獻:
那么線性模型對于預測的貢獻為SST-SSE=SSR,稱回歸平方和,也叫ESS(Explain Sum of Squares)可解釋的誤差平方和
SSyy:總的樣本變異性
SSE:擬合直線模型后未解釋的變異性
(SSyy-SSE)/SSyy=可解釋的樣本變異性/總的樣本變異性=總的樣本變異性被線性關系解釋的百分比
利用模型進行估計和預測
模型的運用主要是兩方面:
1.用模型根據給定的x值估計y的平均值E(y),大量試驗y的平均值
2.用模型根據給定的x值估計一個新的y值,預測一個單獨試驗的結果
兩個運用的不同體現在估計和預測的相對精度上。
估計y的均值和預測y的個值的樣本誤差
x=xp估計y的均值的100(1-α)%置信區間
x=xp預測y的個別值的100(1-α)%置信區間
可以看出,預測y的個別值的誤差范圍比估計y的平均值的誤差范圍大,這是因為預測y的個別值的誤差可以看作預測y的均值E(y)的誤差加上預測y的隨機誤差,誤差在x_bar的時候最小。
總結
- 上一篇: 分类数据的分析-卡方检验运用
- 下一篇: Oracle NVL与Coalesce函