當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

简单线性回归

發布時間：2023/12/19 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了简单线性回归小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

引言

對于線性回歸模型，很多人在做數據分析的時候都運用過，用于分析兩個變量之間的關系，但可能對其中的原理并沒有進行細致的思考，比如r2數值的統計意義？在統計學上，線性模型的有效性如何進行評估？估計y的均值和單次y的95%置信區間CI是怎么做的？等等，這里對這些原理進行解釋，但不給出證明。

簡單線性回歸的例子

一個財險公司想要把主要住宅火災的損失金額y與火災點到最近的消防站的距離建立聯系，這項研究在一個大城市范圍很大的郊區完成，每起火災的損失金額y與受災點到最近的消防站的距離x都被記錄下來，結果如下表所示：

求解：

1. 運用直線概率模型給出火災損失和受災點到最近的消防站距離的關系

2. 在統計上評判模型的有效性

3. 當距離為3.5公里時，給出受災損失的平均值估計的誤差范圍及單次受災損失估計的誤差范圍（95%置信區間）

解答：

1）假定受災損失和距離符合直線模型：y=β0+β1*x+ε

2）求解出直線模型的參數β0，β1，可以方便地利用統計軟件計（Excel，Minitab）算出來，下圖為Excel計算出的回歸分析參數

可以看出：

3）確定隨機誤差部分ε的概率分布。如上圖Excel輸出結果，標準差s=2.3163

4）檢驗模型的有效性

a.檢驗火災損失與火災點距離消防站的距離有沒有線性關系，即β1=0檢驗

H0：β1=0

Ha：β1>0

df=n-2=15-2=13，在p=0.05顯著性水平時對應的t0.05=1.771，t=7.23>t0.05，所以拒絕原假設，即β1>0，火災損失與火災點距離消防站的距離有線性關系。

b.看決定系數r2=0.923, 說明火災損失樣本的變異性有約92%可以通過火災點到消防站的距離x的線性模型來解釋，說明模型的具有很強的線性關系

5）當x=3.5時，E(y)95%的置信區間以及y的預測值95%的置信區間都在下圖所思的Minitab輸出結果中。

預測值y_hat=27.496

y的平均值y_bar 95%的置信區間是（26.1901,28.8011），說明在距離為3.5英里時，我們有95%的把握，發生火災損失的平均值在26190～28801美元之間

預測單次y值的95%的置信區間是（22.324,32.667），說明在距離為3.5英里時，我們有95%的把握，發生火災損失在22324～32667美元之間

概率模型

確定性模型（deterministic model）

變量之間存在確切的關系，比如y=15x

概率模型（probabilistic model）

變量之間存在的關系有一個確定性部門和隨機誤差部分組成，比如y=15x+隨機誤差ε

概率模型的一般形式：

y=確定性部分+隨機誤差ε

其中y是感興趣的變量。我們往往假設隨機誤差的期望值是零，即y的期望

E(y)=確定性部分

線性模型

線性模型是最簡單的概率模型，其要素包括：

線性模型擬合-最小二乘法

幾個概念

殘差平方和：SSE(Sum of Squares for Error) = RSS (residual sum of squares)

也稱誤差平方和，y真實值和y預測值（估計值）之間的誤差和

回歸平方和：SSR(Sum of Squares for regression) = ESS (explained sum of squares)

由回歸關系可以解釋的誤差平方和

總離差平方和：SST(Sum of Squares for total) = TSS(total sum of squares)

SSE+SSR=SST或 RSS+ESS=TSS

最小二乘直線y^=β^0+β^1x的性質:

1.誤差和（SE）為零

2.誤差平方和（SSE）比其他任何一條執行模型都小

最小二乘估計公式

模型隨機誤差項ε的概率分布

4個假設：

1. ε的期望為0。對于一個給定的x，ε的值在無限長的試驗序列中均值是0，y的期望E(y)=β0+β1x

2. 對于所有給定的自變量x，ε的概率分布方差是常數

3. ε的概率分布服從正態分布

4. 任何兩個觀測值對應的ε都是獨立的

其性質可以用下圖來說明。實際運用時，這些假設并不需要完全成立，只需部分滿足

誤差ε的方差σ^2估計

在SSE的計算中，可能需要反復計算SSyy，SSxy，β等值，為避免代入誤差，一般要保留6位有效數字。

我們期望大部分（95%）觀測值y分別位于他們的最小二乘預測值y^的2s范圍內。

評價模型的有效性：對斜率β1對推斷

推斷β1是否=0

如果x對y的預測不起作用，則β1=0

β1的抽樣分布

其中S為ε的方差

模型的有效性檢驗：β1檢驗

模型的有效性檢驗需要滿足的條件

簡單線下回歸，即ε的4個假設

模型β1的（1-α）置信區間

估計y的均值和預測y的個值的樣本誤差

x=xp估計y的均值的100(1-α)%置信區間

x=xp預測y的個別值的100(1-α)%置信區間

可以看出，預測y的個別值的誤差范圍比估計y的平均值的誤差范圍大，這是因為預測y的個別值的誤差可以看作預測y的均值E(y)的誤差加上預測y的隨機誤差，誤差在x_bar的時候最小。

總結

以上是生活随笔為你收集整理的简单线性回归的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：分类数据的分析-卡方检验运用
下一篇： Oracle NVL与Coalesce函

生活随笔