日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

简单线性回归

發布時間:2023/12/19 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 简单线性回归 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

引言

對于線性回歸模型,很多人在做數據分析的時候都運用過,用于分析兩個變量之間的關系,但可能對其中的原理并沒有進行細致的思考,比如r2數值的統計意義?在統計學上,線性模型的有效性如何進行評估?估計y的均值和單次y的95%置信區間CI是怎么做的?等等,這里對這些原理進行解釋,但不給出證明。

簡單線性回歸的例子

一個財險公司想要把主要住宅火災的損失金額y與火災點到最近的消防站的距離建立聯系,這項研究在一個大城市范圍很大的郊區完成,每起火災的損失金額y與受災點到最近的消防站的距離x都被記錄下來,結果如下表所示:

求解:

1. 運用直線概率模型給出火災損失和受災點到最近的消防站距離的關系

2. 在統計上評判模型的有效性

3. 當距離為3.5公里時,給出受災損失的平均值估計的誤差范圍及單次受災損失估計的誤差范圍(95%置信區間)

解答:

1)假定受災損失和距離符合直線模型:y=β0+β1*x+ε

2)求解出直線模型的參數β0,β1,可以方便地利用統計軟件計(Excel,Minitab)算出來,下圖為Excel計算出的回歸分析參數

可以看出:

3)確定隨機誤差部分ε的概率分布。如上圖Excel輸出結果,標準差s=2.3163

4)檢驗模型的有效性

a.檢驗火災損失與火災點距離消防站的距離有沒有線性關系,即β1=0檢驗

H0:β1=0

Ha:β1>0

df=n-2=15-2=13,在p=0.05顯著性水平時對應的t0.05=1.771,t=7.23>t0.05,所以拒絕原假設,即β1>0,火災損失與火災點距離消防站的距離有線性關系。

b.看決定系數r2=0.923, 說明火災損失樣本的變異性有約92%可以通過火災點到消防站的距離x的線性模型來解釋,說明模型的具有很強的線性關系

5)當x=3.5時,E(y)95%的置信區間以及y的預測值95%的置信區間都在下圖所思的Minitab輸出結果中。

預測值y_hat=27.496

y的平均值y_bar 95%的置信區間是(26.1901,28.8011),說明在距離為3.5英里時,我們有95%的把握,發生火災損失的平均值在26190~28801美元之間

預測單次y值的95%的置信區間是(22.324,32.667),說明在距離為3.5英里時,我們有95%的把握,發生火災損失在22324~32667美元之間

概率模型

確定性模型(deterministic model)

變量之間存在確切的關系,比如y=15x

概率模型(probabilistic model)

變量之間存在的關系有一個確定性部門和隨機誤差部分組成,比如y=15x+隨機誤差ε

概率模型的一般形式:

y=確定性部分+隨機誤差ε

其中y是感興趣的變量。我們往往假設隨機誤差的期望值是零,即y的期望

E(y)=確定性部分

線性模型

線性模型是最簡單的概率模型,其要素包括:

線性模型擬合-最小二乘法

幾個概念

殘差平方和:SSE(Sum of Squares for Error) = RSS (residual sum of squares)

也稱誤差平方和,y真實值和y預測值(估計值)之間的誤差和

回歸平方和:SSR(Sum of Squares for regression) = ESS (explained sum of squares)

由回歸關系可以解釋的誤差平方和

總離差平方和:SST(Sum of Squares for total) = TSS(total sum of squares)

SSE+SSR=SST或 RSS+ESS=TSS

最小二乘直線y^=β^0+β^1x的性質:

1.誤差和(SE)為零

2.誤差平方和(SSE)比其他任何一條執行模型都小

最小二乘估計公式

模型隨機誤差項ε的概率分布

4個假設:

1. ε的期望為0。對于一個給定的x,ε的值在無限長的試驗序列中均值是0,y的期望E(y)=β0+β1x

2. 對于所有給定的自變量x,ε的概率分布方差是常數

3. ε的概率分布服從正態分布

4. 任何兩個觀測值對應的ε都是獨立的

其性質可以用下圖來說明。實際運用時,這些假設并不需要完全成立,只需部分滿足

誤差ε的方差σ^2估計

在SSE的計算中,可能需要反復計算SSyy,SSxy,β等值,為避免代入誤差,一般要保留6位有效數字。

我們期望大部分(95%)觀測值y分別位于他們的最小二乘預測值y^的2s范圍內。

評價模型的有效性:對斜率β1對推斷

推斷β1是否=0

如果x對y的預測不起作用,則β1=0

β1的抽樣分布

其中S為ε的方差

模型的有效性檢驗:β1檢驗

模型的有效性檢驗需要滿足的條件

簡單線下回歸,即ε的4個假設

模型β1的(1-α)置信區間

相關系數和決定系數

相關系數(coefficient of correlation)

用于衡量兩個變量的線性相關強度

說明:

1. 高相關系數并不一定意味著x和y存在因果關系,僅僅說明兩個變量之間可能存在線性趨勢

2. 低相關系數并不一定說明x和y之間沒有關系,僅僅說明x和y不是很強的線性相關

決定系數(coefficient of determination)--相關系數r方,模型有效性度量

一種測量模型有效性的方法就是測量x對于預測y的貢獻,為此,我們計算使用來x提供的信息后,y的預測誤差減少了多少

1. 如果假定x對于預測y沒有一點貢獻,那么y的最佳預測值就是樣本評價值y_bar, 預測誤差為離差平方和SST(SSyy)

2. 如果假定x對于預測y有貢獻,那么y的最佳預測值就是樣本評價值y_hat, 預測誤差為殘差平方和SSE,

如下圖的x,y散點圖,b為x對y對預測沒有貢獻,c為x對y對預測有貢獻:

那么線性模型對于預測的貢獻為SST-SSE=SSR,稱回歸平方和,也叫ESS(Explain Sum of Squares)可解釋的誤差平方和

SSyy:總的樣本變異性

SSE:擬合直線模型后未解釋的變異性

(SSyy-SSE)/SSyy=可解釋的樣本變異性/總的樣本變異性=總的樣本變異性被線性關系解釋的百分比

利用模型進行估計和預測

模型的運用主要是兩方面:

1.用模型根據給定的x值估計y的平均值E(y),大量試驗y的平均值

2.用模型根據給定的x值估計一個新的y值,預測一個單獨試驗的結果

兩個運用的不同體現在估計和預測的相對精度上。

估計y的均值和預測y的個值的樣本誤差

x=xp估計y的均值的100(1-α)%置信區間

x=xp預測y的個別值的100(1-α)%置信區間

可以看出,預測y的個別值的誤差范圍比估計y的平均值的誤差范圍大,這是因為預測y的個別值的誤差可以看作預測y的均值E(y)的誤差加上預測y的隨機誤差,誤差在x_bar的時候最小。

總結

以上是生活随笔為你收集整理的简单线性回归的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。