當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数学建模：线性回归模型

發(fā)布時(shí)間：2023/12/10 编程问答 51 豆豆

生活随笔收集整理的這篇文章主要介紹了数学建模：线性回归模型小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

數(shù)學(xué)建模：線性回歸模型

1.多重線性回歸模型

1.1 引入

線性回歸分類

簡(jiǎn)單線性回歸（一個(gè)自變量）
多重線性回歸（多個(gè)自變量）

線性回歸的前提條件：

線性（散點(diǎn)圖，散點(diǎn)圖矩陣）
獨(dú)立性
正態(tài)性（回歸分析過程中可以確定）
方差齊性（回歸分析過程中可以確定）：建模中存在的誤差

兩個(gè)變量：X和Y

例1：人體的身高和體重

X：人體的身高

Y：人體的體重

身高X大時(shí)，體重Y也會(huì)傾向于增大，但是X不能嚴(yán)格地決定Y

1.2相關(guān)關(guān)系

相關(guān)關(guān)系：自變量的取值一定時(shí)，因變量的取值帶有一定的隨機(jī)性的兩個(gè)變量之間的關(guān)系。

相關(guān)關(guān)系是一種非確定關(guān)系。對(duì)具有相關(guān)關(guān)系的兩個(gè)變量進(jìn)行統(tǒng)計(jì)分析的方法稱為回歸分析。

1.3經(jīng)驗(yàn)回歸方程

X：自變量或者預(yù)報(bào)變量

Y：因變量或者響應(yīng)變量
$Y{X能夠決定的部分f(x)其他未考慮的因素e：誤差Y\begin{cases} X能夠決定的部分f(x)\\ 其他未考慮的因素e：誤差 \end{cases}$
? 則得到下面的模型：
$0\\ 特別的，當(dāng)f(X) = \beta_0+\beta_1X時(shí)是線性函數(shù)\\ \beta_0和\beta_1都稱作回歸系數(shù)$

第一步：確定模型
第二步：觀測(cè)模型

于是有n組觀測(cè)值(xi , yi )，如果Y與X 滿足回歸系數(shù)時(shí)，則(xi , yi )滿足：
$yi=β0+β1xi+ei，i=1,2,...,ny_i = \beta_0+\beta_1x_i+e_i，\qquad i=1,2,...,n$

第三步：確定未知參數(shù)值

根據(jù)第二步得到的方程組，應(yīng)用用統(tǒng)計(jì)方法，可以得到 $β0\beta_0$ 和 $β1\beta_1$ 的估計(jì)值 $β^0\hat\beta_0$ 和 $β^1\hat\beta_1$
第四步：求得經(jīng)驗(yàn)方程

將估計(jì)值 $β^0\hat\beta_0$ 和 $β^1\hat\beta_1$ 帶入線性回歸方程，略去誤差項(xiàng)：
$Y=β^0+β^1XY = \hat\beta_0+\hat\beta_1X$
稱為經(jīng)驗(yàn)回歸方程

1.4多元線性模型

多元線性回歸的一般形式：
$\beta_0+\beta_1 x+...++\beta_{p-1} x+e_i$
同樣 $β0\beta_0$ 為常數(shù)項(xiàng)，$\beta_1,…,\beta_{p-1} $為回歸系數(shù) ，$ e$為隨機(jī)誤差.

觀測(cè)數(shù)據(jù)

多元線性模型就是有多個(gè)未知數(shù) $β\beta$
$y=[y1y2?yn],X=[1x11?x1,p?11x21?x2,p?1????1xn1?xn,p?1],β=[β0β1?βp?1],e=[e1e2?en]y=\begin{bmatrix}y_1\\y_2\\\vdots \\y_n\end{bmatrix},X=\begin{bmatrix}1&x_{11}&\cdots&x_{1,p-1}\\1&x_{21}&\cdots&x_{2,p-1}\\\vdots&\vdots&\vdots&\vdots\\1&x_{n1}&\cdots&x_{n,p-1}\end{bmatrix},\beta=\begin{bmatrix}\beta_0\\\beta_1\\\vdots \\\beta_{p-1}\end{bmatrix},e=\begin{bmatrix}e_1\\e_2\\\vdots \\e_n\end{bmatrix}$
確定回歸系數(shù)
求經(jīng)驗(yàn)回歸方程

設(shè) $β^=(β^0,β^1,?,β^p?1)′\hat\beta = (\hat\beta_0,\hat\beta_1,\cdots,\hat\beta_{p-1})'$ 為 $β\beta$ 的一種估計(jì)，則經(jīng)驗(yàn)方程是：
$Y=β^0+β^1X1+?+β^p?1Xp?1Y= \hat\beta_0+\hat\beta_1X_1+\cdots+\hat\beta_{p-1}X_{p-1}$

1.5 非線性模型

非線性模型經(jīng)過適當(dāng)變換，轉(zhuǎn)換為線性模型：比如兩邊取對(duì)數(shù)
$ln?Qt=ln?a+bln?Lt+cln?Kt\ln\limits Q_t=\ln\limits a+b\ln\limits L_t+c\ln\limits K_t$
令
$yt=ln?Qt;xt1=ln?Lt,β0=ln?a,β1=b,β2=cy_t = \ln\limits Q_t;x_{t1} = \ln\limits L_t,\beta_0 = \ln\limits a,\beta_1 = b,\beta_2 = c$

加上誤差項(xiàng)即是線性關(guān)系

2.參數(shù)估計(jì)（最小二乘法）

在高等數(shù)學(xué)中有最小二乘法的介紹。簡(jiǎn)單地說就是要通過確定一系列的系數(shù) $β\beta$ ，使所有情況下的誤差最小，即：
$|y-X\beta|$
的值最小。由于絕對(duì)值不好處理，這里轉(zhuǎn)化成平方形式：
$(y-X\beta)^2$
上式展開，對(duì) $β\beta$ 求偏導(dǎo)，使其為0，得到線性方程組，解出 $βi\beta_i$ 即可，這一組 $β\beta$ 即是估計(jì)出的參數(shù)值。即是通過這一步最終得到了經(jīng)驗(yàn)方程：
$Y^=β^0+β^1X1+?+β^p?1Xp?1\hat Y = \hat\beta_0+\hat\beta_1 X_1+\cdots+\hat\beta_{p-1}X_{p-1}$
上述方程還需要進(jìn)一步做統(tǒng)計(jì)分析，來確定是否，描述了因變量與自變量的真實(shí)關(guān)系。

另外，進(jìn)行線性回歸之前，為了消除量綱等因素的影響，我們通常會(huì)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。預(yù)處理有

中心化
標(biāo)準(zhǔn)化

3.回歸方程假設(shè)檢驗(yàn)

但是經(jīng)驗(yàn)回歸方程是否真正刻畫了因變量與自變量之間的關(guān)系？——回歸方程的顯著性檢驗(yàn)

因變量和所有自變量之間是否存在顯著的關(guān)系？——回歸系數(shù)的顯著性檢驗(yàn)

異常點(diǎn)檢驗(yàn)

3.1回歸方程的顯著性檢驗(yàn)

正態(tài)線性回歸模型：
$yi=β^0+β^1xi1+?+β^p?1xi,p?1+eiei——N(0,σ2),i=1,?,ny_i = \hat\beta_0+\hat\beta_1 x_{i1}+\cdots+\hat\beta_{p-1}x_{i,p-1}+e_i\\ e_i——N(0,\sigma^2),i = 1,\cdots,n$
經(jīng)驗(yàn)方程是否正確刻畫因變量與自變量之間的關(guān)系需要進(jìn)行回歸方程的顯著性檢驗(yàn)：
假設(shè)檢驗(yàn)：所有回歸系數(shù)都為0，即 $H:β1=β2=,...,=βp?1=0H:\beta_1 = \beta_2 = ,...,=\beta_{p-1} = 0$

拒絕原假設(shè)：至少有一個(gè) $βi\beta_i$ 不等于0

接受原假設(shè)：所有的 $βi\beta_i$ 都等于0，相對(duì)誤差而言，所有自變量對(duì)因變量Y 的影響是不重要的。

顯著性檢驗(yàn)

設(shè) $m = p ? 1$ ，檢驗(yàn)假設(shè)H： $β1=?=βp?1=0\beta_1 = \cdots=\beta_{p-1} = 0$ 的統(tǒng)計(jì)量為：
$F回=SS回/p?1RSS/n?pF_回 = \frac{{SS_回}/{p-1}}{{RSS}/{n-p}}$
當(dāng)原假設(shè)成立時(shí)， $F_回$ ~ $F_{p-1,n-p}$

對(duì)于某一置信度 $α\alpha$ ， $F回>Fp?1,n?p(α)F_回>F_{p-1,n-p}(\alpha)$ 時(shí)，拒絕原假設(shè)，否則就接受H
回歸系數(shù)的顯著性檢驗(yàn)
異常點(diǎn)檢驗(yàn)

4.衡量多重回歸模型優(yōu)劣的標(biāo)準(zhǔn)

4.1判定系數(shù)

$SST=SSE+SSR{SST=∑i=1n(yi?y￣)2SSE=∑i=1n(yi?y^i)2SSR=∑i=1n(y^i?y￣)2SST = SSE+SSR\begin{cases}SST = \sum\limits_{i=1}^{n}(y_i-\overline y)^2\\ SSE = \sum\limits_{i=1}^{n}(y_i-\hat y_i)^2\\ SSR = \sum\limits_{i=1}^{n}(\hat y_i-\overline y)^2\\\end{cases}$

另外我們定義了 $R^2$
$R2=SSRSST，0≤R2≤1R^2 = \frac{SSR}{SST}，0≤R^2≤1$
$R^2$ 越接近1，表示X和Y有較大的相依關(guān)系

5.回歸自變量的選擇

6.多重復(fù)共線性判斷

一些大型線性回歸問題(自變量較多)，最小二乘估計(jì)有時(shí)表現(xiàn)不理想：

有些回歸系數(shù)的絕對(duì)值異常大
回歸系數(shù)的符號(hào)與實(shí)際意義相違背

復(fù)共線性：回歸自變量之間存在著近似線性關(guān)系。

復(fù)共線性嚴(yán)重程度的判斷

①方陣 $X^{'} X$ 的條件數(shù)：最大特征值與最小特征值的比值
$k=λ1λpk=\frac{\lambda_1}{\lambda_p}$
有下面的判斷標(biāo)準(zhǔn)：

②方差膨脹因子

方差膨脹因子 𝐕𝐚𝐫𝐢𝐚𝐧𝐜𝐞 𝐈𝐧𝐟𝐥𝐚𝐭𝐢𝐨𝐧 𝐅𝐚𝐜𝐭𝐨𝐫， 𝐕𝐈𝐅 : 𝑽𝑰𝑭越大，表示共線性越嚴(yán)重。 𝑽𝑰𝑭一般不應(yīng)該大于𝟓，當(dāng)𝑽𝑰𝑭＞𝟏𝟎時(shí)，提示有嚴(yán)重的多重共線性存在

解決方案

(1) 增大樣本含量，能部分解決復(fù)共線性問題。

(2) 把多種自變量篩選的方法結(jié)合起來組成擬合模型。建立一個(gè) “最優(yōu)”的逐步回歸方程，但同時(shí)丟失一部分可利用的信息

(3) 從專業(yè)知識(shí)出發(fā)進(jìn)行判斷，去除專業(yè)上認(rèn)為次要的，或者是缺失值比較多、測(cè)量誤差較大的共線性因子。

(4) 進(jìn)行主成分分析，提取公因子代替原變量進(jìn)行回歸分析。

7.殘差分析和回歸診斷

7.1殘差分析

目的：

線性假設(shè)的檢驗(yàn)
所有水平的x的常數(shù)方差的檢驗(yàn)
正態(tài)分布的檢驗(yàn)

殘差圖分析

通過殘差圖判斷正態(tài)性

殘差： $e^=y?Xb^\hat e = y-X\hat b$ ，其中將$\hat e $稱為殘差;$ \hat y = X\hat b $，$ \hat y_i$稱為擬合值。

以殘差為縱坐標(biāo)，以任何其他的量為橫坐標(biāo)的散點(diǎn)圖，稱為殘差圖。

這里以擬合值 $y^i\hat y_i$ 為橫軸， $r_i$ 為縱軸的殘差圖，平面上的點(diǎn)應(yīng)該落在寬度為4的水平帶 $2≤r_i≤2$ 的區(qū)域內(nèi)，且不呈任何趨勢(shì)。

，其中將$\hat e $稱為殘差;$ \hat y = X\hat b $，$ \hat y_i$稱為擬合值。