當(dāng)前位置：首頁(yè) > 人文社科 > 生活经验 >内容正文

生活经验

回归算法 - 线性回归求解 θ（最大似然估计求解）

發(fā)布時(shí)間：2023/11/28 生活经验 34 豆豆

生活随笔收集整理的這篇文章主要介紹了回归算法 - 线性回归求解 θ（最大似然估计求解）小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

回顧線性回歸的公式：θ是系數(shù)，X是特征，h(x) 是預(yù)測(cè)值。
h(x) = θ0 + θ1x1 + θ2x2 + … + θnxn
h(x) = Σ θixi（ i=0~n ）
h(x) = θTX = [θ1,θ2,θ3,…,θn] * [x1,x2,x3,…,xn]T
最終要求是計(jì)算出θ的值，并選擇最優(yōu)的θ值構(gòu)成算法公式，使預(yù)測(cè)值能夠盡可能接近真實(shí)值。

求解線性回歸的思路
線性回歸主要用到兩種方法：最大似然估計(jì)、最小二乘法。兩種思路截然不同，但最終得到的結(jié)果是一致的。

1、最大似然估計(jì)求解

所有樣本的誤差ε(i) (1 ≤ i ≤ n) 是獨(dú)立同分布的，服從均值為 0，方差為某個(gè)定值的 б2 的高斯分布。
解釋一下上面這個(gè)概念。

a、獨(dú)立同分布（ i.i.d )
實(shí)際問(wèn)題中，很多隨機(jī)現(xiàn)象都可以看做獨(dú)立影響的綜合反映，往往服從正態(tài)分布。

特征X：x1~xn 是獨(dú)立同分布的。
每一個(gè)樣本根據(jù)特征計(jì)算出的預(yù)測(cè)值和真實(shí)值之間的誤差：ε1~εn 也是獨(dú)立同分布的。

概率論中的一個(gè)概念，即一組數(shù)據(jù)彼此時(shí)間互不干擾，在現(xiàn)實(shí)環(huán)境里隨機(jī)出現(xiàn)。

獨(dú)立：比如拋硬幣，每次硬幣落地這一事件都是獨(dú)立的，不會(huì)因?yàn)橹皰佊矌诺慕Y(jié)果而改變。而如果是從一堆白球中每次取一個(gè)黑球這種事件，由于隨著白球的減少下次取出黑球的概率會(huì)不斷變大，則不能稱每次的取球行為相互獨(dú)立。

同分布：如果一組數(shù)據(jù)都是從擲6面色子的結(jié)果中獲取的，則稱樣本同分布。如果數(shù)據(jù)中夾雜著幾個(gè)擲12面色子的結(jié)果，則樣本不是同分布的。

b、高斯分布
也稱為正態(tài)分布，正態(tài)曲線呈鐘型，兩頭低，中間高，左右對(duì)稱因其曲線呈鐘形，因此人們又經(jīng)常稱之為鐘形曲線。

若隨機(jī)變量X服從一個(gè)數(shù)學(xué)期望為μ、方差為σ2的正態(tài)分布，記為N(μ，σ2)。其概率密度函數(shù)為正態(tài)分布的期望值μ決定了其位置，其標(biāo)準(zhǔn)差σ決定了分布的幅度。當(dāng)μ = 0,σ = 1時(shí)的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布。

所有樣本的誤差ε(i) 服從均值為0，方差為σ2: 因?yàn)槲覀冏罱K得到的公式是一個(gè)相對(duì)完美的公式，所以實(shí)際值會(huì)均勻得落到公式的兩側(cè)，如下所示。所有實(shí)際值和預(yù)測(cè)值的誤差均值是0，均值為0意味著誤差形成的高斯分布是一個(gè)

c、中心極限定理
中心極限定理：只要x1~xn 是獨(dú)立同分布的，那么y = x1+x2+…+xn；
則y服從：均值 = n * (x1~xn 的均值) = nμ；方差 = n*(x1~xn的方差)=nσ2；

∵ 每個(gè)樣本的預(yù)測(cè)值和實(shí)際值之間的誤差ε(i)也是獨(dú)立同分布的，所以所有誤差的和 ε(i) 滿足上述的定義。

又∵ 誤差的均值為0，這點(diǎn)在b高斯分布中已證明。(模型是最優(yōu)的，所以所有的實(shí)際值必然均勻得落在預(yù)測(cè)值的上下兩側(cè)，最后誤差的均值是0)

∴ 所有樣本的誤差ε(i) (1 ≤ i ≤ n) 是獨(dú)立同分布的，服從均值為 0，方差為某個(gè)定值的 б2 的高斯分布。得證。

似然函數(shù)定義

設(shè)： f (x | θ) 為樣本 X=x1,x2,x3,…xn)的聯(lián)合概率密度函數(shù)，如果觀測(cè)到的X=x，則稱θ的函數(shù)：L ( θ | x) = f (x | θ) 為似然函數(shù)。
即給定樣本x情況下，產(chǎn)生參數(shù)θ的可能性 = 在給定參數(shù)θ的情況下，觀測(cè)到樣本x的概率。
因此：
聯(lián)合概率密度的值等于似然函數(shù)的值。

如果X是離散的隨機(jī)變量，似然函數(shù) L (θ | x) = p θ (X=x)
比較似然函數(shù)在某個(gè)參數(shù)點(diǎn)處的取值，
如果：p θ1 (X=x) = L (θ1 | x)，p θ2 (X=x) = L (θ2 | x)；
其中：p θ1 (X=x) > p θ2 (X=x) 即 L (θ1 | x) > L (θ2 | x)；
則：當(dāng)θ = θ1時(shí)觀測(cè)到X=x的可能性大于θ = θ2時(shí)，說(shuō)明θ1比θ2更像是θ的真實(shí)值。

上面解釋得比較偏于理論，用一個(gè)例子來(lái)進(jìn)一步解釋
1號(hào)背包：白球1個(gè) 黑球99個(gè) ，顯然取得黑球的概率是99%；
2號(hào)背包：白球99個(gè) 黑球1個(gè)，顯然取得黑球的概率是1%；
現(xiàn)在我被蒙上眼睛，在某個(gè)背包中取出了一個(gè)黑球。那么問(wèn)題來(lái)了，我最有可能是從哪個(gè)背包中取出黑球的？顯然剛才我從1號(hào)背包中取球的概率較大。

題干中，黑白兩種球取出來(lái)的概率就是參數(shù)值 θ 。觀測(cè)值是黑球，對(duì)應(yīng)的公式為：
p θ1 (X=x) = L (θ1 | x) > L (θ2 | x) = p θ2 (X=x) ；
p θ1 (X=黑球) ；背包1從中取得黑球的概率為99%；
p θ2 (X=黑球) ；背包2中取得黑球的概率為1%；

上述例子中的θ只有背包1和背包2兩種參數(shù)，但在實(shí)際中可能會(huì)出現(xiàn)很多組θ：( θ1，θ2，θ3，…，θn)

最大似然函數(shù)求解θ過(guò)程
理論知識(shí)補(bǔ)充完了，接下來(lái)先回到最初的式子：
y(i)= θTX (i) + ε(i)；實(shí)際值=預(yù)測(cè)值+誤差；
即 ε(i) = y(i) - θTX (i) ①
由于誤差是服從高斯分布的，高斯分布的概率密度函數(shù)：

正態(tài)分布的概率密度函數(shù)
由于 ε(i) 均值為0，將 ε(i) 代入公式得②：

② 第i個(gè)觀測(cè)值對(duì)應(yīng)的誤差的概率密度函數(shù)
將公式 ε(i) = y(i) - θTX (i) ① 代入概率密度函數(shù)②得③：

如何從②轉(zhuǎn)化到③是最難理解的一步。

首先需要理解的是， ε(i) = y(i) - θTX (i)，只有在給定了x的情況下，y才有取值的可能。

p(x；θ)，在給定了θ情況下x的取值；
p(y|x；θ)，在給定了x的情況下，還給定了某種參數(shù)θ的情況下，y的概率密度函數(shù)是多少；
由于x和θ是一個(gè)定值，所以θTX (i)可以理解成才一個(gè)定值C。

接著思考隨機(jī)變量 ε(i)，誤差期望值(均值)是0， E(ε(i)) = 0 => E(ε(i)+C) = C

ε(i)是服從正態(tài)分布的(高斯分布)，ε(i)+C是一個(gè)服從均值為C，方差不變的正態(tài)分布。

所以：既然y(i)= θTX (i) + ε(i)；y也是服從一個(gè)均值為(均值=θTX (i),方差= ε(i)的方差)的正態(tài)分布的。但是有一個(gè)前提條件：X和θ是被給定的。

所以公式③左側(cè)的含義：在給定了x和某種參數(shù)θ的情況下y的概率密度函數(shù)。

∵ 聯(lián)合概率密度函數(shù)等于似然函數(shù)，L ( θ | x) = f (x | θ);
∴ 得出公式④

聯(lián)合概率密度函數(shù)等于似然函數(shù)
聯(lián)合概率密度函數(shù)是怎么得到的？
∵ ε(i)是獨(dú)立同分布的；
又∵ y(i)也是獨(dú)立同分布的；
又∵ 根據(jù)概率公式： P(AB)表示A和B同時(shí)發(fā)生的概率；如果A、B相互獨(dú)立則P(AB)=P(A)*P(B);
∴ 將公式③左側(cè)進(jìn)行連乘，得到了公式④上行的右半部分；進(jìn)一步展開(kāi)即可得到公式④下行的結(jié)果。

到目前為止④聯(lián)合概率密度函數(shù)等于似然函數(shù)是我們得出的結(jié)果，以上的敘述可以幫你很好的理解似然函數(shù)的概念。

總結(jié)幾個(gè)容易混淆的概念
1、f(x|θ) 是什么？
f(x|θ) 是聯(lián)合概率密度函數(shù)，是我所有樣本基礎(chǔ)上的某個(gè)事件是否發(fā)生的聯(lián)合概率密度函數(shù)。

2、換個(gè)角度再解釋下面這個(gè)公式：

以上的式子，是發(fā)生在單個(gè)樣本情況下服從的一個(gè)正態(tài)分布。
即p(y(1)|x(1);θ)…p(y(m)|x(m);θ) 都服從以上式子的正態(tài)分布。
所以他們的聯(lián)合概率密度函數(shù)就是1~m個(gè)正太分布公式的連乘。
理論依據(jù)：y(i)是獨(dú)立同分布的。
3、L(θ|x) = f(x|θ)
即給定樣本x情況下，產(chǎn)生參數(shù)θ的可能性 = 在給定參數(shù)θ的情況下，觀測(cè)到樣本x的概率。
L(θ|x) 后面統(tǒng)一簡(jiǎn)寫為L(zhǎng)(θ)，即最大似然函數(shù) ，看它取得最大值時(shí)對(duì)應(yīng)的參數(shù)θ是多少。

現(xiàn)在似然函數(shù)已經(jīng)求完了，接下來(lái)我們要求L(θ) 是最大值情況下的 θ 的值。
首先考慮公式④的求導(dǎo)，顯然不太好求。

但我們知道對(duì)于任意一個(gè)變量，對(duì)它取對(duì)數(shù)，log(x)、ln(x)，它們的單調(diào)性和x的單調(diào)性是一樣的。隨著x的增大，對(duì)數(shù)函數(shù)也增大，x減小，對(duì)數(shù)函數(shù)也減小。所以如果考慮求最大值，log(L( θ)) 、L(θ)它們極值點(diǎn)對(duì)應(yīng)的自變量θ所在的位置是一樣的。

根據(jù)結(jié)論推導(dǎo)出如下公式：

看公式的最后一行，減號(hào)左邊的式子是一個(gè)常數(shù)，要取整個(gè)式子的最大值，就是求后面這部分式子的最小值。

所以現(xiàn)在問(wèn)題轉(zhuǎn)化為求如下式子最小值時(shí)θ的值：

該函數(shù)就是我們線性回歸中最后需要求解的目標(biāo)函數(shù)。

講到這里又需要引入一個(gè)新的概念：損失函數(shù)（代價(jià)函數(shù)）
在機(jī)器學(xué)習(xí)中，我們希望找到一個(gè)面向整個(gè)模型的度量函數(shù)，使得這個(gè)度量函數(shù)越小越好。

本來(lái)我們求的是似然函數(shù)的最大值，現(xiàn)在把問(wèn)題轉(zhuǎn)換成了求目標(biāo)函數(shù)的最小值。

損失函數(shù)：衡量的是單個(gè)觀測(cè)值在當(dāng)前系統(tǒng)下的一個(gè)損失情況。
代價(jià)函數(shù)：衡量所有樣本在當(dāng)前系統(tǒng)下的損失情況。

總結(jié)一下求解最大似然估計(jì)的步驟：
1、寫出似然函數(shù)L(θ)
2、對(duì)似然函數(shù)取對(duì)數(shù)，并整理 ln L(θ)
3、求導(dǎo)數(shù)
4、解方程-導(dǎo)數(shù)為0的點(diǎn)(極值) ? ln L(θ) / ? θ = 0

好了，實(shí)在聽(tīng)不懂就算了，后文講解一個(gè)更簡(jiǎn)單的求解θ的辦法：最小二乘求解。
03 回歸算法 - 線性回歸求解 θ（最小二乘求解）

20210511
https://www.jianshu.com/p/662076060e44?from=singlemessage
https://www.jianshu.com/p/662076060e44
最小二乘法

https://zhuanlan.zhihu.com/p/87582571
https://www.jianshu.com/p/d4809616b131
最小二乘法矩陣推導(dǎo)

總結(jié)

以上是生活随笔為你收集整理的回归算法 - 线性回归求解 θ（最大似然估计求解）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：一篇文章告诉你标准化和归一化的区别？
下一篇：好好谈谈共线性问题

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活经验

回归算法 - 线性回归求解 θ（最大似然估计求解）

總結(jié)