回归算法 - 线性回归求解 θ(最大似然估计求解)
回顧線性回歸的公式:θ是系數(shù),X是特征,h(x) 是預(yù)測(cè)值。
h(x) = θ0 + θ1x1 + θ2x2 + … + θnxn
h(x) = Σ θixi( i=0~n )
h(x) = θTX = [θ1,θ2,θ3,…,θn] * [x1,x2,x3,…,xn]T
最終要求是計(jì)算出θ的值,并選擇最優(yōu)的θ值構(gòu)成算法公式,使預(yù)測(cè)值能夠盡可能接近真實(shí)值。
求解線性回歸的思路
線性回歸主要用到兩種方法:最大似然估計(jì)、最小二乘法。兩種思路截然不同,但最終得到的結(jié)果是一致的。
1、最大似然估計(jì)求解
所有樣本的誤差ε(i) (1 ≤ i ≤ n) 是獨(dú)立同分布的,服從均值為 0,方差為某個(gè)定值的 б2 的高斯分布。
解釋一下上面這個(gè)概念。
a、獨(dú)立同分布( i.i.d )
實(shí)際問(wèn)題中,很多隨機(jī)現(xiàn)象都可以看做 獨(dú)立影響的綜合反映,往往服從正態(tài)分布。
特征X:x1~xn 是獨(dú)立同分布的。
每一個(gè)樣本根據(jù)特征計(jì)算出的預(yù)測(cè)值和真實(shí)值之間的誤差:ε1~εn 也是獨(dú)立同分布的。
概率論中的一個(gè)概念,即一組數(shù)據(jù)彼此時(shí)間互不干擾,在現(xiàn)實(shí)環(huán)境里隨機(jī)出現(xiàn)。
獨(dú)立:比如拋硬幣,每次硬幣落地這一事件都是獨(dú)立的,不會(huì)因?yàn)橹皰佊矌诺慕Y(jié)果而改變。而如果是從一堆白球中每次取一個(gè)黑球這種事件,由于隨著白球的減少下次取出黑球的概率會(huì)不斷變大,則不能稱每次的取球行為相互獨(dú)立。
同分布:如果一組數(shù)據(jù)都是從擲6面色子的結(jié)果中獲取的,則稱樣本同分布。如果數(shù)據(jù)中夾雜著幾個(gè)擲12面色子的結(jié)果,則樣本不是同分布的。
b、高斯分布
也稱為正態(tài)分布,正態(tài)曲線呈鐘型,兩頭低,中間高,左右對(duì)稱因其曲線呈鐘形,因此人們又經(jīng)常稱之為鐘形曲線。
若隨機(jī)變量X服從一個(gè)數(shù)學(xué)期望為μ、方差為σ2的正態(tài)分布,記為N(μ,σ2)。其概率密度函數(shù)為正態(tài)分布的期望值μ決定了其位置,其標(biāo)準(zhǔn)差σ決定了分布的幅度。當(dāng)μ = 0,σ = 1時(shí)的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布。
所有樣本的誤差ε(i) 服從均值為0,方差為σ2: 因?yàn)槲覀冏罱K得到的公式是一個(gè)相對(duì)完美的公式,所以實(shí)際值會(huì)均勻得落到公式的兩側(cè),如下所示。所有實(shí)際值和預(yù)測(cè)值的誤差均值是0,均值為0意味著誤差形成的高斯分布是一個(gè)
c、中心極限定理
中心極限定理:只要x1~xn 是獨(dú)立同分布的,那么y = x1+x2+…+xn;
則y服從:均值 = n * (x1~xn 的均值) = nμ;方差 = n*(x1~xn的方差)=nσ2;
∵ 每個(gè)樣本的預(yù)測(cè)值和實(shí)際值之間的誤差ε(i)也是獨(dú)立同分布的,所以所有誤差的和 ε(i) 滿足上述的定義。
又∵ 誤差的均值為0,這點(diǎn)在b高斯分布中已證明。(模型是最優(yōu)的,所以所有的實(shí)際值必然均勻得落在預(yù)測(cè)值的上下兩側(cè),最后誤差的均值是0)
∴ 所有樣本的誤差ε(i) (1 ≤ i ≤ n) 是獨(dú)立同分布的,服從均值為 0,方差為某個(gè)定值的 б2 的高斯分布。得證。
似然函數(shù)定義
設(shè): f (x | θ) 為樣本 X=x1,x2,x3,…xn)的聯(lián)合概率密度函數(shù),如果觀測(cè)到的X=x,則稱θ的函數(shù):L ( θ | x) = f (x | θ) 為似然函數(shù)。
即給定樣本x情況下,產(chǎn)生參數(shù)θ的可能性 = 在給定參數(shù)θ的情況下,觀測(cè)到樣本x的概率。
因此:
聯(lián)合概率密度的值等于似然函數(shù)的值。
如果X是離散的隨機(jī)變量,似然函數(shù) L (θ | x) = p θ (X=x)
比較似然函數(shù)在某個(gè)參數(shù)點(diǎn)處的取值,
如果:p θ1 (X=x) = L (θ1 | x),p θ2 (X=x) = L (θ2 | x);
其中:p θ1 (X=x) > p θ2 (X=x) 即 L (θ1 | x) > L (θ2 | x);
則:當(dāng)θ = θ1時(shí)觀測(cè)到X=x的可能性大于θ = θ2時(shí),說(shuō)明θ1比θ2更像是θ的真實(shí)值。
上面解釋得比較偏于理論,用一個(gè)例子來(lái)進(jìn)一步解釋
1號(hào)背包:白球1個(gè) 黑球99個(gè) ,顯然取得黑球的概率是99%;
2號(hào)背包:白球99個(gè) 黑球1個(gè),顯然取得黑球的概率是1%;
現(xiàn)在我被蒙上眼睛,在某個(gè)背包中取出了一個(gè)黑球。那么問(wèn)題來(lái)了,我最有可能是從哪個(gè)背包中取出黑球的?顯然剛才我從1號(hào)背包中取球的概率較大。
題干中,黑白兩種球取出來(lái)的概率就是參數(shù)值 θ 。觀測(cè)值是黑球,對(duì)應(yīng)的公式為:
p θ1 (X=x) = L (θ1 | x) > L (θ2 | x) = p θ2 (X=x) ;
p θ1 (X=黑球) ; 背包1從中取得黑球的概率為99%;
p θ2 (X=黑球) ; 背包2中取得黑球的概率為1%;
上述例子中的θ只有背包1和背包2兩種參數(shù),但在實(shí)際中可能會(huì)出現(xiàn)很多組θ:( θ1,θ2,θ3,…,θn)
最大似然函數(shù)求解θ過(guò)程
理論知識(shí)補(bǔ)充完了,接下來(lái)先回到最初的式子:
y(i)= θTX (i) + ε(i);實(shí)際值=預(yù)測(cè)值+誤差;
即 ε(i) = y(i) - θTX (i) ①
由于誤差是服從高斯分布的,高斯分布的概率密度函數(shù):
正態(tài)分布的概率密度函數(shù)
由于 ε(i) 均值為0,將 ε(i) 代入公式得②:
② 第i個(gè)觀測(cè)值對(duì)應(yīng)的誤差的概率密度函數(shù)
將公式 ε(i) = y(i) - θTX (i) ① 代入概率密度函數(shù)②得③:
如何從②轉(zhuǎn)化到③是最難理解的一步。
首先需要理解的是, ε(i) = y(i) - θTX (i),只有在給定了x的情況下,y才有取值的可能。
p(x;θ),在給定了θ情況下x的取值;
p(y|x;θ),在給定了x的情況下,還給定了某種參數(shù)θ的情況下,y的概率密度函數(shù)是多少;
由于x和θ是一個(gè)定值,所以θTX (i)可以理解成才一個(gè)定值C。
接著思考隨機(jī)變量 ε(i),誤差期望值(均值)是0, E(ε(i)) = 0 => E(ε(i)+C) = C
ε(i)是服從正態(tài)分布的(高斯分布),ε(i)+C是一個(gè)服從均值為C,方差不變的正態(tài)分布。
所以:既然y(i)= θTX (i) + ε(i);y也是服從一個(gè)均值為(均值=θTX (i),方差= ε(i)的方差)的正態(tài)分布的。但是有一個(gè)前提條件:X和θ是被給定的。
所以公式③左側(cè)的含義:在給定了x和某種參數(shù)θ的情況下y的概率密度函數(shù)。
∵ 聯(lián)合概率密度函數(shù)等于似然函數(shù),L ( θ | x) = f (x | θ);
∴ 得出公式④
聯(lián)合概率密度函數(shù)等于似然函數(shù)
聯(lián)合概率密度函數(shù)是怎么得到的?
∵ ε(i)是獨(dú)立同分布的;
又∵ y(i)也是獨(dú)立同分布的;
又∵ 根據(jù)概率公式: P(AB)表示A和B同時(shí)發(fā)生的概率;如果A、B相互獨(dú)立 則P(AB)=P(A)*P(B);
∴ 將公式③左側(cè)進(jìn)行連乘,得到了公式④上行的右半部分;進(jìn)一步展開(kāi)即可得到公式④下行的結(jié)果。
到目前為止④聯(lián)合概率密度函數(shù)等于似然函數(shù)是我們得出的結(jié)果,以上的敘述可以幫你很好的理解似然函數(shù)的概念。
總結(jié)幾個(gè)容易混淆的概念
1、f(x|θ) 是什么?
f(x|θ) 是聯(lián)合概率密度函數(shù),是我所有樣本基礎(chǔ)上的某個(gè)事件是否發(fā)生的聯(lián)合概率密度函數(shù)。
2、換個(gè)角度再解釋下面這個(gè)公式:
以上的式子,是發(fā)生在單個(gè)樣本情況下服從的一個(gè)正態(tài)分布。
即p(y(1)|x(1);θ)…p(y(m)|x(m);θ) 都服從以上式子的正態(tài)分布。
所以他們的聯(lián)合概率密度函數(shù)就是1~m個(gè)正太分布公式的連乘。
理論依據(jù):y(i)是獨(dú)立同分布的。
3、L(θ|x) = f(x|θ)
即給定樣本x情況下,產(chǎn)生參數(shù)θ的可能性 = 在給定參數(shù)θ的情況下,觀測(cè)到樣本x的概率。
L(θ|x) 后面統(tǒng)一簡(jiǎn)寫為L(zhǎng)(θ),即最大似然函數(shù) ,看它取得最大值時(shí)對(duì)應(yīng)的參數(shù)θ是多少。
現(xiàn)在似然函數(shù)已經(jīng)求完了,接下來(lái)我們要求L(θ) 是最大值情況下的 θ 的值。
首先考慮公式④的求導(dǎo),顯然不太好求。
但我們知道對(duì)于任意一個(gè)變量,對(duì)它取對(duì)數(shù),log(x)、ln(x),它們的單調(diào)性和x的單調(diào)性是一樣的。隨著x的增大,對(duì)數(shù)函數(shù)也增大,x減小,對(duì)數(shù)函數(shù)也減小。所以如果考慮求最大值,log(L( θ)) 、L(θ)它們極值點(diǎn)對(duì)應(yīng)的自變量θ所在的位置是一樣的。
根據(jù)結(jié)論推導(dǎo)出如下公式:
看公式的最后一行,減號(hào)左邊的式子是一個(gè)常數(shù),要取整個(gè)式子的最大值,就是求后面這部分式子的最小值。
所以現(xiàn)在問(wèn)題轉(zhuǎn)化為求如下式子最小值時(shí)θ的值:
該函數(shù)就是我們線性回歸中最后需要求解的目標(biāo)函數(shù)。
講到這里又需要引入一個(gè)新的概念:損失函數(shù)(代價(jià)函數(shù))
在機(jī)器學(xué)習(xí)中,我們希望找到一個(gè)面向整個(gè)模型的度量函數(shù),使得這個(gè)度量函數(shù)越小越好。
本來(lái)我們求的是似然函數(shù)的最大值,現(xiàn)在把問(wèn)題轉(zhuǎn)換成了求目標(biāo)函數(shù)的最小值。
損失函數(shù):衡量的是單個(gè)觀測(cè)值在當(dāng)前系統(tǒng)下的一個(gè)損失情況。
代價(jià)函數(shù):衡量所有樣本在當(dāng)前系統(tǒng)下的損失情況。
總結(jié)一下求解最大似然估計(jì)的步驟:
1、寫出似然函數(shù)L(θ)
2、對(duì)似然函數(shù)取對(duì)數(shù),并整理 ln L(θ)
3、求導(dǎo)數(shù)
4、解方程-導(dǎo)數(shù)為0的點(diǎn)(極值) ? ln L(θ) / ? θ = 0
好了,實(shí)在聽(tīng)不懂就算了,后文講解一個(gè)更簡(jiǎn)單的求解θ的辦法:最小二乘求解。
03 回歸算法 - 線性回歸求解 θ(最小二乘求解)
20210511
https://www.jianshu.com/p/662076060e44?from=singlemessage
https://www.jianshu.com/p/662076060e44
最小二乘法
https://zhuanlan.zhihu.com/p/87582571
https://www.jianshu.com/p/d4809616b131
最小二乘法 矩陣推導(dǎo)
總結(jié)
以上是生活随笔為你收集整理的回归算法 - 线性回归求解 θ(最大似然估计求解)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 一篇文章告诉你标准化和归一化的区别?
- 下一篇: 好好谈谈共线性问题