當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

[机器学习笔记]Note5--归一化

發(fā)布時間：2023/12/10 编程问答 65 豆豆

生活随笔收集整理的這篇文章主要介紹了 [机器学习笔记]Note5--归一化小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

繼續(xù)是機器學(xué)習(xí)課程的筆記，這節(jié)課會介紹歸一化的內(nèi)容。

過擬合問題

這節(jié)課會介紹一個在機器學(xué)習(xí)過程中經(jīng)常會遇到的問題–過擬合。通常，當(dāng)我們有非常多的特征，我們可以學(xué)習(xí)得到的假設(shè)可能非常好地適應(yīng)訓(xùn)練集，即代價函數(shù)可能幾乎是0，但是可能會不能推廣到新的數(shù)據(jù)，即泛化能力差，對于新的數(shù)據(jù)預(yù)測結(jié)果不理想。這就是過擬合問題。而特征非常多也是發(fā)生過擬合問題的一個原因之一。

下面是一個回歸問題，分別有3個模型，如下所示：

第一個模型是一個線性模型，低度擬合，不能很好地適應(yīng)我們的訓(xùn)練集；第三個模型是一個四次方的模型，過度擬合，雖然能非常好地適應(yīng)我們的訓(xùn)練集，但在新輸入變量進行預(yù)測時可能會效果不好；而中間的模型則是相對最合適的模型。

在回歸問題中會有過擬合問題，同樣在分類問題也是有過擬合的問題，例子如下所示：

同樣是第一個模型是線性模型，只能低度擬合，而第三個模型是一個過渡擬合的模型，對新輸入變量進行預(yù)測時效果會不好，只有中間的模型是最合適的模型。

那么，當(dāng)發(fā)生過擬合的問題時，我們可以采取下面的措施來避免過擬合：
1. 丟棄一些不能幫助我們正確預(yù)測的特征：可以是手工選擇保留哪些特征或者使用一些模型選擇的算法來幫忙(例如PCA);
2. 歸一化。保留所有的特征，但是減小參數(shù)的大小。

歸一化代價函數(shù)

在上述回歸問題的例子中，對于過擬合的模型是hθ(x)=θ0+θ1x1+θ2x22+θ3x33+θ4x44。

我們決定要減少θ3和θ4的大小，我們要做的是修改代價函數(shù)，在其中對θ3和θ4設(shè)置一點懲罰。這樣做的話，我們在嘗試最小化代價時也需要將這個懲罰納入考慮中，并最終導(dǎo)致選擇較小的θ3和θ4。修改后的代價函數(shù)如下：

minθ12m∑i=1m((hθ(x(i)?y(i))2+10000θ23+100000θ24)

通過這樣的代價函數(shù)選擇出來的θ3和θ4對預(yù)測結(jié)果的影響就會比之前小許多。

那么假如我們有許多的特征，我們并不知道其中哪些特征需要懲罰，我們將對所有的特征進行懲罰，并且讓代價函數(shù)最優(yōu)化的軟件來選擇這些懲罰的程度。那么代價函數(shù)如下所示：

J(θ)=12m[∑i=1m((hθ(x(i))?y(i))2+λ∑j=1nθ2j)]
其中λ又稱為歸一化參數(shù)。
注意：根據(jù)慣例，我們不對

θ0進行懲罰。

經(jīng)過歸一化處理的模型與原模型的可能對比如下圖所示：

這里如果選擇的歸一化參數(shù)λ過大，則會把所有的參數(shù)都最小化，導(dǎo)致模型變成hθ(x)=θ0，也就是上圖中紅色直線所示的情況，造成低度擬合。

歸一化線性回歸

梯度下降算法

歸一化線性回歸的代價函數(shù)是：

J(θ)=12m[∑i=1m((hθ(x(i))?y(i))2+λ∑j=1nθ2j)]
此時如要使用梯度下降法來令代價函數(shù)最小化，由于我們沒有對

θ0進行歸一化，所以梯度下降法將會分兩種情形:

Repeat until convergence{

θ0:=θ0?α1m∑i=1m(hθ(x(i))?y(i))?x(i)0θj:=θj?α[1m∑i=1m(hθ(x(i))?y(i))?x(i)j+λmθj](forj=1,2,3,…,n)
}

其中，對第二個更新的式子進行調(diào)整可得：

θj:=θj(1?αλm)?α1m∑i=1m(hθ(x(i))?y(i))?x(i)j
由該式子可以看出歸一化線性回歸的梯度下降算法的變化在于， 每次都在原有算法更新規(guī)則的基礎(chǔ)上令θ值減少了一個額外的值，這是因為

1?αλm<1，而后面第二項式子跟沒有使用歸一化時候是一樣的。

正規(guī)方程

同樣，也可以使用正規(guī)方程來求解線性回歸模型。這里做如下假設(shè)：

X=?????(x(1))T?(x(m))T?????y=????(y(1))?(y(m))????
這里的

X是訓(xùn)練集的矩陣，是一個

m?(n+1)維矩陣，即有m個樣本，每個樣本有n+1個特征(實際是n個特征，但是每個樣本都添加了一個

x0=1，而

y則是一個

(m+1)?1維的向量，表示的是訓(xùn)練樣本的標(biāo)簽。

這里要求解歸一化線性回歸模型的方法如下：

θ=(XTX+λ?????????000???10??01??????1?????????)?1XTy
這里的矩陣是一個

(n+1)?(n+1)大小，并且是一個對角線上除了第一行外是1，例如當(dāng)n=2時，這個矩陣就是

[000?010?001]

這個矩陣的得到是通過令??θjJ(θ)=0所得到的，不過視頻中并沒有給出詳細的推導(dǎo)過程。

歸一化邏輯回歸

對于邏輯回歸，我們也可以得到一個歸一化的代價函數(shù)表達式:

J(θ)=?1m[∑i=1my(i)loghθ(x(i))+(1?y(i)log(1?hθ(x(i)))]+λ2m∑j=1nθ2j

使用的梯度下降算法如下所示:

Repeat until convergence{

θ0:=θ0?α1m∑i=1m(hθ(x(i))?y(i))?x(i)0θj:=θj?α[1m∑i=1m(hθ(x(i))?y(i))?x(i)j+λmθj](forj=1,2,3,…,n)
}

同樣，看上去也是與線性回歸的公式一樣，但是由于hθ(x)=g(θTX),因此是與線性回歸不同的。

小結(jié)

本節(jié)主要是介紹了過擬合的問題，這是由于特征過多導(dǎo)致學(xué)習(xí)得到的模型非常擬合訓(xùn)練集的數(shù)據(jù)，但是對于新的輸入數(shù)據(jù)卻得到不理想的預(yù)測結(jié)果，解決這個問題的方法，一個是減少特征的數(shù)量，第二個就是使用歸一化來減小參數(shù)的大小。

因此后面分別介紹了歸一化代價函數(shù)，以及線性回歸和邏輯回歸中梯度下降算法對于歸一化代價函數(shù)的計算公式。

總結(jié)

以上是生活随笔為你收集整理的[机器学习笔记]Note5--归一化的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Dreamweaver文字或图片如何添加
下一篇：仅需一行代码，你的纯文本秒变Markdo