岭回归——减少过拟合问题
什么是過擬合?
在訓(xùn)練假設(shè)函數(shù)模型h時,為了讓假設(shè)函數(shù)總能很好的擬合樣本特征對應(yīng)的真實(shí)值y,從而使得我們所訓(xùn)練的假設(shè)函數(shù)缺乏泛化到新數(shù)據(jù)樣本能力。
怎樣解決過擬合
過擬合會在變量過多同時過少的訓(xùn)練時發(fā)生,我們有兩個選擇,一是減少特征的數(shù)量,二是正則化,今天我們來重點(diǎn)來討論正則化,它通過設(shè)置懲罰項(xiàng)讓參數(shù)θ足夠小,要讓我們的代價函數(shù)足夠小,就要讓θ足夠小,由于θ是特征項(xiàng)前面的系數(shù),這樣就使特征項(xiàng)趨近于零。嶺回歸與Lasso就是通過在代價函數(shù)后增加正則化項(xiàng)。
多元線性回歸損失函數(shù):
嶺回歸回歸代價函數(shù):
嶺回歸的原理
我們從矩陣的角度來看。機(jī)器學(xué)習(xí)的核心在在于求解出θ使J(θ)最小。怎樣找到這個θ,經(jīng)典的做法是使用梯度下降通過多次迭代收斂到全局最小值,我們也可以用標(biāo)準(zhǔn)方程法直接一次性求解θ的最優(yōu)值。當(dāng)回歸變量X不是列滿秩時, XX'的行列式接近于0,即接近于奇異,也就是某些列之間的線性相關(guān)性比較大時,傳統(tǒng)的最小二乘法就缺乏穩(wěn)定性,模型的可解釋性降低。因此,為了解決這個問題,需要正則化刪除一些相關(guān)性較強(qiáng)特征。
標(biāo)準(zhǔn)方程法:
加上正則化后:
這里,λ>=0是控制收縮量的復(fù)雜度參數(shù):λ的值越大,收縮量越大,共線性的影響越來越小。在不斷增大懲罰函數(shù)系數(shù)的過程中,畫出估計(jì)參數(shù)0(λ)的變化情況,即為嶺跡。通過嶺跡的形狀來判斷我們是否要剔除掉該特征(例如:嶺跡波動很大,說明該變量參數(shù)有共線性)。
步驟:1.首先要對數(shù)據(jù)進(jìn)行一些預(yù)處理,盡量把保持所有特征在一個范圍內(nèi),使用特征縮放和均值歸一化來處理特征值是很有必要的,否則,不同特征的特征值大小是沒有比較性的。
2.其次構(gòu)建懲罰函數(shù),針對不同的λ,畫出嶺跡圖。
3.根據(jù)嶺跡圖,選擇要剔除那些特征。
一個sckit-learn的example
將嶺系數(shù)繪制為正則化的函數(shù)
本例顯示了共線性對估計(jì)量系數(shù)的影響。嶺回歸是本例中使用的估計(jì)量。 每種顏色表示系數(shù)矢量的不同特征,并且這是作為正則化參數(shù)的函數(shù)顯示的。這個例子還顯示了將嶺回歸應(yīng)用于高度病態(tài)的基質(zhì)的有用性。對于這樣的矩陣,目標(biāo)變量的輕微變化會導(dǎo)致計(jì)算權(quán)重的巨大差異。在這種情況下,設(shè)置一定的正則化(λ)來減少這種變化(噪音)是有用的。當(dāng)λ很大時,正則化效應(yīng)支配平方損失函數(shù),并且系數(shù)趨于零。在路徑的末尾,由于λ趨于零,并且解決方案傾向于普通最小二乘,所以系數(shù)顯示出大的振蕩。 在實(shí)踐中,需要調(diào)整λ以使兩者之間保持平衡。
結(jié)果:
感謝您的閱讀,如果您喜歡我的文章,歡迎關(guān)注我哦
轉(zhuǎn)載于:https://www.cnblogs.com/wangshujaun/p/9235872.html
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的岭回归——减少过拟合问题的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: XShell 将Linux文件上传、下载
- 下一篇: VMware vRealize Oper