lasso回归_线性回归amp;lasso回归amp;岭回归介绍与对比
1. 回顧最小二乘法
詳細(xì)的解釋在以下這個(gè)鏈接
https://www.matongxue.com/madocs/818
簡(jiǎn)而言之,最小二乘法展現(xiàn)了平方誤差值最小的時(shí)候,就是最好的擬合回歸線。
2. 線性回歸的五大假設(shè):
假設(shè)一:誤差的分布是正態(tài)分布
因?yàn)橹挥姓`差的分布是正態(tài)分布的時(shí)候,最小二乘估計(jì)才是最優(yōu)解/最有可能的值。
如果誤差項(xiàng)不呈正態(tài)分布,意味著置信區(qū)間會(huì)變得很不穩(wěn)定,我們往往需要重點(diǎn)關(guān)注一些異常的點(diǎn)(誤差較大但出現(xiàn)頻率較高),來得到更好的模型。
假設(shè)二:誤差的方差是常數(shù)
如果誤差的方差不是常數(shù),也就是異方差性。那么在假設(shè)一中說了誤差的分布需要是正態(tài)分布,也就是與方差得是一個(gè)常數(shù)矛盾。所以當(dāng)誤差的方差是一個(gè)可變值的時(shí)候,意味著當(dāng)我們進(jìn)行建立回歸模型的時(shí)候,往往會(huì)高估誤差項(xiàng)(outlier)的重要性,導(dǎo)致回歸效果不好。
假設(shè)三:誤差項(xiàng)之間相互獨(dú)立
同理,在假設(shè)一中,若誤差項(xiàng)的分布為正態(tài)分布,那么誤差項(xiàng)之間也需要相互獨(dú)立。如果誤差項(xiàng)之間不相互獨(dú)立的話,那么就是說明他們存在自相關(guān)性。也就是后一項(xiàng)的值會(huì)受到前一項(xiàng)的影響(常常出現(xiàn)在時(shí)間序列數(shù)據(jù)集上)。當(dāng)自相關(guān)性發(fā)生的時(shí)候,我們測(cè)的標(biāo)準(zhǔn)差往往會(huì)偏小,進(jìn)而會(huì)導(dǎo)致置信區(qū)間變窄。
假設(shè)四:不存在多重共線性
首先,要弄清楚多重共線性與變量之間不存在相關(guān)關(guān)系區(qū)別開。變量之間沒有多重共線性,不意味著他們沒有相關(guān)關(guān)系,反之亦然。
多重共線性是指,如果我們發(fā)現(xiàn)本應(yīng)相互獨(dú)立的自變量們出現(xiàn)了一定程度(甚至高度)的相關(guān)性,那我們就很難得知自變量與因變量之間真正的關(guān)系了。
當(dāng)多重共線性性出現(xiàn)的時(shí)候,變量之間的聯(lián)動(dòng)關(guān)系會(huì)導(dǎo)致我們測(cè)得的標(biāo)準(zhǔn)差偏大,置信區(qū)間變寬。那也就是說,使用最小二乘法求解得到的回歸線不再是最佳的,有效性減小。
https://zhidao.baidu.com/question/202672845122566165.html?zhidao.baidu.com假設(shè)五:線性性與可加性
線性性:X1每變動(dòng)一個(gè)單位,Y相應(yīng)變動(dòng)a1個(gè)單位,與X1的絕對(duì)數(shù)值大小無關(guān)。
可加性:X1對(duì)Y的影響是獨(dú)立于其他自變量(如X2)的。
回歸分析的五個(gè)基本假設(shè)_Noob_daniel的博客-CSDN博客?blog.csdn.net3. 代價(jià)函數(shù)與求解代價(jià)函數(shù)
線性回歸的一般形式:
如何求得θ使得損失函數(shù)達(dá)到最小值呢?
方法一:梯度下降法
梯度下降法基礎(chǔ)知識(shí)
1) 梯度:
在微積分里面,對(duì)多元函數(shù)參數(shù)求偏導(dǎo)數(shù),把求的各參數(shù)的偏導(dǎo)數(shù)以向量的形式寫出來,就是梯度。
梯度向量從幾何意義上講,就是函數(shù)變化增加最快的地方,沿著梯度向量的方向更容易找到函數(shù)的最大值,沿著向量相反的方向,梯度減小最快,更容易找到函數(shù)最小值。
2) 梯度下降與梯度上升可以互相轉(zhuǎn)化。求損失函數(shù)f(θ)的最小值,用梯度下降法迭代,亦可反過來求損失函數(shù) -f(θ)的最大值,用梯度上升法。
吳恩達(dá) 機(jī)器學(xué)習(xí)筆記二(lecture 2)(損失函數(shù)、梯度下降)?blog.csdn.net方法二:正規(guī)方程法
因?yàn)檎?guī)方程法只適用于線性模型,使用幾率較小,所以不做介紹,感興趣的朋友可以自行了解~
4. 為什么需要lasso回歸與嶺回歸(ridge) ?這兩個(gè)回歸又是什么?
與邏輯回歸一樣,線性回歸同樣面臨著在training的時(shí)候過分依賴訓(xùn)練集的數(shù)據(jù),導(dǎo)致過擬合問題,所以我們需要在原線性回歸的損失函數(shù)中加點(diǎn)別的東西,讓回歸/擬合過程中減少對(duì)訓(xùn)練集的“關(guān)注”。同樣地,采取的策略就是在損失函數(shù)中加入正則項(xiàng)L1或者L2.
lasso regression = linear regression + L1 regularization
ridge regression = linear regression + L2 regularization
5. lasso回歸與嶺回歸(ridge) 兩者的區(qū)別
這兩種回歸的區(qū)別歸根到底是L1和L2兩種正則項(xiàng)的區(qū)別。在我的上一篇文章中有詳細(xì)介紹L1和L2的特點(diǎn),大家有興趣可以去翻看(當(dāng)然現(xiàn)在也會(huì)再次簡(jiǎn)單介紹)。
從第四節(jié)的公式中,我們知道隨著正則化強(qiáng)度的增大,θ的取值會(huì)逐漸變小,L1正則化會(huì)將參數(shù)壓縮到0,L2正則化只會(huì)讓參數(shù)盡量小,不會(huì)取到0. 所以在L1正則化在逐漸加強(qiáng)的過程中,相對(duì)不重要的特征的參數(shù)會(huì)比相對(duì)重要的特征的參數(shù)更快地變成0. 所以L1正則化本質(zhì)是一個(gè)特征選擇的過程。選出少量但重要的特征,以防止過擬合問題。而L2正則化在加強(qiáng)的過程中,會(huì)盡量讓每個(gè)特征對(duì)模型都有一些貢獻(xiàn),相對(duì)不重要的特征的參數(shù)會(huì)非常接近0.
以二維數(shù)據(jù)空間為例,說明Lasso和Ridge兩種方法的差異,左圖對(duì)應(yīng)于Lasso方法,右圖對(duì)應(yīng)于Ridge方法。
如上圖所示,兩個(gè)圖是對(duì)應(yīng)于兩種方法的等高線與約束域。紅色的橢圓代表的是隨著λ的變化所得到的殘差平方和,β?為橢圓的中心點(diǎn),為對(duì)應(yīng)普通線性模型的最小二乘估計(jì)。左右兩個(gè)圖的區(qū)別在于約束域,即對(duì)應(yīng)的藍(lán)色區(qū)域。
等高線和約束域的切點(diǎn)就是目標(biāo)函數(shù)的最優(yōu)解,Ridge方法對(duì)應(yīng)的約束域是圓,其切點(diǎn)只會(huì)存在于圓周上,不會(huì)與坐標(biāo)軸相切,則在任一維度上的取值都不為0,因此沒有稀疏;對(duì)于Lasso方法,其約束域是正方形,會(huì)存在與坐標(biāo)軸的切點(diǎn),使得部分維度特征權(quán)重為0,因此很容易產(chǎn)生稀疏的結(jié)果。
所以,Lasso方法可以達(dá)到變量選擇的效果,將不顯著的變量系數(shù)壓縮至0,而Ridge方法雖然也對(duì)原本的系數(shù)進(jìn)行了一定程度的壓縮,但是任一系數(shù)都不會(huì)壓縮至0,最終模型保留了所有的變量。
以二維空間為例,約束域在L1中,為
,對(duì)應(yīng)左圖藍(lán)色。
約束域在L2中,為
,對(duì)應(yīng)左圖藍(lán)色。
由圖也可以看出,Lasso的復(fù)雜程度由λ來控制,λ越大對(duì)變量較多的線性模型的懲罰力度就越大,從而最終獲得一個(gè)變量較少的模型。
回歸問題-Lasso回歸_越努力 越幸運(yùn)-CSDN博客?blog.csdn.net所以,lasso回歸與嶺回歸在數(shù)據(jù)集中的變量之間具有高維度和多重共線性的情況下也能有良好的效果。
總結(jié)
以上是生活随笔為你收集整理的lasso回归_线性回归amp;lasso回归amp;岭回归介绍与对比的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: kali设置中文_kali安装教程
- 下一篇: 代码内容变成图片_网站只剩25行代码,真