日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自适应lasso_线性回归模型优化算法(Lasso)

發(fā)布時(shí)間:2025/4/5 编程问答 17 豆豆
生活随笔 收集整理的這篇文章主要介紹了 自适应lasso_线性回归模型优化算法(Lasso) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

學(xué)習(xí)最好的時(shí)間是十年前,其次就是現(xiàn)在。算法?好難啊,機(jī)器學(xué)習(xí)的,那來看看,啥,線性回歸,沒意思。所以我也不打算講什么是目標(biāo): 找出

使得

最小。

后來在此基礎(chǔ)上引入最小二乘、

與 真實(shí)值

盡可能接近。提一下邏輯回歸的sigmoid函數(shù)把預(yù)測的值強(qiáng)行轉(zhuǎn)換為[0,1]范圍內(nèi)大小的值,巧的是概率的值也是[0,1]的大小。

2.優(yōu)化:解決目標(biāo)的過程,目標(biāo)是求最值,最值的問題怎么能少了求導(dǎo)。

,初中生用公式就算出來,咱先把它看成一個(gè)優(yōu)化問題,找出最好的

,使得

最小。Gradient Descent(梯度下降法),Gradient Descent

(學(xué)習(xí)率|步長);

如果目標(biāo)函數(shù)可收斂(如凸函數(shù)),就一定可以找到這個(gè)最優(yōu)值。前輩們可不單單只滿足于可以求出這個(gè)最優(yōu)解,還需要快。為什么慢呢,大互聯(lián)網(wǎng)之下樣本的個(gè)數(shù)是很大的,GD全部樣本喂進(jìn)去可想而知有多慢。隨機(jī)梯度下降SGD(stochastic Gradient Descent)作用就體現(xiàn)出來了,隨機(jī)選取一個(gè)樣本進(jìn)行梯度下降,更新到最優(yōu)輸入下一個(gè)樣本,不需要全部樣本也可以得到很好的解,加快速度的同時(shí)也節(jié)約內(nèi)存,最重要的效果還和GD差不多。mini-batch SGD:隨機(jī)一些(20~50個(gè)樣本)進(jìn)行梯度下降,完了接著下一個(gè)batch。有點(diǎn)兩者結(jié)合的感覺:GD+SGD=mini-batch SGD。按吳恩達(dá)老師所說的,梯度下降(Gradient Descent)就好比一個(gè)人想從高山上奔跑到山谷最低點(diǎn),用最快的方式(步長)奔向最低的位置(minimum)。

有前輩們依舊不滿足,深度學(xué)習(xí)的到來不得不要求更快,動(dòng)量(Momentum)主要針對步長,慣性的增大

值。前后梯度變化很大時(shí)

增加的多,反之增加的少;

是一個(gè)超參數(shù),回到上面更新過程,學(xué)習(xí)率為0.1,如果變更小,那

是算不出最優(yōu)解的,還得多寫幾步;如果大,就自然加快了,但也很大可能過大導(dǎo)致解會(huì)在最優(yōu)值附近來回震蕩。RMSProp( Root Mean Square Prop)在上面的Momentum優(yōu)化算法中,雖然初步解決了優(yōu)化中擺動(dòng)幅度大的問題。但并沒有解決過大的問題。RMSProp算法對梯度計(jì)算了微分平方加權(quán)平均數(shù),所以

變小。Adam(Adaptive Moment Estimation)是Momentum+RMSProp結(jié)合自然水到渠成。

小結(jié)下,GD慢,SGD上,但缺點(diǎn)是可能會(huì)在溝壑的兩邊持續(xù)震蕩,在最小值附近波動(dòng)。Adam(Adaptive Moment Estimation)的出現(xiàn)提出自適應(yīng)學(xué)習(xí)的方法去解決了學(xué)習(xí)率過大過小的問題。雖然比SGD快,但極大或極小的學(xué)習(xí)率都會(huì)導(dǎo)致較差的收斂行為,也就是說泛化能力、穩(wěn)定性相對而言還沒有比他慢的SGD好。具體公式細(xì)節(jié)我就不展開了,感興趣的看看這篇論文

3.

)為什么趨于正無窮大?知道它為啥趨于無窮大也就好理解為啥要加L1&L2正則去約束

的大小。標(biāo)題是講優(yōu)化算法,我就也不去多說什么是Ridge回歸(嶺回歸)

優(yōu)化L2(Ridge回歸)的方法就用我之前講的那些SGD等就可以了,畢竟加的『懲罰』是可以求導(dǎo)的。

我想講的重點(diǎn)是L1正則化(Lasso回歸):

這里的優(yōu)化SGD就不管用了,畢竟

不可導(dǎo)(圖像不光滑)。這里就就得引入Coordinate Descent(坐標(biāo)下降法),當(dāng)然它不單單優(yōu)化這個(gè)Lasso算法,和GD(梯度下降法)目的一樣,都是為了找到最優(yōu)解。

,D為所求

參數(shù)的維度,GD拿過來所有維度更新一遍,CD不是這樣的,一次只更新一個(gè)維度,其它的當(dāng)維度做常數(shù)處理。第一次我更新

,

,第二次我更新

,

,直到第D次更新

。可以看到更新其中一個(gè)維度,其他維度都不參與跟新,當(dāng)然更新

可以是隨機(jī)的,不一定

順序。

展開:

,

為第i個(gè)樣本的第j特征

這里就把j

D與j=D分開求導(dǎo)計(jì)算。

,別看它那么長,其實(shí)就一常數(shù)。

則是對D維度求導(dǎo)的那個(gè),且

恒成立。

,簡化到這里得對這個(gè)

分情況討論了。

根據(jù)

導(dǎo)數(shù)情況分為(1)、(2)、(3),令(1)=0、(2)=0、(3)=0,再加上

這個(gè)條件,就可以求出最優(yōu)的參數(shù)

的值(我就不給解的過程了~累)。到此我想要說的優(yōu)化算法算是結(jié)束了,通過剛才的手推的結(jié)論,L1正則帶來的稀疏性不難被發(fā)現(xiàn),只要滿足(3),統(tǒng)統(tǒng)給強(qiáng)行轉(zhuǎn)為0。機(jī)器學(xué)習(xí)中數(shù)據(jù)的特征一般是特別多的,甚至有時(shí)候特征的維數(shù)都會(huì)大于樣本的個(gè)數(shù),Lasso是不是幫我解決了一大問題,讓特征維數(shù)變稀疏,同時(shí)又不缺特征可解釋行。

參考:

2、李航,統(tǒng)計(jì)學(xué)習(xí)方法,清華大學(xué)出版社,2012

總結(jié)

以上是生活随笔為你收集整理的自适应lasso_线性回归模型优化算法(Lasso)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。