【机器学习】坐标下降法(Coordinate descent)
coordinate-wise minimization(坐標(biāo)朝向最小)
coordinate-wise minimization介紹的是坐標(biāo)下降法的理論依據(jù)。
問(wèn)題的描述:給定一個(gè)可微的凸函數(shù),如果在某一點(diǎn),使得在每一個(gè)坐標(biāo)軸上都是最小值,那么是不是一個(gè)全局的最小值。
形式化的描述為:是不是對(duì)于所有的都有
這里的代表第個(gè)標(biāo)準(zhǔn)基向量。
答案為成立。
這是因?yàn)?#xff1a;
但是問(wèn)題來(lái)了,如果對(duì)于凸函數(shù),若不可微該會(huì)怎樣呢?
答案為不成立,上面的圖片就給出了一個(gè)反例。
那么同樣的問(wèn)題,現(xiàn)在,其中是可微的凸函數(shù),每一個(gè)都是凸的?這其實(shí)就是Lasso回歸的目標(biāo)函數(shù)。
答案為成立。
證明如下,對(duì)每一個(gè)
給定一個(gè)可微的凸函數(shù),如果在某一點(diǎn),使得在每一個(gè)坐標(biāo)軸上都是最小值,那么就是一個(gè)全局的最小值。
坐標(biāo)下降(Coordinate descent)
坐標(biāo)下降法屬于一種非梯度優(yōu)化的方法,它在每步迭代中沿一個(gè)坐標(biāo)的方向進(jìn)行線性搜索(線性搜索是不需要求導(dǎo)數(shù)的),通過(guò)循環(huán)使用不同的坐標(biāo)方法來(lái)達(dá)到目標(biāo)函數(shù)的局部極小值。
算法過(guò)程
假設(shè)目標(biāo)函數(shù)是求解的極小值,其中是一個(gè)n維的向量,我們從初始點(diǎn)開(kāi)始(是我們猜想的一個(gè)初值)對(duì)k進(jìn)行循環(huán):
相當(dāng)于每次迭代都只是更新的一個(gè)維度,即把該維度當(dāng)做變量,剩下的n-1個(gè)維度當(dāng)作常量,通過(guò)最小化來(lái)找到該維度對(duì)應(yīng)的新的值。坐標(biāo)下降法就是通過(guò)迭代地構(gòu)造序列來(lái)求解問(wèn)題,即最終點(diǎn)收斂到期望的局部極小值點(diǎn)。通過(guò)上述操作,顯然有:
證明如下:
當(dāng)時(shí),對(duì)應(yīng)的的值為
由于,所以,以此類推
所以
所以
同理可得,命題得證。
相比梯度下降法而言,坐標(biāo)下降法不需要計(jì)算目標(biāo)函數(shù)的梯度,在每步迭代中僅需求解一維搜索問(wèn)題,所以對(duì)于某些復(fù)雜的問(wèn)題計(jì)算較為簡(jiǎn)便。但如果目標(biāo)函數(shù)不光滑的話,坐標(biāo)下降法可能會(huì)陷入非駐點(diǎn)。
流程總結(jié):
小結(jié)
關(guān)于坐標(biāo)下降法,有幾點(diǎn)需要注意的:
坐標(biāo)軸下降法的求極值過(guò)程,可以和梯度下降做一個(gè)比較:
?
參考文章
Lasso回歸算法: 坐標(biāo)軸下降法與最小角回歸法小結(jié)
機(jī)器學(xué)習(xí)筆記——簡(jiǎn)述坐標(biāo)下降法
坐標(biāo)下降法(Coordinate descent)
總結(jié)
以上是生活随笔為你收集整理的【机器学习】坐标下降法(Coordinate descent)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【机器学习】次梯度(subgradien
- 下一篇: 【机器学习】LR与最大熵模型的关系