當前位置：首頁 >

【机器学习】坐标下降法（Coordinate descent）

發布時間：2023/12/20 40 豆豆

生活随笔收集整理的這篇文章主要介紹了【机器学习】坐标下降法（Coordinate descent）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

coordinate-wise minimization(坐標朝向最小)

coordinate-wise minimization介紹的是坐標下降法的理論依據。

問題的描述：給定一個可微的凸函數，如果在某一點，使得在每一個坐標軸上都是最小值，那么是不是一個全局的最小值。

形式化的描述為：是不是對于所有的都有

這里的代表第個標準基向量。

答案為成立。

這是因為：

但是問題來了，如果對于凸函數，若不可微該會怎樣呢？

答案為不成立，上面的圖片就給出了一個反例。

那么同樣的問題，現在，其中是可微的凸函數，每一個都是凸的？這其實就是Lasso回歸的目標函數。

答案為成立。

證明如下，對每一個

給定一個可微的凸函數，如果在某一點，使得在每一個坐標軸上都是最小值，那么就是一個全局的最小值。

坐標下降(Coordinate descent)

坐標下降法屬于一種非梯度優化的方法，它在每步迭代中沿一個坐標的方向進行線性搜索（線性搜索是不需要求導數的），通過循環使用不同的坐標方法來達到目標函數的局部極小值。

算法過程

假設目標函數是求解的極小值，其中是一個n維的向量，我們從初始點開始(是我們猜想的一個初值)對k進行循環：

相當于每次迭代都只是更新的一個維度，即把該維度當做變量，剩下的n-1個維度當作常量,通過最小化來找到該維度對應的新的值。坐標下降法就是通過迭代地構造序列來求解問題，即最終點收斂到期望的局部極小值點。通過上述操作，顯然有：

證明如下：

當時，對應的的值為

由于，所以，以此類推

所以

同理可得，命題得證。

相比梯度下降法而言，坐標下降法不需要計算目標函數的梯度，在每步迭代中僅需求解一維搜索問題，所以對于某些復雜的問題計算較為簡便。但如果目標函數不光滑的話，坐標下降法可能會陷入非駐點。

流程總結：

?首先，我們把向量隨機取一個初值。記為，上面的括號里面的數字代表我們迭代的輪數，當前初始輪數為0。

?對于第輪的迭代。我們從開始，到為止，依次求。的計算表達式如上文所描述。

檢查向量和向量在各個維度上的變化情況，如果在所有維度上變化都足夠小，那么即為最終結果，否則轉入第二步，繼續第輪的迭代。

小結

關于坐標下降法，有幾點需要注意的：

坐標下降的順序是任意的，不一定非得按照從的順序來，可以是從1到n的任意排列。

坐標下降的關鍵在于一次一個地更新，所有的一起更新有可能會導致不收斂。

坐標上升法和坐標下降法的本質一樣，只不過目標函數成為求的極大值了，每次迭代過程變成了。

坐標軸下降法的求極值過程，可以和梯度下降做一個比較：

坐標軸下降法在每次迭代中在當前點處沿一個坐標方向進行一維搜索?，固定其他的坐標方向，找到一個函數的局部極小值。而梯度下降總是沿著梯度的負方向求函數的局部最小值。

坐標軸下降優化方法是一種非梯度優化算法。在整個過程中依次循環使用不同的坐標方向進行迭代，一個周期的一維搜索迭代過程相當于一個梯度下降的迭代。

梯度下降是利用目標函數的導數來確定搜索方向的，該梯度方向可能不與任何坐標軸平行。而坐標軸下降法法是利用當前坐標方向進行搜索，不需要求目標函數的導數，只按照某一坐標方向進行搜索最小值。

兩者都是迭代方法，且每一輪迭代，都需要O(mn)的計算量(m為樣本數，n為系數向量的維度)

參考文章

Lasso回歸算法：坐標軸下降法與最小角回歸法小結

機器學習筆記——簡述坐標下降法

坐標下降法(Coordinate descent)

總結

以上是生活随笔為你收集整理的【机器学习】坐标下降法（Coordinate descent）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【机器学习】次梯度（subgradien
下一篇：【机器学习】LR与最大熵模型的关系