當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

稀疏性和L1正则化基础 Sparsity and Some Basics of L1 Regularization

發(fā)布時間：2025/3/21 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了稀疏性和L1正则化基础 Sparsity and Some Basics of L1 Regularization 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Sparsity 是當(dāng)今機(jī)器學(xué)習(xí)領(lǐng)域中的一個重要話題。John Lafferty 和 Larry Wasserman 在 2006 年的一篇評論中提到：

Some current challenges … are high dimensional data, sparsity, semi-supervised learning, the relation between computation and risk, and structured prediction.John Lafferty and Larry Wasserman. Challenges in statistical machine learning. Statistica Sinica. Volume 16, Number 2, pp.?307-323, 2006.

Sparsity 的最重要的“客戶”大概要屬 high dimensional data 了吧?，F(xiàn)在的機(jī)器學(xué)習(xí)問題中，具有非常高維度的數(shù)據(jù)隨處可見。例如，在文檔或圖片分類中常用的?bag of words?模型里，如果詞典的大小是一百萬，那么每個文檔將由一百萬維的向量來表示。高維度帶來的的一個問題就是計算量：在一百萬維的空間中，即使計算向量的內(nèi)積這樣的基本操作也會是非常費(fèi)力的。不過，如果向量是稀疏的的話（事實上在 bag of words 模型中文檔向量通常都是非常稀疏的），例如兩個向量分別只有??和??個非零元素，那么計算內(nèi)積可以只使用??次乘法完成。因此稀疏性對于解決高維度數(shù)據(jù)的計算量問題是非常有效的。

當(dāng)然高維度帶來的問題不止是在計算量上。例如在許多生物相關(guān)的問題中，數(shù)據(jù)的維度非常高，但是由于收集數(shù)據(jù)需要昂貴的實驗，因此可用的訓(xùn)練數(shù)據(jù)卻相當(dāng)少，這樣的問題通常稱為“small?, large?problem”——我們一般用??表示數(shù)據(jù)點的個數(shù)，用??表示變量的個數(shù)，即數(shù)據(jù)維度。當(dāng)??的時候，不做任何其他假設(shè)或者限制的話，學(xué)習(xí)問題基本上是沒法進(jìn)行的。因為如果用上所有變量的話，?越大，通常會導(dǎo)致模型越復(fù)雜，但是反過來??有很小，于是就會出現(xiàn)很嚴(yán)重的 overfitting 問題。例如，最簡單的線性回歸模型：

使用 square loss 來進(jìn)行學(xué)習(xí)的話，就變成最小化如下的問題

這里??是數(shù)據(jù)矩陣，而??是由標(biāo)簽組成的列向量。該問題具有解析解

(eq: 1)

然而，如果??的話，矩陣??將會不是滿秩的，而這個解也沒法算出來。或者更確切地說，將會有無窮多個解。也就是說，我們的數(shù)據(jù)不足以確定一個解，如果我們從所有可行解里隨機(jī)選一個的話，很可能并不是真正好的解，總而言之，我們 overfitting 了。

解決 overfitting 最常用的辦法就是 regularization ，例如著名的 ridge regression 就是添加一個?regularizer ：

直觀地來看，添加這個 regularizer 會使得模型的解偏向于 norm 較小的??。從凸優(yōu)化的角度來說，最小化上面這個??等價于如下問題：

其中??是和??一一對應(yīng)的是個常數(shù)。也就是說，我們通過限制??的 norm 的大小實現(xiàn)了對模型空間的限制，從而在一定程度上（取決于??的大小）避免了 overfitting 。不過 ridge regression 并不具有產(chǎn)生稀疏解的能力，得到的系數(shù)??仍然需要數(shù)據(jù)中的所有特征才能計算預(yù)測結(jié)果，從計算量上來說并沒有得到改觀。

不過，特別是在像生物或者醫(yī)學(xué)等通常需要和人交互的領(lǐng)域，稀疏的解除了計算量上的好處之外，更重要的是更具有“可解釋性”。比如說，一個病如果依賴于 5 個變量的話，將會更易于醫(yī)生理解、描述和總結(jié)規(guī)律，但是如果依賴于 5000 個變量的話，基本上就超出人肉可處理的范圍了。

在這里引入稀疏性的方法是用??regularization 代替??regularization，得到如下的目標(biāo)函數(shù)

(eq: 2)

該問題通常被稱為 LASSO (least absolute shrinkage and selection operator) 。LASSO 仍然是一個 convex optimization 問題，不過不再具有解析解。它的優(yōu)良性質(zhì)是能產(chǎn)生稀疏性，導(dǎo)致??中許多項變成零。

可是，為什么它能產(chǎn)生稀疏性呢？這也是一直讓我挺感興趣的一個問題，事實上在之前申請學(xué)校的時候一次電話面試中我也被問到了這個問題。我當(dāng)時的回答是背后的理論我并不是很清楚，但是我知道一個直觀上的理解。下面我們就先來看一下這個直觀上的理解。

首先，和 ridge regression 類似，上面形式的 LASSO 問題也等價于如下形式：

也就是說，我們將模型空間限制在??的一個?-ball 中。為了便于可視化，我們考慮兩維的情況，在??平面上可以畫出目標(biāo)函數(shù)的等高線，而約束條件則成為平面上半徑為??的一個 norm ball 。等高線與 norm ball 首次相交的地方就是最優(yōu)解。如圖?(fig: 1)?所示：

圖 1

-ball meets quadratic function.?-ball has corners. It’s very likely that the meet-point is at one of the corners.

-ball meets quadratic function.?-ball has no corner. It is very unlikely that the meet-point is on any of axes."

可以看到，-ball 與?-ball 的不同就在于他在和每個坐標(biāo)軸相交的地方都有“角”出現(xiàn)，而目標(biāo)函數(shù)的測地線除非位置擺得非常好，大部分時候都會在角的地方相交。注意到在角的位置為產(chǎn)生稀疏性，例如圖中的相交點就有??，而更高維的時候（想象一下三維的?-ball 是什么樣的？）除了角點以外，還有很多邊的輪廓也是既有很大的概率成為第一次相交的地方，又會產(chǎn)生稀疏性。

相比之下，-ball 就沒有這樣的性質(zhì)，因為沒有角，所以第一次相交的地方出現(xiàn)在具有稀疏性的位置的概率就變得非常小了。這就從直觀上來解釋了為什么??regularization 能產(chǎn)生稀疏性，而??regularization 不行的原因了。

不過，如果只限于 intuitive 的解釋的話，就不那么好玩了，但是背后完整的理論又不是那么容易能夠搞清楚的，既然這次的標(biāo)題是 Basics ，我們就先來看一個簡單的特殊情況好了。

接下來我們考慮 orthonormal design 的情況：?。然后看看 LASSO 的解具體是什么樣子。注意 orthonormal design 實際上是要求特征之間相互正交。這可以通過對數(shù)據(jù)進(jìn)行?PCA?以及模長 normalize 來實現(xiàn)。

注意到 LASSO 的目標(biāo)函數(shù)?(eq: 2)?是 convex 的，根據(jù)?KKT 條件，在最優(yōu)解的地方要求 gradient??。不過這里有一點小問題：?-norm 不是光滑的，不存在 gradient ，所以我們需要用一點?subgradient?的東西。

定義 1(subgradient; subdifferential). 對于在??維歐氏空間中的凸開子集??上定義的實值函數(shù)??，一個向量??維向量??稱為??在一點??處的 subgradient ，如果對于任意??，滿足由在點??處的所有 subgradient 所組成的集合稱為??處的 subdifferential ，記為??。

注意 subgradient 和 subdifferential 只是對凸函數(shù)定義的。例如一維的情況，??，在?處的 subdifferential 就是??這個區(qū)間（集合）。注意在??的 gradient 存在的點，subdifferential 將是由 gradient 構(gòu)成的一個單點集合。這樣就將 gradient 的概念加以推廣了。這個推廣有一個很好的性質(zhì)。

性質(zhì)(condition for global minimizer). 點??是凸函數(shù)??的一個全局最小值點，當(dāng)且僅當(dāng)??。

證明很簡單，將??帶入定義?(def: 1)?中的那個式子立即就可以得到。有了這個工具之后，就可以對 LASSO 的最優(yōu)解進(jìn)行分析了。在此之前，我們先看一下原始的 least square 問題的最優(yōu)解?(eq: 1)?現(xiàn)在變成了什么樣子，由于 orthonormal design ，我們有

(eq: 3)

然后我們再來看 LASSO ，假設(shè)??是??的全局最優(yōu)值點?？紤]第??個變量?，有兩種情況。

gradient 存在，此時?

由于 gradient 在最小值點必須要等于零，我們有

亦即

根據(jù) orthonormal design 性質(zhì)以及 least square 問題在 orthonormal design 時的解?(eq: 3)?化簡得到

從這個式子也可以明顯看出??和??是同號的，于是??等于??，所以上面的式子變?yōu)?/p>

再用一次??，兩邊同時乘以??，可以得到

于是剛才的式子可以進(jìn)一步寫為

(eq: 4)

這里??表示??的正部。

gradient 不存在，此時?

根據(jù) subgradient 在最小值點處的性質(zhì)的性質(zhì)，此時比有

亦即存在??使得

于是

又因為??，所以這個時候式子也可以統(tǒng)一為?(eq: 4)?的形式。如此一來，在 orthonormal design 的情況下，LASSO 的最優(yōu)解就可以寫為?(eq: 4)?，可以用圖?(fig: 2)?形象地表達(dá)出來。

圖 2

圖上畫了原始的 least square 解，LASSO 的解以及 ridge regression 的解，用上面同樣的方法（不過由于 ridge regularizer 是 smooth 的，所以過程卻簡單得多）可以得知 ridge regression 的解是如下形式

可以 ridge regression 只是做了一個全局縮放，而 LASSO 則是做了一個 soft thresholding ：將絕對值小于??的那些系數(shù)直接變成零了，這也就更加令人信服地解釋了 LASSO 為何能夠產(chǎn)生稀疏解了。

from:?http://freemind.pluskid.org/machine-learning/sparsity-and-some-basics-of-l1-regularization/

《新程序員》：云原生和全面數(shù)字化實踐50位技術(shù)專家共同創(chuàng)作，文字、視頻、音頻交互閱讀

總結(jié)

以上是生活随笔為你收集整理的稀疏性和L1正则化基础 Sparsity and Some Basics of L1 Regularization的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：压缩感知(III) A Compress
下一篇：让书写的Matlab代码运行更快 Rec

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

稀疏性和L1正则化基础 Sparsity and Some Basics of L1 Regularization

總結(jié)