有监督回归:鲁棒学习
1.前言
雖然最小二乘學習法是非常實用的機器學習方法,但是當訓練樣本中包含異常值的時候,學習效果非常易于受到影響。下圖展示的是對于線性模型:
以10個訓練樣本進行最小二乘學習的例子。測試結果如下圖所示:
最小二乘學習法具有容易受到異常值影響的弱點
(a)圖顯示的是沒有一場值得情況下能夠得到合理的學習結果。但是在(b)圖中,如果存在一個異常值,那么最小二乘學習的最終結果會發生極大地變化。
在實際應用中,當樣本數量很多的時候,自然會或多或少的包含一些異常值。因此,在這種情況下應用最小二乘學習法,并不能得到令人信賴的結果。在統計學領域和機器學習領域,對異常值也能保持穩定、可靠的性質,稱為魯棒性。
當訓練樣本中混入異常值時,往往希望采用先除去這些異常值在進行學習的方法,或者采用保留異常值,但結果不容易受到異常值影響的方法。去除異常值的方法我們以后再談,本編文章集中討論對于異常值有較高魯棒性的魯棒學習算法。
2.L1損失最小化學習
2.1 原理
最小二乘學習中,對訓練樣本的合理性,一般采用L2損失Jls(Θ)來測定:
這里的ri是順序為i的訓練樣本所對應的殘差,
L2損失的大小會隨著殘差呈平方級數增長,如下圖所示:
如果像“前言”中所講的那樣,訓練集中一旦出現一個異常值,學習結果的函數就會發生極大的變化。因此,本節主要討論使用L1損失對殘差增幅加以抑制的學習算法。
LA=Least Absolute的首字母。這個方法一般也被稱為L1損失最小化學習或者最小絕對值偏差學習。具體求解方法一會再談。我們先對引言中的問題進行測試,測試結果如下:
最小絕對值偏差學習可以抵抗異常點
通過這個結果我們可以看出,最小絕對值偏差學習要比最小二乘學習受異常值的影響小,另外,對于沒有異常值的情況,其結果與最小二乘學習基本相同。
2.2 原理解釋
對于常識模型:
最小二乘學習的最終輸出結果是訓練樣本輸出值{yi}i=1->n的平均值:
最小絕對值偏差學習的最終輸出結果則是訓練樣本輸出值的中間值:
對于平均值而言,只要其中一個值出現巨大變化,都會對最終結果產生巨大影響。但是對于中值而言,某一個或某幾個值發生巨大變化對中值影響是有限的。這就是為什么最小絕對值偏差學習對異常值具有魯棒性。
3.Huber損失最小化學習
3.1 原理與定義
雖然使用L1損失可以得到非常高的魯棒性,但是高的魯棒性也意味著訓練樣本與訓練模型并不十分吻合。舉一個極端的例子:不論對于什么樣的樣本,都輸出Θ=0,這樣也能得到最高的魯棒性。因此,如果片面的去追求高的魯棒性,實際的學習效果往往不能達到預期。訓練樣本的信息得到了多大程度的靈活應用,可以醫用訓練樣本的有效性來評估。本節中,我們主要介紹能夠很好滴取的有效性和魯棒性平衡的Huber損失最小化法。
Huber損失的定義如下所示,這里混合使用了L1和L2損失:
圖示為:
Huber損失,閾值η=1
如果殘差的絕對值|r|小于閾值η的話,上式就是L2損失;如果殘差的絕對值|r|大與閾值η,就變成了L1損失。
但是為了與L2損失平滑地連接,在L1損失中減去了常數η^2/2。這樣的學習方法就稱為Huber損失最小化學習。
3.2 原理解釋
還是從最原始的線性模型開始討論:
把Huber損失ρHuber的絕對值部分用二次函數從上方進行抑制:
接下來,可以采用迭代算法進行求解,并根據現在的解Θ’計算得到的殘差的絕對值|ri'|來代替ci,構成如下的形式:
通過這樣的方式,那么我們的目標函數J(Θ)的上界的最小化問題就可以通過下式家阿暖細小二乘學習法進行求解:
對于上式,權重可以使用下式加以定義:
下圖展示的是對與線性模型進行Huber損失最小化學習的例子。其中閾值η=1.在本例中,反復加權最小二乘學習法只通過兩次迭代就可以返回與最終結果相近似的函數。全部四次迭代后就收斂,得到了對于異常值魯棒性很強的學習結果。具體如下所示:
注意:將閾值η設定為非常小的時候,Huber損失可以認為是L1損失的平滑近似,因此通過上述反復加權最小二乘法,可以對L1損失最小二乘學習進行近似求解。
4.圖基損失最小化學習
4.1 原理與定義
Huber損失,是通過L1損失和L2損失進行優化組合,是有效性和魯棒性達到平衡的學習方法。然而,只要使用L2損失對異常值進行處理,就會使得異常值對結果的影響非常巨大。在實際應用中,Huber損失最小化學習的權重即使對于大的殘差也不會變為零,如下圖所示:
大的殘差下,Huber學習權重會減小但并不為零
在這種嚴峻狀況下的機器學習,采用圖基(Tukey)損失法是非常好的選擇。如下圖所示:
圖基(Tukey)損失,閾值η=3
圖基損失中,如果殘差絕對值|r|大于閾值η(就是我們說的異常值),就用η^2/6的形式輸出。因此,圖基損失最小化學習一般具有非常高的魯棒性。
但是,因為圖基損失并不是凸函數,一般擁有多個局部最優解,所以在整個值域范圍內求得最優解并不是一件容易的事情。在實際應用中,將以下面的權重應用于3節介紹的反復加權最小二乘學習法。就可以得到局部最優解,權重公式為:
另外,當|r|>η是,權重完全變為零,因此圖基損失最小化學習完全不受顯著異常值影響。
4.2 實例演示
圖基可以得到魯棒性更強的結果,但數據噪聲發生變化時容易產生其他局部最優解
閾值η=1。在這個例子中,得到比Huber損失最小學習魯棒性還要強的結果。然而,圖基損失最小化學習的結果依賴于初始化選取,初始值一旦發生變化,或者數據量減少的話,就可能得到完全不同的學習結果。在實際應用中,就會發生圖(c)所示的意外結果。
5.L1約束的Huber損失最小化學習
之前我也介紹了L1約束的稀疏學習法,本片也給出了魯棒學習法。這兩種算法是相互獨立的,都是對最小二乘進行拓展得到的,把他們組合在一起,也可以形成新的算法。所以本節介紹的就是稀疏學習中的魯棒學習方法。
首先回顧L1約束Huber損失最小化學習:
就像之前學習到的,L1約束的最小二乘學習的解是通過一般化L2約束的最小二乘學習的反復迭代而求得的。另外,在本篇3節中也介紹過,Huber損失最小化學習的解是通過加權最小二乘學習法的反復迭代而求得的。因此,把他們優化組合在一起,可以得到更好的結果。
下面給出了一個例子作對比:
對核函數模型進行L1約束的Huber損失最小化學習的例子
總結
以上是生活随笔為你收集整理的有监督回归:鲁棒学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 有监督回归:最小二乘学习法
- 下一篇: 飞秋_飞秋2010_飞秋2010下载_飞