有监督回归:鲁棒学习
1.前言
雖然最小二乘學(xué)習(xí)法是非常實(shí)用的機(jī)器學(xué)習(xí)方法,但是當(dāng)訓(xùn)練樣本中包含異常值的時(shí)候,學(xué)習(xí)效果非常易于受到影響。下圖展示的是對(duì)于線性模型:
以10個(gè)訓(xùn)練樣本進(jìn)行最小二乘學(xué)習(xí)的例子。測(cè)試結(jié)果如下圖所示:
最小二乘學(xué)習(xí)法具有容易受到異常值影響的弱點(diǎn)
(a)圖顯示的是沒有一場(chǎng)值得情況下能夠得到合理的學(xué)習(xí)結(jié)果。但是在(b)圖中,如果存在一個(gè)異常值,那么最小二乘學(xué)習(xí)的最終結(jié)果會(huì)發(fā)生極大地變化。
在實(shí)際應(yīng)用中,當(dāng)樣本數(shù)量很多的時(shí)候,自然會(huì)或多或少的包含一些異常值。因此,在這種情況下應(yīng)用最小二乘學(xué)習(xí)法,并不能得到令人信賴的結(jié)果。在統(tǒng)計(jì)學(xué)領(lǐng)域和機(jī)器學(xué)習(xí)領(lǐng)域,對(duì)異常值也能保持穩(wěn)定、可靠的性質(zhì),稱為魯棒性。
當(dāng)訓(xùn)練樣本中混入異常值時(shí),往往希望采用先除去這些異常值在進(jìn)行學(xué)習(xí)的方法,或者采用保留異常值,但結(jié)果不容易受到異常值影響的方法。去除異常值的方法我們以后再談,本編文章集中討論對(duì)于異常值有較高魯棒性的魯棒學(xué)習(xí)算法。
2.L1損失最小化學(xué)習(xí)
2.1 原理
最小二乘學(xué)習(xí)中,對(duì)訓(xùn)練樣本的合理性,一般采用L2損失Jls(Θ)來測(cè)定:
這里的ri是順序?yàn)閕的訓(xùn)練樣本所對(duì)應(yīng)的殘差,
L2損失的大小會(huì)隨著殘差呈平方級(jí)數(shù)增長,如下圖所示:
如果像“前言”中所講的那樣,訓(xùn)練集中一旦出現(xiàn)一個(gè)異常值,學(xué)習(xí)結(jié)果的函數(shù)就會(huì)發(fā)生極大的變化。因此,本節(jié)主要討論使用L1損失對(duì)殘差增幅加以抑制的學(xué)習(xí)算法。
LA=Least Absolute的首字母。這個(gè)方法一般也被稱為L1損失最小化學(xué)習(xí)或者最小絕對(duì)值偏差學(xué)習(xí)。具體求解方法一會(huì)再談。我們先對(duì)引言中的問題進(jìn)行測(cè)試,測(cè)試結(jié)果如下:
最小絕對(duì)值偏差學(xué)習(xí)可以抵抗異常點(diǎn)
通過這個(gè)結(jié)果我們可以看出,最小絕對(duì)值偏差學(xué)習(xí)要比最小二乘學(xué)習(xí)受異常值的影響小,另外,對(duì)于沒有異常值的情況,其結(jié)果與最小二乘學(xué)習(xí)基本相同。
2.2 原理解釋
對(duì)于常識(shí)模型:
最小二乘學(xué)習(xí)的最終輸出結(jié)果是訓(xùn)練樣本輸出值{yi}i=1->n的平均值:
最小絕對(duì)值偏差學(xué)習(xí)的最終輸出結(jié)果則是訓(xùn)練樣本輸出值的中間值:
對(duì)于平均值而言,只要其中一個(gè)值出現(xiàn)巨大變化,都會(huì)對(duì)最終結(jié)果產(chǎn)生巨大影響。但是對(duì)于中值而言,某一個(gè)或某幾個(gè)值發(fā)生巨大變化對(duì)中值影響是有限的。這就是為什么最小絕對(duì)值偏差學(xué)習(xí)對(duì)異常值具有魯棒性。
3.Huber損失最小化學(xué)習(xí)
3.1 原理與定義
雖然使用L1損失可以得到非常高的魯棒性,但是高的魯棒性也意味著訓(xùn)練樣本與訓(xùn)練模型并不十分吻合。舉一個(gè)極端的例子:不論對(duì)于什么樣的樣本,都輸出Θ=0,這樣也能得到最高的魯棒性。因此,如果片面的去追求高的魯棒性,實(shí)際的學(xué)習(xí)效果往往不能達(dá)到預(yù)期。訓(xùn)練樣本的信息得到了多大程度的靈活應(yīng)用,可以醫(yī)用訓(xùn)練樣本的有效性來評(píng)估。本節(jié)中,我們主要介紹能夠很好滴取的有效性和魯棒性平衡的Huber損失最小化法。
Huber損失的定義如下所示,這里混合使用了L1和L2損失:
圖示為:
Huber損失,閾值η=1
如果殘差的絕對(duì)值|r|小于閾值η的話,上式就是L2損失;如果殘差的絕對(duì)值|r|大與閾值η,就變成了L1損失。
但是為了與L2損失平滑地連接,在L1損失中減去了常數(shù)η^2/2。這樣的學(xué)習(xí)方法就稱為Huber損失最小化學(xué)習(xí)。
3.2 原理解釋
還是從最原始的線性模型開始討論:
把Huber損失ρHuber的絕對(duì)值部分用二次函數(shù)從上方進(jìn)行抑制:
接下來,可以采用迭代算法進(jìn)行求解,并根據(jù)現(xiàn)在的解Θ’計(jì)算得到的殘差的絕對(duì)值|ri'|來代替ci,構(gòu)成如下的形式:
通過這樣的方式,那么我們的目標(biāo)函數(shù)J(Θ)的上界的最小化問題就可以通過下式家阿暖細(xì)小二乘學(xué)習(xí)法進(jìn)行求解:
對(duì)于上式,權(quán)重可以使用下式加以定義:
下圖展示的是對(duì)與線性模型進(jìn)行Huber損失最小化學(xué)習(xí)的例子。其中閾值η=1.在本例中,反復(fù)加權(quán)最小二乘學(xué)習(xí)法只通過兩次迭代就可以返回與最終結(jié)果相近似的函數(shù)。全部四次迭代后就收斂,得到了對(duì)于異常值魯棒性很強(qiáng)的學(xué)習(xí)結(jié)果。具體如下所示:
注意:將閾值η設(shè)定為非常小的時(shí)候,Huber損失可以認(rèn)為是L1損失的平滑近似,因此通過上述反復(fù)加權(quán)最小二乘法,可以對(duì)L1損失最小二乘學(xué)習(xí)進(jìn)行近似求解。
4.圖基損失最小化學(xué)習(xí)
4.1 原理與定義
Huber損失,是通過L1損失和L2損失進(jìn)行優(yōu)化組合,是有效性和魯棒性達(dá)到平衡的學(xué)習(xí)方法。然而,只要使用L2損失對(duì)異常值進(jìn)行處理,就會(huì)使得異常值對(duì)結(jié)果的影響非常巨大。在實(shí)際應(yīng)用中,Huber損失最小化學(xué)習(xí)的權(quán)重即使對(duì)于大的殘差也不會(huì)變?yōu)榱?#xff0c;如下圖所示:
大的殘差下,Huber學(xué)習(xí)權(quán)重會(huì)減小但并不為零
在這種嚴(yán)峻狀況下的機(jī)器學(xué)習(xí),采用圖基(Tukey)損失法是非常好的選擇。如下圖所示:
圖基(Tukey)損失,閾值η=3
圖基損失中,如果殘差絕對(duì)值|r|大于閾值η(就是我們說的異常值),就用η^2/6的形式輸出。因此,圖基損失最小化學(xué)習(xí)一般具有非常高的魯棒性。
但是,因?yàn)閳D基損失并不是凸函數(shù),一般擁有多個(gè)局部最優(yōu)解,所以在整個(gè)值域范圍內(nèi)求得最優(yōu)解并不是一件容易的事情。在實(shí)際應(yīng)用中,將以下面的權(quán)重應(yīng)用于3節(jié)介紹的反復(fù)加權(quán)最小二乘學(xué)習(xí)法。就可以得到局部最優(yōu)解,權(quán)重公式為:
另外,當(dāng)|r|>η是,權(quán)重完全變?yōu)榱?#xff0c;因此圖基損失最小化學(xué)習(xí)完全不受顯著異常值影響。
4.2 實(shí)例演示
圖基可以得到魯棒性更強(qiáng)的結(jié)果,但數(shù)據(jù)噪聲發(fā)生變化時(shí)容易產(chǎn)生其他局部最優(yōu)解
閾值η=1。在這個(gè)例子中,得到比Huber損失最小學(xué)習(xí)魯棒性還要強(qiáng)的結(jié)果。然而,圖基損失最小化學(xué)習(xí)的結(jié)果依賴于初始化選取,初始值一旦發(fā)生變化,或者數(shù)據(jù)量減少的話,就可能得到完全不同的學(xué)習(xí)結(jié)果。在實(shí)際應(yīng)用中,就會(huì)發(fā)生圖(c)所示的意外結(jié)果。
5.L1約束的Huber損失最小化學(xué)習(xí)
之前我也介紹了L1約束的稀疏學(xué)習(xí)法,本片也給出了魯棒學(xué)習(xí)法。這兩種算法是相互獨(dú)立的,都是對(duì)最小二乘進(jìn)行拓展得到的,把他們組合在一起,也可以形成新的算法。所以本節(jié)介紹的就是稀疏學(xué)習(xí)中的魯棒學(xué)習(xí)方法。
首先回顧L1約束Huber損失最小化學(xué)習(xí):
就像之前學(xué)習(xí)到的,L1約束的最小二乘學(xué)習(xí)的解是通過一般化L2約束的最小二乘學(xué)習(xí)的反復(fù)迭代而求得的。另外,在本篇3節(jié)中也介紹過,Huber損失最小化學(xué)習(xí)的解是通過加權(quán)最小二乘學(xué)習(xí)法的反復(fù)迭代而求得的。因此,把他們優(yōu)化組合在一起,可以得到更好的結(jié)果。
下面給出了一個(gè)例子作對(duì)比:
對(duì)核函數(shù)模型進(jìn)行L1約束的Huber損失最小化學(xué)習(xí)的例子
總結(jié)
以上是生活随笔為你收集整理的有监督回归:鲁棒学习的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 有监督回归:最小二乘学习法
- 下一篇: 飞秋_飞秋2010_飞秋2010下载_飞