损失函数-经验风险最小化-结构风险最小化
生活随笔
收集整理的這篇文章主要介紹了
损失函数-经验风险最小化-结构风险最小化
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
1、損失函數(shù)
最簡(jiǎn)單的理解就是,給定一個(gè)實(shí)例,訓(xùn)練的模型對(duì)它的預(yù)測(cè)結(jié)果錯(cuò)了,就要受到懲罰, 因此需要定義一個(gè)量度量預(yù)測(cè)錯(cuò)誤的程度,而損失函數(shù)就是用來衡量錯(cuò)誤的程度。常見的損失函數(shù)有如下幾類(用?來表示損失函數(shù)): 假設(shè)輸入是X,輸出是f(X),真實(shí)值是Y。 (1)0-1損失函數(shù)(0-1 loss function) ?????? (2)平方損失函數(shù)(quadratic loss function) ???????(3)絕對(duì)損失函數(shù)(absolute loss function) ??????
(4)對(duì)數(shù)損失函數(shù)(logarithmic loss function) ?????? 2.傳統(tǒng)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化 很容易看出來,損失函數(shù)越小,模型就越好,接下來用期望風(fēng)險(xiǎn)來描述模型在整個(gè)數(shù)據(jù)集上的損失,假設(shè)我們已經(jīng)得到了數(shù)據(jù)的概率測(cè)度P(X,Y),那么就可以計(jì)算損失函數(shù)的期望即期望風(fēng)險(xiǎn): ?
需要說明的是,這里假設(shè)數(shù)據(jù)集包含了所有可能的數(shù)據(jù),即P(x,y)是已知的,顯然這是不可能的,我們只能盡量多的獲取數(shù)據(jù)集中的數(shù)據(jù),但是不可能獲得所有輸入空間中的數(shù)據(jù)。有了期望風(fēng)險(xiǎn)學(xué)習(xí)的目標(biāo)就確定了,即找到使期望風(fēng)險(xiǎn)最小的模型,但是就像前面說明的,全部數(shù)據(jù)的分布是未知的,那么求解期望風(fēng)險(xiǎn)的問題就是一個(gè)病態(tài)問題。那該怎么辦呢,雖然我么不知道數(shù)據(jù)集的概率測(cè)度,但是我們擁有給定的一定的獨(dú)立同分布的樣本,因此,我們可以用模型f(x)在這個(gè)給定的樣本集上的平均損失最小化來代替無法求得得期望風(fēng)險(xiǎn)最小化。 注意上面我們?cè)僖淮翁岬搅霜?dú)立同分布,這樣我們就不用考慮數(shù)據(jù)集的概率測(cè)度了,計(jì)算瞬間變簡(jiǎn)單了,當(dāng)然,這肯定造成了一定的計(jì)算損失,但是結(jié)果還是可信的,可取的。 假設(shè)給定的數(shù)據(jù)集是:? 則經(jīng)驗(yàn)風(fēng)險(xiǎn)或經(jīng)驗(yàn)損失函數(shù)為:? 使用經(jīng)驗(yàn)風(fēng)險(xiǎn)泛函最小的函數(shù)來逼近期望風(fēng)險(xiǎn)泛函最小的函數(shù),這一原則成為經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化歸納原則(ERM原則)。 根據(jù)大數(shù)定律,當(dāng)樣本數(shù)趨于無窮大時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)趨于期望風(fēng)險(xiǎn)。但是,在實(shí)際應(yīng)用中,訓(xùn)練樣本的個(gè)數(shù)是有限的,甚至還會(huì)很少,所以使用經(jīng)驗(yàn)風(fēng)險(xiǎn)逼近期望風(fēng)險(xiǎn)的效果就不好了。 這里還涉及到一個(gè)學(xué)習(xí)理論的關(guān)鍵定理,該定理指出了ERM原則一致性的條件是必要的并且充分的取決于函數(shù)集中最壞的函數(shù)。這一塊只要知道它指出了經(jīng)驗(yàn)風(fēng)險(xiǎn)和期望風(fēng)險(xiǎn)的誤差是有界的就行。 上面說到,對(duì)于小樣本問題,經(jīng)驗(yàn)風(fēng)險(xiǎn)效果并不理想,因?yàn)榻?jīng)驗(yàn)風(fēng)險(xiǎn)最小化容易帶來過擬合現(xiàn)象。過擬合現(xiàn)象其實(shí)就是模型的選擇太在意訓(xùn)練誤差了,反而導(dǎo)致預(yù)測(cè)誤差隨著訓(xùn)練誤差減小而增大,造成訓(xùn)練結(jié)果不理想。這里不再多說,可以到網(wǎng)上找一個(gè)多項(xiàng)式擬合的例子形象的理解。我也轉(zhuǎn)了一篇關(guān)于過擬合的文章,解決過擬合問題是加入懲罰項(xiàng)或者增加數(shù)據(jù)。 3.結(jié)構(gòu)風(fēng)險(xiǎn)最小化 為了解決經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化逼近引發(fā)的一系列問題,vpnik等幾位大牛發(fā)展了現(xiàn)代的統(tǒng)計(jì)學(xué)習(xí)理論,提出了結(jié)構(gòu)風(fēng)險(xiǎn)最小化,更加適合解決小樣本問題,并且提出了尋找結(jié)構(gòu)風(fēng)險(xiǎn)最小化的方法,這一套理論發(fā)展出了有名的分類器:基于VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化的支持向量機(jī)SVM,它能夠更快更迅速的解決小樣本問題,在大樣本集上也有一些基于稀疏矩陣的改進(jìn)方法,成為2000年來的研究熱點(diǎn)之一。 首先要引入函數(shù)的VC維概念: 函數(shù)集Q(f)的VC維是指能夠被集合中的函數(shù)以所有可能的?種方式分成兩類的樣本的最大數(shù)目h.另一個(gè)說法是:假如存在一個(gè)有h個(gè)樣本的樣本集能夠被函數(shù)集中的函數(shù)按照所有可能的?方式分成兩類,則稱該函數(shù)集能把樣本為h的樣本集打散。VC維就是h的最大值,對(duì)于h+1,函數(shù)集就無法打亂了。對(duì)于線性函數(shù),其VC維很簡(jiǎn)單,就是函數(shù)維數(shù)+1,。 定義N(f)代表函數(shù)集Q(f)中的函數(shù)能夠把給定的樣本分成多少種類,稱H(f)=ln(N(f))為隨機(jī)熵,描述了函數(shù)集在給定數(shù)據(jù)上的多樣性,引入生長(zhǎng)函數(shù)G(n)=ln(N(f)),則生長(zhǎng)函數(shù)與VC維的關(guān)系為: G(h)=hln2 G(h+1)小于(h+1)ln2 即生長(zhǎng)函數(shù)或者是線性的,或者以對(duì)數(shù)為上界。如果函數(shù)集的生長(zhǎng)函數(shù)是線性的,則函數(shù)集的VC維是無窮大的,因?yàn)楹瘮?shù)集能夠打散的數(shù)據(jù)集數(shù)目可以無限大,反之,如果生長(zhǎng)函數(shù)是以參數(shù)h的對(duì)數(shù)函數(shù)為界,則函數(shù)集的VC維就是h。 VC衡量了一個(gè)函數(shù)集的復(fù)雜程度,VC維越大,函數(shù)集越復(fù)雜,雖然函數(shù)打散的樣本數(shù)增加了,但是計(jì)算函數(shù)的復(fù)雜度卻增加了,反而不能得到好的結(jié)果(引起過擬合),VC維越小,函數(shù)集越簡(jiǎn)單,求解速度快而且方便。支持向量機(jī)只關(guān)注對(duì)偶公示中參數(shù)不為0的支持向量的那些樣本,因此VC維很小。奧卡姆剃刀原理:在所有可能選擇的模型中,能夠很好地解釋已知數(shù)據(jù)并且十分簡(jiǎn)單的才是最好的模型。
引入VC維之后我們?cè)偃タ纯瓷厦婕t色的部分,即經(jīng)驗(yàn)風(fēng)險(xiǎn)和期望風(fēng)險(xiǎn)的誤差是依概率有界的,通過一系列復(fù)雜的公示推導(dǎo)我們得到如下公式: ?????n為樣本數(shù),h為VC維 不等式右邊第一項(xiàng)為經(jīng)驗(yàn)風(fēng)險(xiǎn),第二項(xiàng)為置信風(fēng)險(xiǎn),是一個(gè)減函數(shù),整個(gè)公示反映了經(jīng)驗(yàn)風(fēng)險(xiǎn)和真實(shí)誤差的差距上界,表征了根據(jù)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則得到的模型的泛化能力。稱為泛化誤差上界。?
上述公示表明:當(dāng)樣本數(shù)較大時(shí),n/h很大,置信范圍就會(huì)很小,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化接近實(shí)際最優(yōu)解,而當(dāng)n/h比較小時(shí),置信范圍就會(huì)很大,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化泛化能力就差。
結(jié)構(gòu)風(fēng)險(xiǎn)=經(jīng)驗(yàn)風(fēng)險(xiǎn)+置信風(fēng)險(xiǎn),這部分會(huì)在SVM那一塊仔細(xì)介紹。
在李航的書中講到了模型選擇兩種典型方法,這里簡(jiǎn)單介紹一下: a.正則化 正則化是結(jié)構(gòu)風(fēng)險(xiǎn)最小化策略的實(shí)現(xiàn),在經(jīng)驗(yàn)風(fēng)險(xiǎn)上加一個(gè)正則化項(xiàng),該項(xiàng)與模型復(fù)雜度相關(guān)或者模型VC維相關(guān),復(fù)雜度越大,正則化值就越大。常用的正則化項(xiàng)有模型參數(shù)的范數(shù)等。 b.交叉驗(yàn)證 交叉驗(yàn)證的思想就是將訓(xùn)練數(shù)據(jù)集隨機(jī)劃分成若干個(gè)塊,這些塊稱為訓(xùn)練集和驗(yàn)證集,訓(xùn)練集用于訓(xùn)練模型,驗(yàn)證集用于評(píng)判訓(xùn)練明星的好壞,在每一塊上找到風(fēng)險(xiǎn)最小化函數(shù),然后綜合再把結(jié)果綜合起來考慮。常見的交叉驗(yàn)證包括1/3和2/3劃分,k-則交叉驗(yàn)證以及留一法。第一種方法取數(shù)據(jù)集的2/3進(jìn)行訓(xùn)練,剩余1/3進(jìn)行驗(yàn)證,第二種方法取k-1份訓(xùn)練,剩下一份驗(yàn)證,將可能的K種組合都做一次,因此共需要訓(xùn)練k次模型,留一法是k則交叉驗(yàn)證的極端情況,即K=N。
總結(jié)
以上是生活随笔為你收集整理的损失函数-经验风险最小化-结构风险最小化的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阅读文献的三大问题:坐不住,记不住,想不
- 下一篇: Logistic and Softmax