【原创】SVM小结
理論基礎(chǔ):
機(jī)器學(xué)習(xí)有三類(lèi)基本的問(wèn)題,即模式識(shí)別、函數(shù)逼近和概率密度估計(jì).
?
SVM有著嚴(yán)格的理論基礎(chǔ),建立了一套較好的有限訓(xùn)練樣本下機(jī)器學(xué)習(xí)的理論框架和通用方法。他與機(jī)器學(xué)習(xí)是密切相關(guān)的,很多理論甚至解決了機(jī)器學(xué)習(xí)領(lǐng)域的其他的問(wèn)題,所以學(xué)習(xí)SVM和機(jī)器學(xué)習(xí)是相輔相成的,兩者可以互相促進(jìn),有助于機(jī)器學(xué)習(xí)理論本質(zhì)的理解。
?
維理論:對(duì)一個(gè)指示函數(shù)集,如果存在個(gè)樣本能夠被函數(shù)集中的函數(shù)按所有可能的種形式分開(kāi),則稱(chēng)函數(shù)集能夠把個(gè)樣本打散;函數(shù)集的維就是它能打散的最大樣本數(shù)目。維反映了函數(shù)集的學(xué)習(xí)能力,維越太則學(xué)習(xí)機(jī)器越復(fù)雜(容量越太)。
?
期望風(fēng)險(xiǎn):其公式為,其中為損失函數(shù),為概率分布,期望風(fēng)險(xiǎn)的大小可以直觀的理解為,當(dāng)我們用進(jìn)行預(yù)測(cè)時(shí),“平均”的損失程度,或“平均”犯錯(cuò)誤的程度。
?
經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(ERM準(zhǔn)則)歸納原則:但是,只有樣本卻無(wú)法計(jì)算期望風(fēng)險(xiǎn),因此,傳統(tǒng)的學(xué)習(xí)方法用樣本定義經(jīng)驗(yàn)風(fēng)險(xiǎn)作為對(duì)期望風(fēng)險(xiǎn)的估計(jì),并設(shè)計(jì)學(xué)習(xí)算法使之最小化。即所謂的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(ERM準(zhǔn)則)歸納原則。經(jīng)驗(yàn)風(fēng)險(xiǎn)是用損失函數(shù)來(lái)計(jì)算的。對(duì)于模式識(shí)別問(wèn)題的損失函數(shù)來(lái)說(shuō),經(jīng)驗(yàn)風(fēng)險(xiǎn)就是訓(xùn)練樣本錯(cuò)誤率;對(duì)于函數(shù)逼近問(wèn)題的損失函數(shù)來(lái)說(shuō),就是平方訓(xùn)練誤差;而對(duì)于概率密度估計(jì)問(wèn)題的損失函數(shù)來(lái)說(shuō),ERM準(zhǔn)則就等價(jià)于最大似然法。但是,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小不一定意味著期望風(fēng)險(xiǎn)最小。其實(shí),只有樣本數(shù)目趨近于無(wú)窮大時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)才有可能趨近于期望風(fēng)險(xiǎn)。但是很多問(wèn)題中樣本數(shù)目離無(wú)窮大很遠(yuǎn),那么在有限樣本下ERM準(zhǔn)則就不一定能使真實(shí)風(fēng)險(xiǎn)較小。ERM準(zhǔn)則不成功的一個(gè)例子就是神經(jīng)網(wǎng)絡(luò)和決策樹(shù)的過(guò)學(xué)習(xí)問(wèn)題(某些情況下,訓(xùn)練誤差過(guò)小反而導(dǎo)致推廣能力下降,或者說(shuō)是訓(xùn)練誤差過(guò)小導(dǎo)致了預(yù)測(cè)錯(cuò)誤率的增加,即真實(shí)風(fēng)險(xiǎn)的增加)。
?
結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論(SRM):所以,在有限樣本情況下,僅僅用ERM來(lái)近似期望風(fēng)險(xiǎn)是行不通的。統(tǒng)計(jì)學(xué)習(xí)理論給出了期望風(fēng)險(xiǎn)與經(jīng)驗(yàn)風(fēng)險(xiǎn)之間關(guān)系:
?
其中 為置信區(qū)間,是VC維的增函數(shù),也是樣本數(shù)的減函數(shù)。右端稱(chēng)為結(jié)構(gòu)風(fēng)險(xiǎn),它是期望風(fēng)險(xiǎn)的一個(gè)上界。經(jīng)驗(yàn)風(fēng)險(xiǎn)的最小依賴(lài)較大的 F (樣本數(shù)較多的函數(shù)集)中某個(gè) f 的選擇,但是 F 較大,則VC維較大,就導(dǎo)致置信區(qū)間變大,所以要想使期望風(fēng)險(xiǎn)最小,必須選擇合適的和來(lái)使不等式右邊的結(jié)構(gòu)風(fēng)險(xiǎn)最小,這就是結(jié)構(gòu)風(fēng)險(xiǎn)最小化歸納原則。
?
實(shí)現(xiàn)SRM的思路之一就是設(shè)計(jì)函數(shù)集的某種結(jié)構(gòu)使每個(gè)子集中都能取得最小的經(jīng)驗(yàn)風(fēng)險(xiǎn)(如使訓(xùn)練誤差為0),然后只需選擇適當(dāng)?shù)淖蛹怪眯欧秶钚?#xff0c;則這個(gè)子集中使經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的函數(shù)就是最優(yōu)函數(shù)。SVM方法實(shí)際上就是這種思想的具體實(shí)現(xiàn)。
主要思想:
SVM方法是從線性可分情況下的最優(yōu)分類(lèi)面提出的,它是實(shí)現(xiàn)統(tǒng)計(jì)學(xué)習(xí)理論思想的方法。所謂最優(yōu)分類(lèi)面就是要求分類(lèi)面不但能將兩類(lèi)無(wú)錯(cuò)誤地分開(kāi),而且要使兩類(lèi)的分類(lèi)間隔最大。前者是保證經(jīng)驗(yàn)風(fēng)險(xiǎn)最小(如使訓(xùn)練誤差為0),而使分類(lèi)間隔最大實(shí)際上就是使推廣性的界中的置信范圍最小,從而使真實(shí)風(fēng)險(xiǎn)最小。
?
構(gòu)造這個(gè)最優(yōu)分類(lèi)面的方法有2個(gè):平分最近點(diǎn)法和最大間隔法。這兩個(gè)方法求解得到的是同一個(gè)超平面,這個(gè)方法就稱(chēng)為“線性可分支持向量分類(lèi)機(jī)”。其實(shí),這個(gè)分類(lèi)機(jī)是將最大間隔法求解最優(yōu)分類(lèi)面的最優(yōu)化問(wèn)題轉(zhuǎn)化為其對(duì)偶問(wèn)題,從而通過(guò)求解相對(duì)簡(jiǎn)單的對(duì)偶問(wèn)題來(lái)求解原分類(lèi)問(wèn)題的算法。隨后引入松弛變量和懲罰因子來(lái)解決非線性分類(lèi)問(wèn)題,并且允許一定的分類(lèi)錯(cuò)誤,最終得到非線性軟間隔的標(biāo)準(zhǔn)的 C-支持向量機(jī)(C-SVC)。其中的巧妙之處就在于把一個(gè)復(fù)雜的最優(yōu)化問(wèn)題的求解簡(jiǎn)化為對(duì)原有樣本數(shù)據(jù)的內(nèi)積運(yùn)算。我們要做的就是選擇適當(dāng)?shù)暮撕瘮?shù)及其參數(shù)、懲罰因子就可以了。
?
對(duì)于線性不可分情況,則通過(guò)核函數(shù),把輸入映射到另一個(gè)空間中,在新的空間中使用線性支持向量機(jī)。
?
核函數(shù):
?
核方法在數(shù)學(xué)中是個(gè)古老的命題.通過(guò)一個(gè)特征映射可以將輸入空間(低維的)中的線性不可分?jǐn)?shù)據(jù)映射成高維特征空間中(再生核Hilbert空間)中的線性可分?jǐn)?shù)據(jù).這樣就可以在特征空間使用SVM方法了.因?yàn)槭褂?/span>svm方法得到的學(xué)習(xí)機(jī)器只涉及特征空間中的內(nèi)積,而內(nèi)積又可以通過(guò)某個(gè)核函數(shù)(所謂Mercer核)來(lái)表示,因此我們可以利用核函數(shù)來(lái)表示最終的學(xué)習(xí)機(jī)器.這就是所謂的核方法.核函數(shù)本質(zhì)上是對(duì)應(yīng)于高維空間中的內(nèi)積的,從而與生成高維空間的特征映射一一對(duì)應(yīng).核方法正是借用這一對(duì)應(yīng)關(guān)系隱性的使用了非線性特征映射(當(dāng)然也可以是線性的).這一方法即使得我們能夠利用高維空間讓數(shù)據(jù)變得易于處理----不可分的變成可分的,同時(shí)又回避了高維空間帶來(lái)的維數(shù)災(zāi)難-----不用顯式表達(dá)特征映射.
核技巧把高維空間中兩個(gè)點(diǎn)的內(nèi)積計(jì)算,用原來(lái)空間中的兩個(gè)模式的簡(jiǎn)單函數(shù)即核函數(shù)的求值來(lái)代替。核技巧不僅應(yīng)用于支持向量機(jī),還可以應(yīng)用于那些含有內(nèi)積計(jì)算的非線性算法。例如函數(shù)逼近,主成分分析等等。
?
在支持向量機(jī)中使用的核函數(shù)主要有四類(lèi):
線性核函數(shù):
多項(xiàng)式核函數(shù):
RBF核函數(shù):
Sigmoid核函數(shù):
其中,和均為核參數(shù)。
究竟用哪一種核函數(shù)取決對(duì)數(shù)據(jù)處理的要求,不過(guò)建議一般都是使用RBF核函數(shù)。因?yàn)?/span>RBF核函數(shù)具有良好的性態(tài),在實(shí)際問(wèn)題中表現(xiàn)出了良好的性能。
軟件工具:
支持向量機(jī)的軟件工具主要有LIBSVM和SVMLight,其中我詳細(xì)了解了LIBSVM。LIBSVM 是一個(gè)開(kāi)源的軟件包,是臺(tái)灣大學(xué)林智仁博士等開(kāi)發(fā)的,可以解決上面所提到的三類(lèi)機(jī)器學(xué)習(xí)基本問(wèn)題,提供了線性、多項(xiàng)式、徑向基和S形函數(shù)四種常用的核函數(shù)供選擇。
?
LIBSVM 使用的一般步驟是:
1) 按照LIBSVM軟件包所要求的格式準(zhǔn)備數(shù)據(jù)集;
2) 對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的縮放操作;
3) 考慮選用RBF 核函數(shù);
4) 采用交叉驗(yàn)證選擇最佳參數(shù)C與g ;
5) 采用最佳參數(shù)C與g 對(duì)整個(gè)訓(xùn)練集進(jìn)行訓(xùn)練獲取支持向量機(jī)模型;
6) 利用獲取的模型進(jìn)行測(cè)試與預(yù)測(cè)。
應(yīng)用領(lǐng)域
SVM可以用于模式識(shí)別、函數(shù)逼近和概率密度估計(jì).
?
總的來(lái)說(shuō),SVM能夠較好的解決小樣本,非線性,高維數(shù)識(shí)別和局部極小點(diǎn)等問(wèn)題。
?
詳細(xì)說(shuō)來(lái),可以應(yīng)用于如下領(lǐng)域:人臉檢測(cè),故障診斷,分類(lèi),回歸,聚類(lèi),時(shí)間序列預(yù)測(cè),系統(tǒng)辨識(shí),金融工程,生物醫(yī)藥信號(hào)處理,數(shù)據(jù)挖掘,生物信息,文本挖掘,自適應(yīng)信號(hào)處理,剪接位點(diǎn)識(shí)別,基于支持向量機(jī)的數(shù)據(jù)庫(kù)學(xué)習(xí)算法,手寫(xiě)體相似字識(shí)別,支持向量機(jī)函數(shù)擬合在分形插值中的應(yīng)用,基于支持向量機(jī)的慣導(dǎo)初始對(duì)準(zhǔn)系統(tǒng),巖爆預(yù)測(cè)的支持向量機(jī),缺陷識(shí)別,計(jì)算機(jī)鍵盤(pán)用戶(hù)身份驗(yàn)證,視頻字幕自動(dòng)定位于提取,說(shuō)話(huà)人的確認(rèn),等等。
?
研究方向:
雖然SVM 方法在理論上具有很突出的優(yōu)勢(shì), 但與其理論研究相比,應(yīng)用研究尚相對(duì)比較滯后, 所以現(xiàn)在的主要的研究方向就是SVM的應(yīng)用。包括SVM在新領(lǐng)域的應(yīng)用以及跟其他方法的結(jié)合。例如SVM決策樹(shù)可以用于多層分類(lèi)。
所以,歸納如下
核函數(shù)的構(gòu)造和參數(shù)的選擇;支持向量機(jī)從兩類(lèi)問(wèn)題向多類(lèi)問(wèn)題的推廣;更多的應(yīng)用領(lǐng)域的推廣;與目前其它機(jī)器學(xué)習(xí)方法的融合;與數(shù)據(jù)預(yù)處理(樣本的重要度,屬性的重要度,特征選擇等)方面方法的結(jié)合,將數(shù)據(jù)中脫離領(lǐng)域知識(shí)的信息,即數(shù)據(jù)本身的性質(zhì)融入支持向量機(jī)的算法中從而產(chǎn)生新的算法;支持向量機(jī)訓(xùn)練算法的探索。
閱讀材料
1.數(shù)據(jù)挖掘中的新方法-支持向量機(jī) 鄧乃揚(yáng) 田英杰著
2.支持向量機(jī)導(dǎo)論
3. A practical guide to SVM classification.pdf
4. LibSVM-2.6 程序代碼注釋.pdf
5. 一種新的SVm決策樹(shù).pdf
6. 2000年 26卷 1期-關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與向量機(jī).pdf
7 支持向量機(jī)的研究現(xiàn)狀與進(jìn)展.pdf
8. 統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)
轉(zhuǎn)載于:https://www.cnblogs.com/dskong/archive/2012/05/27/2520045.html
總結(jié)
- 上一篇: ASP.NET生成WORD文档服务器部署
- 下一篇: 建模心法(2)——迈出建模第一步