當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

【原创】SVM小结

發(fā)布時(shí)間：2023/12/10 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了【原创】SVM小结小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

理論基礎(chǔ)：

機(jī)器學(xué)習(xí)有三類(lèi)基本的問(wèn)題，即模式識(shí)別、函數(shù)逼近和概率密度估計(jì)．

SVM有著嚴(yán)格的理論基礎(chǔ)，建立了一套較好的有限訓(xùn)練樣本下機(jī)器學(xué)習(xí)的理論框架和通用方法。他與機(jī)器學(xué)習(xí)是密切相關(guān)的，很多理論甚至解決了機(jī)器學(xué)習(xí)領(lǐng)域的其他的問(wèn)題，所以學(xué)習(xí)SVM和機(jī)器學(xué)習(xí)是相輔相成的，兩者可以互相促進(jìn)，有助于機(jī)器學(xué)習(xí)理論本質(zhì)的理解。

維理論：對(duì)一個(gè)指示函數(shù)集，如果存在個(gè)樣本能夠被函數(shù)集中的函數(shù)按所有可能的種形式分開(kāi)，則稱(chēng)函數(shù)集能夠把個(gè)樣本打散；函數(shù)集的維就是它能打散的最大樣本數(shù)目。維反映了函數(shù)集的學(xué)習(xí)能力，維越太則學(xué)習(xí)機(jī)器越復(fù)雜(容量越太)。

期望風(fēng)險(xiǎn)：其公式為，其中為損失函數(shù)，為概率分布，期望風(fēng)險(xiǎn)的大小可以直觀的理解為，當(dāng)我們用進(jìn)行預(yù)測(cè)時(shí)，“平均”的損失程度，或“平均”犯錯(cuò)誤的程度。

經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化（ERM準(zhǔn)則）歸納原則：但是，只有樣本卻無(wú)法計(jì)算期望風(fēng)險(xiǎn)，因此，傳統(tǒng)的學(xué)習(xí)方法用樣本定義經(jīng)驗(yàn)風(fēng)險(xiǎn)作為對(duì)期望風(fēng)險(xiǎn)的估計(jì)，并設(shè)計(jì)學(xué)習(xí)算法使之最小化。即所謂的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化（ERM準(zhǔn)則）歸納原則。經(jīng)驗(yàn)風(fēng)險(xiǎn)是用損失函數(shù)來(lái)計(jì)算的。對(duì)于模式識(shí)別問(wèn)題的損失函數(shù)來(lái)說(shuō)，經(jīng)驗(yàn)風(fēng)險(xiǎn)就是訓(xùn)練樣本錯(cuò)誤率；對(duì)于函數(shù)逼近問(wèn)題的損失函數(shù)來(lái)說(shuō)，就是平方訓(xùn)練誤差；而對(duì)于概率密度估計(jì)問(wèn)題的損失函數(shù)來(lái)說(shuō)，ERM準(zhǔn)則就等價(jià)于最大似然法。但是，經(jīng)驗(yàn)風(fēng)險(xiǎn)最小不一定意味著期望風(fēng)險(xiǎn)最小。其實(shí)，只有樣本數(shù)目趨近于無(wú)窮大時(shí)，經(jīng)驗(yàn)風(fēng)險(xiǎn)才有可能趨近于期望風(fēng)險(xiǎn)。但是很多問(wèn)題中樣本數(shù)目離無(wú)窮大很遠(yuǎn)，那么在有限樣本下ERM準(zhǔn)則就不一定能使真實(shí)風(fēng)險(xiǎn)較小。ERM準(zhǔn)則不成功的一個(gè)例子就是神經(jīng)網(wǎng)絡(luò)和決策樹(shù)的過(guò)學(xué)習(xí)問(wèn)題（某些情況下，訓(xùn)練誤差過(guò)小反而導(dǎo)致推廣能力下降，或者說(shuō)是訓(xùn)練誤差過(guò)小導(dǎo)致了預(yù)測(cè)錯(cuò)誤率的增加，即真實(shí)風(fēng)險(xiǎn)的增加）。

結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論(SRM)：所以，在有限樣本情況下，僅僅用ERM來(lái)近似期望風(fēng)險(xiǎn)是行不通的。統(tǒng)計(jì)學(xué)習(xí)理論給出了期望風(fēng)險(xiǎn)與經(jīng)驗(yàn)風(fēng)險(xiǎn)之間關(guān)系：

其中為置信區(qū)間，是VC維的增函數(shù)，也是樣本數(shù)的減函數(shù)。右端稱(chēng)為結(jié)構(gòu)風(fēng)險(xiǎn)，它是期望風(fēng)險(xiǎn)的一個(gè)上界。經(jīng)驗(yàn)風(fēng)險(xiǎn)的最小依賴(lài)較大的 F （樣本數(shù)較多的函數(shù)集）中某個(gè) f 的選擇，但是 F 較大，則VC維較大，就導(dǎo)致置信區(qū)間變大，所以要想使期望風(fēng)險(xiǎn)最小，必須選擇合適的和來(lái)使不等式右邊的結(jié)構(gòu)風(fēng)險(xiǎn)最小，這就是結(jié)構(gòu)風(fēng)險(xiǎn)最小化歸納原則。

實(shí)現(xiàn)SRM的思路之一就是設(shè)計(jì)函數(shù)集的某種結(jié)構(gòu)使每個(gè)子集中都能取得最小的經(jīng)驗(yàn)風(fēng)險(xiǎn)（如使訓(xùn)練誤差為0），然后只需選擇適當(dāng)?shù)淖蛹怪眯欧秶钚?#xff0c;則這個(gè)子集中使經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的函數(shù)就是最優(yōu)函數(shù)。SVM方法實(shí)際上就是這種思想的具體實(shí)現(xiàn)。

主要思想：

SVM方法是從線性可分情況下的最優(yōu)分類(lèi)面提出的，它是實(shí)現(xiàn)統(tǒng)計(jì)學(xué)習(xí)理論思想的方法。所謂最優(yōu)分類(lèi)面就是要求分類(lèi)面不但能將兩類(lèi)無(wú)錯(cuò)誤地分開(kāi)，而且要使兩類(lèi)的分類(lèi)間隔最大。前者是保證經(jīng)驗(yàn)風(fēng)險(xiǎn)最小（如使訓(xùn)練誤差為0），而使分類(lèi)間隔最大實(shí)際上就是使推廣性的界中的置信范圍最小，從而使真實(shí)風(fēng)險(xiǎn)最小。

構(gòu)造這個(gè)最優(yōu)分類(lèi)面的方法有2個(gè)：平分最近點(diǎn)法和最大間隔法。這兩個(gè)方法求解得到的是同一個(gè)超平面，這個(gè)方法就稱(chēng)為“線性可分支持向量分類(lèi)機(jī)”。其實(shí)，這個(gè)分類(lèi)機(jī)是將最大間隔法求解最優(yōu)分類(lèi)面的最優(yōu)化問(wèn)題轉(zhuǎn)化為其對(duì)偶問(wèn)題，從而通過(guò)求解相對(duì)簡(jiǎn)單的對(duì)偶問(wèn)題來(lái)求解原分類(lèi)問(wèn)題的算法。隨后引入松弛變量和懲罰因子來(lái)解決非線性分類(lèi)問(wèn)題，并且允許一定的分類(lèi)錯(cuò)誤，最終得到非線性軟間隔的標(biāo)準(zhǔn)的 C-支持向量機(jī)(C-SVC)。其中的巧妙之處就在于把一個(gè)復(fù)雜的最優(yōu)化問(wèn)題的求解簡(jiǎn)化為對(duì)原有樣本數(shù)據(jù)的內(nèi)積運(yùn)算。我們要做的就是選擇適當(dāng)?shù)暮撕瘮?shù)及其參數(shù)、懲罰因子就可以了。

對(duì)于線性不可分情況，則通過(guò)核函數(shù)，把輸入映射到另一個(gè)空間中，在新的空間中使用線性支持向量機(jī)。

核函數(shù)：

核方法在數(shù)學(xué)中是個(gè)古老的命題.通過(guò)一個(gè)特征映射可以將輸入空間(低維的)中的線性不可分?jǐn)?shù)據(jù)映射成高維特征空間中(再生核Hilbert空間)中的線性可分?jǐn)?shù)據(jù).這樣就可以在特征空間使用SVM方法了.因?yàn)槭褂?/span>svm方法得到的學(xué)習(xí)機(jī)器只涉及特征空間中的內(nèi)積,而內(nèi)積又可以通過(guò)某個(gè)核函數(shù)(所謂Mercer核)來(lái)表示,因此我們可以利用核函數(shù)來(lái)表示最終的學(xué)習(xí)機(jī)器.這就是所謂的核方法.核函數(shù)本質(zhì)上是對(duì)應(yīng)于高維空間中的內(nèi)積的,從而與生成高維空間的特征映射一一對(duì)應(yīng).核方法正是借用這一對(duì)應(yīng)關(guān)系隱性的使用了非線性特征映射(當(dāng)然也可以是線性的).這一方法即使得我們能夠利用高維空間讓數(shù)據(jù)變得易于處理----不可分的變成可分的,同時(shí)又回避了高維空間帶來(lái)的維數(shù)災(zāi)難-----不用顯式表達(dá)特征映射.

核技巧把高維空間中兩個(gè)點(diǎn)的內(nèi)積計(jì)算，用原來(lái)空間中的兩個(gè)模式的簡(jiǎn)單函數(shù)即核函數(shù)的求值來(lái)代替。核技巧不僅應(yīng)用于支持向量機(jī)，還可以應(yīng)用于那些含有內(nèi)積計(jì)算的非線性算法。例如函數(shù)逼近，主成分分析等等。

在支持向量機(jī)中使用的核函數(shù)主要有四類(lèi)：

線性核函數(shù)：

多項(xiàng)式核函數(shù)：

RBF核函數(shù)：

Sigmoid核函數(shù)：

其中，和均為核參數(shù)。

究竟用哪一種核函數(shù)取決對(duì)數(shù)據(jù)處理的要求，不過(guò)建議一般都是使用RBF核函數(shù)。因?yàn)?/span>RBF核函數(shù)具有良好的性態(tài)，在實(shí)際問(wèn)題中表現(xiàn)出了良好的性能。

軟件工具：

支持向量機(jī)的軟件工具主要有LIBSVM和SVMLight，其中我詳細(xì)了解了LIBSVM。LIBSVM 是一個(gè)開(kāi)源的軟件包，是臺(tái)灣大學(xué)林智仁博士等開(kāi)發(fā)的，可以解決上面所提到的三類(lèi)機(jī)器學(xué)習(xí)基本問(wèn)題，提供了線性、多項(xiàng)式、徑向基和S形函數(shù)四種常用的核函數(shù)供選擇。

LIBSVM 使用的一般步驟是：
1）按照LIBSVM軟件包所要求的格式準(zhǔn)備數(shù)據(jù)集；
2）對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的縮放操作；
3）考慮選用RBF 核函數(shù)；
4）采用交叉驗(yàn)證選擇最佳參數(shù)C與g ；
5）采用最佳參數(shù)C與g 對(duì)整個(gè)訓(xùn)練集進(jìn)行訓(xùn)練獲取支持向量機(jī)模型；
6）利用獲取的模型進(jìn)行測(cè)試與預(yù)測(cè)。

應(yīng)用領(lǐng)域

SVM可以用于模式識(shí)別、函數(shù)逼近和概率密度估計(jì)．

總的來(lái)說(shuō)，SVM能夠較好的解決小樣本，非線性，高維數(shù)識(shí)別和局部極小點(diǎn)等問(wèn)題。

詳細(xì)說(shuō)來(lái)，可以應(yīng)用于如下領(lǐng)域：人臉檢測(cè)，故障診斷，分類(lèi)，回歸，聚類(lèi)，時(shí)間序列預(yù)測(cè)，系統(tǒng)辨識(shí)，金融工程，生物醫(yī)藥信號(hào)處理，數(shù)據(jù)挖掘，生物信息，文本挖掘，自適應(yīng)信號(hào)處理，剪接位點(diǎn)識(shí)別，基于支持向量機(jī)的數(shù)據(jù)庫(kù)學(xué)習(xí)算法，手寫(xiě)體相似字識(shí)別，支持向量機(jī)函數(shù)擬合在分形插值中的應(yīng)用，基于支持向量機(jī)的慣導(dǎo)初始對(duì)準(zhǔn)系統(tǒng)，巖爆預(yù)測(cè)的支持向量機(jī)，缺陷識(shí)別，計(jì)算機(jī)鍵盤(pán)用戶(hù)身份驗(yàn)證，視頻字幕自動(dòng)定位于提取，說(shuō)話(huà)人的確認(rèn)，等等。

研究方向：

雖然SVM 方法在理論上具有很突出的優(yōu)勢(shì), 但與其理論研究相比,應(yīng)用研究尚相對(duì)比較滯后, 所以現(xiàn)在的主要的研究方向就是SVM的應(yīng)用。包括SVM在新領(lǐng)域的應(yīng)用以及跟其他方法的結(jié)合。例如SVM決策樹(shù)可以用于多層分類(lèi)。

所以，歸納如下

核函數(shù)的構(gòu)造和參數(shù)的選擇；支持向量機(jī)從兩類(lèi)問(wèn)題向多類(lèi)問(wèn)題的推廣；更多的應(yīng)用領(lǐng)域的推廣；與目前其它機(jī)器學(xué)習(xí)方法的融合；與數(shù)據(jù)預(yù)處理（樣本的重要度，屬性的重要度，特征選擇等）方面方法的結(jié)合，將數(shù)據(jù)中脫離領(lǐng)域知識(shí)的信息，即數(shù)據(jù)本身的性質(zhì)融入支持向量機(jī)的算法中從而產(chǎn)生新的算法；支持向量機(jī)訓(xùn)練算法的探索。

閱讀材料

1.數(shù)據(jù)挖掘中的新方法-支持向量機(jī) 鄧乃揚(yáng) 田英杰著

2.支持向量機(jī)導(dǎo)論

3. A practical guide to SVM classification.pdf

4. LibSVM-2.6 程序代碼注釋.pdf

5. 一種新的SVm決策樹(shù).pdf

6. 2000年 26卷 1期-關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與向量機(jī).pdf

7 支持向量機(jī)的研究現(xiàn)狀與進(jìn)展.pdf

8. 統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)

轉(zhuǎn)載于:https://www.cnblogs.com/dskong/archive/2012/05/27/2520045.html

總結(jié)

以上是生活随笔為你收集整理的【原创】SVM小结的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

小结
SVM

上一篇： ASP.NET生成WORD文档服务器部署
下一篇：建模心法(2)——迈出建模第一步