svm 支持向量机 回归 预测_机器学习:简单理解支持向量机SVM
在介紹過(guò)貝葉斯之后,今天嘗試著給大家介紹支持向量機(jī)SVM。
在機(jī)器學(xué)習(xí)中,SVM試圖找到一個(gè)最佳的超平面,該平面可以最佳地分割來(lái)自不同類別的觀察結(jié)果。一個(gè)在N-1維的超平面可以分割?維的特征空間。例如,二維特征空間中的超平面是一條線,而三維特征空間中的超平面是一個(gè)面。最佳超平面即不同特征空間中離該超平面最近的點(diǎn)的距離最大,這些最近的點(diǎn)就是所謂的支持向量。如下圖:一定理解:支持向量是離最佳超平面最近的點(diǎn)
SVM的原理
根據(jù)前面提到的SVM定義,其實(shí)我們可以有無(wú)限多個(gè)可行的超平面。我們?nèi)绾未_定最佳選擇?讓我一步步來(lái)說(shuō)明
- 認(rèn)識(shí)超平面
首先,我們需要了解什么才是一個(gè)合格的超平面。在以下示例中,超平面C是唯一正確的,因?yàn)樗晒Φ匕雌錁?biāo)記將觀察結(jié)果分開(kāi),超平面A和B卻失敗了。我們可以從數(shù)學(xué)上來(lái)看:
在二維空間中,一條線可以由一個(gè)斜率向量w(二維)和一個(gè)截距b來(lái)定義。類似地,在n維空間中,超平面可以由n維向量w和截距b定義。超平面上的任何數(shù)據(jù)點(diǎn)x都滿足
如果一個(gè)超平面滿足以下2點(diǎn),則為合格的超平面:
- 對(duì)于來(lái)自一類的任何數(shù)據(jù)點(diǎn)x,它都滿足
- 對(duì)于來(lái)自另一個(gè)類的任何數(shù)據(jù)點(diǎn)x,它都滿足
只有C為合格的超平面
w和b可能有無(wú)數(shù)種可能。因此,接下來(lái)我們探討如何在可能的超平面中確定最佳的超平面
- 確定最佳超平面
在以下實(shí)例中,ABC都是合格的超平面,但C才是最佳超平面,為什么呢?因?yàn)镃使正側(cè)最近的數(shù)據(jù)點(diǎn)與其自身之間的距離與負(fù)側(cè)最近的數(shù)據(jù)點(diǎn)與其自身之間的距離的和最大。此時(shí)正側(cè)的最近點(diǎn)可以構(gòu)成一個(gè)平行于決策超平面的超平面,我們稱其為正超平面。另一方面,負(fù)側(cè)的最近點(diǎn)構(gòu)成負(fù)超平面。正負(fù)超平面之間的垂直距離稱為余量,其值等于上述兩個(gè)距離的總和。如果余量最大化,則決策超平面是最佳的。
C才是最佳超平面
下面顯示了使用兩個(gè)類別的樣本訓(xùn)練的SVM模型的最大余量(最佳)超平面和余量。邊緣上的樣本(一個(gè)類別中的兩個(gè)黃星,另一類別中的一個(gè)藍(lán)點(diǎn),如下所示)就是所謂的支持向量。
正負(fù)超平面與支持向量
運(yùn)用SVM的機(jī)器學(xué)習(xí)要做的呢就是去找到這個(gè)最佳超平面,具體過(guò)程設(shè)計(jì)到好多數(shù)學(xué)知識(shí),這兒不展開(kāi)(1是因?yàn)轭^條寫公式太垃圾,2是我也不會(huì),哈哈哈)
其實(shí)了解這么多就差不多了,但是還有一種情況
線性超平面不好分咋整?
想一想這個(gè)時(shí)候,如何處理如圖這個(gè)情況
接下來(lái)繼續(xù)
離群值的處理
對(duì)于含有離群值的數(shù)據(jù)這個(gè)時(shí)候其實(shí)是找不到最優(yōu)超平面的,此時(shí)用SVM時(shí)我們?cè)试S分類錯(cuò)誤,但是會(huì)盡量最小化引入的誤差。對(duì)于一個(gè)樣本X它的分類錯(cuò)誤可以表示為:
為了計(jì)算簡(jiǎn)便對(duì)于一組m個(gè)樣本的訓(xùn)練集:
分類錯(cuò)誤可以表示為
別問(wèn)我為什么,我不知道
但要理解,其中參數(shù)C控制兩個(gè)指標(biāo)(模型方差與偏倚)之間的權(quán)衡。
當(dāng)選擇大值的C時(shí),錯(cuò)誤分類的懲罰會(huì)變得相對(duì)較高,這使得數(shù)據(jù)分割變得更加嚴(yán)格(盡可能分成標(biāo)準(zhǔn)的2類),模型易于過(guò)擬合。具有大C的SVM模型具有較低的偏差,但可能會(huì)有較大的方差。
相反,當(dāng)C的值足夠小時(shí),錯(cuò)誤分類的影響變得相對(duì)較小,這允許更多錯(cuò)誤分類的數(shù)據(jù)點(diǎn),從而使得分割不太嚴(yán)格。C較小的SVM模型方差低,但可能會(huì)偏倚較大。
圖示如下:
大C與小C的區(qū)別
參數(shù)C可以通過(guò)交叉驗(yàn)證進(jìn)行微調(diào),之后講。
感謝大家耐心看完,發(fā)表這些東西的主要目的就是督促自己,希望大家關(guān)注評(píng)論指出不足,一起進(jìn)步。內(nèi)容我都會(huì)寫的很細(xì),一個(gè)目的就是零基礎(chǔ)也能懂,因?yàn)樽约壕褪鞘裁椿A(chǔ)沒(méi)有從零學(xué)Python的。
總結(jié)
以上是生活随笔為你收集整理的svm 支持向量机 回归 预测_机器学习:简单理解支持向量机SVM的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Mac锁屏设置快捷键
- 下一篇: elementui 加载中_Elemen