十大经典数据挖掘算法:SVM
Treant 人工智能愛好者社區(qū)專欄作者
博客專欄:https://www.cnblogs.com/en-heng
?
SVM(Support Vector Machines)是分類算法中應(yīng)用廣泛、效果不錯的一類。《統(tǒng)計學(xué)習(xí)方法》對SVM的數(shù)學(xué)原理做了詳細(xì)推導(dǎo)與論述,本文僅做整理。由簡至繁SVM可分類為三類:線性可分(linear SVM in linearly separable case)的線性SVM、線性不可分的線性SVM、非線性(nonlinear)SVM。
?
1.線性可分
對于二類分類問題,訓(xùn)練集
,其類別
,線性SVM通過學(xué)習(xí)得到分離超平面(hyperplane):
?
?
以及相應(yīng)的分類決策函數(shù):
?
?
有如下圖所示的分離超平面,哪一個超平面的分類效果更好呢?
?
?
直觀上,超平面
的分類效果更好一些。將距離分離超平面最近的兩個不同類別的樣本點(diǎn)稱為支持向量(support vector)的,構(gòu)成了兩條平行于分離超平面的長帶,二者之間的距離稱之為margin。顯然,margin更大,則分類正確的確信度更高(與超平面的距離表示分類的確信度,距離越遠(yuǎn)則分類正確的確信度越高)。通過計算容易得到:
?
?
從上圖中可觀察到:margin以外的樣本點(diǎn)對于確定分離超平面沒有貢獻(xiàn),換句話說,SVM是有很重要的訓(xùn)練樣本(支持向量)所確定的。至此,SVM分類問題可描述為在全部分類正確的情況下,最大化
(等價于最小化
);線性分類的約束最優(yōu)化問題
?
?
對每一個不等式約束引進(jìn)拉格朗日乘子(Lagrange multiplier)
構(gòu)造拉格朗日函數(shù)(Lagrange function):
?
?
根據(jù)拉格朗日對偶性,原始的約束最優(yōu)化問題可等價于極大極小的對偶問題:
?
?
將
對
求偏導(dǎo)并令其等于0,則
?
?
將上述式子代入拉格朗日函數(shù)(3)中,對偶問題轉(zhuǎn)為
?
?
等價于最優(yōu)化問
?
?
線性可分是理想情形,大多數(shù)情況下,由于噪聲或特異點(diǎn)等各種原因,訓(xùn)練樣本是線性不可分的。因此,需要更一般化的學(xué)習(xí)算法。
?
2.線性不可分
線性不可分意味著有樣本點(diǎn)不滿足約束條件(2),為了解決這個問題,對每個樣本引入一個松弛變量
這樣約束條件變?yōu)?#xff1a;
?
?
目標(biāo)函數(shù)則變?yōu)?/p>
?
?
其中,
為懲罰函數(shù),目標(biāo)函數(shù)有兩層含義:
- margin盡量大,
- 誤分類的樣本點(diǎn)計量少
?
為調(diào)節(jié)二者的參數(shù)。通過構(gòu)造拉格朗日函數(shù)并求解偏導(dǎo)(具體推導(dǎo)略去),可得到等價的對偶問題:
?
?
與上一節(jié)中線性可分的對偶問題相比,只是約束條件
發(fā)生變化,問題求解思路與之類似。
?
3.非線性
對于非線性問題,線性SVM不再適用了,需要非線性SVM來解決了。解決非線性分類問題的思路,通過空間變換?(一般是低維空間映射到高維空間
后實現(xiàn)線性可分,在下圖所示的例子中,通過空間變換,將左圖中的橢圓分離面變換成了右圖中直線。
?
?
在SVM的等價對偶問題中的目標(biāo)函數(shù)中有樣本點(diǎn)的內(nèi)積
在空間變換后則是
由于維數(shù)增加導(dǎo)致內(nèi)積計算成本增加,這時核函數(shù)(kernel function)便派上用場了,將映射后的高維空間內(nèi)積轉(zhuǎn)換成低維空間的函數(shù):
?
?
將其代入一般化的SVM學(xué)習(xí)算法的目標(biāo)函數(shù)(7)中,可得非線性SVM的最優(yōu)化問題:
?
?
4.參考資料
[1] 李航,《統(tǒng)計學(xué)習(xí)方法》.
[2] Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining.
?
往期回顧:
【十大經(jīng)典數(shù)據(jù)挖掘算法】C4.5
【十大經(jīng)典數(shù)據(jù)挖掘算法】k-means
總結(jié)
以上是生活随笔為你收集整理的十大经典数据挖掘算法:SVM的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习手动撸代码系列3-感知机
- 下一篇: 机器学习实战:GBDT Xgboost