日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

十大经典数据挖掘算法:SVM

發(fā)布時間:2024/1/17 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 十大经典数据挖掘算法:SVM 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
作者簡介:
Treant 人工智能愛好者社區(qū)專欄作者
博客專欄:https://www.cnblogs.com/en-heng

?

SVM(Support Vector Machines)是分類算法中應(yīng)用廣泛、效果不錯的一類。《統(tǒng)計學(xué)習(xí)方法》對SVM的數(shù)學(xué)原理做了詳細(xì)推導(dǎo)與論述,本文僅做整理。由簡至繁SVM可分類為三類:線性可分(linear SVM in linearly separable case)的線性SVM、線性不可分的線性SVM、非線性(nonlinear)SVM。

?

1.線性可分

對于二類分類問題,訓(xùn)練集

,其類別

,線性SVM通過學(xué)習(xí)得到分離超平面(hyperplane):

?

?

以及相應(yīng)的分類決策函數(shù):

?

?

有如下圖所示的分離超平面,哪一個超平面的分類效果更好呢?

?

?

直觀上,超平面

的分類效果更好一些。將距離分離超平面最近的兩個不同類別的樣本點(diǎn)稱為支持向量(support vector)的,構(gòu)成了兩條平行于分離超平面的長帶,二者之間的距離稱之為margin。顯然,margin更大,則分類正確的確信度更高(與超平面的距離表示分類的確信度,距離越遠(yuǎn)則分類正確的確信度越高)。通過計算容易得到:

?

?

從上圖中可觀察到:margin以外的樣本點(diǎn)對于確定分離超平面沒有貢獻(xiàn),換句話說,SVM是有很重要的訓(xùn)練樣本(支持向量)所確定的。至此,SVM分類問題可描述為在全部分類正確的情況下,最大化

(等價于最小化

);線性分類的約束最優(yōu)化問題

?

?

對每一個不等式約束引進(jìn)拉格朗日乘子(Lagrange multiplier)

構(gòu)造拉格朗日函數(shù)(Lagrange function):

?

?

根據(jù)拉格朗日對偶性,原始的約束最優(yōu)化問題可等價于極大極小的對偶問題:

?

?

求偏導(dǎo)并令其等于0,則

?

?

將上述式子代入拉格朗日函數(shù)(3)中,對偶問題轉(zhuǎn)為

?

?

等價于最優(yōu)化問

?

?

線性可分是理想情形,大多數(shù)情況下,由于噪聲或特異點(diǎn)等各種原因,訓(xùn)練樣本是線性不可分的。因此,需要更一般化的學(xué)習(xí)算法。

?

2.線性不可分

線性不可分意味著有樣本點(diǎn)不滿足約束條件(2),為了解決這個問題,對每個樣本引入一個松弛變量

這樣約束條件變?yōu)?#xff1a;

?

?

目標(biāo)函數(shù)則變?yōu)?/p>

?

?

其中,

為懲罰函數(shù),目標(biāo)函數(shù)有兩層含義:

  • margin盡量大,
  • 誤分類的樣本點(diǎn)計量少

?

為調(diào)節(jié)二者的參數(shù)。通過構(gòu)造拉格朗日函數(shù)并求解偏導(dǎo)(具體推導(dǎo)略去),可得到等價的對偶問題:

?

?

與上一節(jié)中線性可分的對偶問題相比,只是約束條件

發(fā)生變化,問題求解思路與之類似。

?

3.非線性

對于非線性問題,線性SVM不再適用了,需要非線性SVM來解決了。解決非線性分類問題的思路,通過空間變換?(一般是低維空間映射到高維空間

后實現(xiàn)線性可分,在下圖所示的例子中,通過空間變換,將左圖中的橢圓分離面變換成了右圖中直線。

?

?

在SVM的等價對偶問題中的目標(biāo)函數(shù)中有樣本點(diǎn)的內(nèi)積

在空間變換后則是

由于維數(shù)增加導(dǎo)致內(nèi)積計算成本增加,這時核函數(shù)(kernel function)便派上用場了,將映射后的高維空間內(nèi)積轉(zhuǎn)換成低維空間的函數(shù):

?

?

將其代入一般化的SVM學(xué)習(xí)算法的目標(biāo)函數(shù)(7)中,可得非線性SVM的最優(yōu)化問題:

?

?

4.參考資料

[1] 李航,《統(tǒng)計學(xué)習(xí)方法》.

[2] Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining.

?

往期回顧:

【十大經(jīng)典數(shù)據(jù)挖掘算法】C4.5

【十大經(jīng)典數(shù)據(jù)挖掘算法】k-means

總結(jié)

以上是生活随笔為你收集整理的十大经典数据挖掘算法:SVM的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。