5.4 SVM的使用建议-机器学习笔记-斯坦福吴恩达教授
生活随笔
收集整理的這篇文章主要介紹了
5.4 SVM的使用建议-机器学习笔记-斯坦福吴恩达教授
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
SVM的使用建議
使用流行庫
作為當今最為流行的分類算法之一,SVM 已經擁有了不少優秀的實現庫,如 libsvm 等,因此,我們不再需要自己手動實現 SVM(要知道,一個能用于生產環境的 SVM 模型并非課程中介紹的那么簡單)。
在使用這些庫時,我們通常需要聲明 SVM 需要的兩個關鍵部分:
由于 CCC 可以看做與正規化參數 λλλ 作用相反,則對于 CCC 的調節:
- 低偏差,高方差,即遇到了過擬合時:減小 CCC 值。
- 高偏差,低方差,即遇到了欠擬合時:增大 CCC 值。
而對于核函數的選擇有這么一些 tips:
- 當特征維度 n 較高,而樣本規模 m 較小時,不宜使用核函數,否則容易引起過擬合。
- 當特征維度 n 較低,而樣本規模 m 足夠大時,考慮使用高斯核函數。不過在使用高斯核函數前,需要進行特征縮放(feature scaling)。另外,當核函數的參數 δδδ 較大時,特征 fif_ifi? 較為平緩,即各個樣本的特征差異變小,此時會造成欠擬合(高偏差,低方差):
當 δδδ 較小時,特征 fif_ifi? 曲線變化劇烈,即各個樣本的特征差異變大,此時會造成過擬合(低偏差,高方差):
不是所有的相似度評估手段都能被用作SVM核函數,他們需要滿足 Mercer 理論
多分類問題
通常,流行的SVM庫已經內置了多分類相關的 api,如果其不支持多分類,則與邏輯回歸一樣,使用 One-vs-All 策略來進行多分類:
分類模型的選擇
目前,我們學到的分類模型有:(1)邏輯回歸;(2)神經網絡;(3)SVM。怎么選擇在這三者中做出選擇呢?我們考慮特征維度 nnn 及樣本規模 mmm :
- 如果 nnn 相對于 mmm 非常大,例如 n=10000n=10000n=10000 ,而 m∈(10,1000)m∈(10,1000)m∈(10,1000) :此時選用邏輯回歸或者無核的 SVM。
- 如果 nnn 較小, m 適中,如 n∈(1,1000)n∈(1,1000)n∈(1,1000) ,而 m∈(10,10000)m∈(10,10000)m∈(10,10000) :此時選用核函數為高斯核函數的 SVM。
- 如果 nnn 較小, mmm 較大,如 n∈(1,1000)n∈(1,1000)n∈(1,1000) ,而 m>50000m>50000m>50000 :此時,需要創建更多的特征(比如通過多項式擴展),再使用邏輯回歸或者無核的 SVM。
神經網絡對于上述情形都有不錯的適應性,但是計算性能上較慢。
總結
以上是生活随笔為你收集整理的5.4 SVM的使用建议-机器学习笔记-斯坦福吴恩达教授的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 5.3 核函数-机器学习笔记-斯坦福吴恩
- 下一篇: 5.5 SVM补充-机器学习笔记-斯坦福