特征选择算法(机器学习)
1)特征選擇理論
一份數據有很多屬性,但有些屬性可能很關鍵,另一些沒有用。從給定特征集中選擇出相關特征子集的過程稱為特征選擇。特征選擇是一個重要的數據預處理過程。一般在正式的數據處理之前進行。
特征選擇是一個重要的數據預處理過程,他不僅可以降低數據維數,以節省時間,簡化分析,規避“維度災難”,更可以去除無關特征,抓住主要矛盾,使分析結果更加準確。同時,采用特征選擇算法還便于理解和可視化數據,降低計算及存儲壓力。
特征選擇簡單來說就是選出一個“候選子集”,對這個子集進行分類等處理時其效果好于原始數據,且子集特征小于原數據。如何決定這個“候選子集”?想要在出事特征集合中選取一個包含重要信息的特征子集。若沒有任何領域知識作為先驗假設,就只能遍歷。但是這樣計算量會特別大。所以方法是先產生一個“候選子集”,再對其進行評估。因此需要兩個步驟,一是“子集搜索”,二是“子集評價”。其中子集搜索就是先確定候選子集中的一個屬性,并向其中加入另一個屬性。若分類性能變好,則加入這個屬性,若分類性能未變好,則舍棄這個屬性,并向其中加入另一個屬性。子集搜索包括前進法,后退發,和逐步回歸法。子集評價包含信息增益,交叉熵,相關性,余玄相似度等評價準則。兩者結合起來就是特征選擇方法,如前進法和信息熵結合,顯然和決策樹很相似。常見特征選擇有三類方法:過濾式,包裹式,嵌入式
2)過濾式(filter)
過濾式方法先對數據集進行特征選擇,在訓練學習器。相當于先用特征選擇過程對初識特征進行過濾,再用過濾后的特征來訓練模型。過濾式方法不需要考慮后續學習器的選擇。
3)包裹式(wrapper)
于過濾式特征選擇不考慮后續學習器不同,包裹式特征選擇直接把最終將要使用的學習器性能作為特征子集的評價準則。其開銷比過濾式特征大,但最終學習性能更好。
4)嵌入式(embedding)
嵌入式特征選擇將特征選擇過程和機器訓練過程融為一體一體。兩者在同一優化過程中完成,即在學習器過程中自動進行了特征選擇。比如決策樹在分支的過程中,使用的就是嵌入式特征選擇方法,其內在還是根據某個度量指標對特征進行排序。
總結
以上是生活随笔為你收集整理的特征选择算法(机器学习)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【摘录】MTK按键扫描原理及相关代码
- 下一篇: 容器基本操作