特征选择算法(机器学习)
1)特征選擇理論
一份數(shù)據(jù)有很多屬性,但有些屬性可能很關(guān)鍵,另一些沒有用。從給定特征集中選擇出相關(guān)特征子集的過程稱為特征選擇。特征選擇是一個重要的數(shù)據(jù)預(yù)處理過程。一般在正式的數(shù)據(jù)處理之前進行。
特征選擇是一個重要的數(shù)據(jù)預(yù)處理過程,他不僅可以降低數(shù)據(jù)維數(shù),以節(jié)省時間,簡化分析,規(guī)避“維度災(zāi)難”,更可以去除無關(guān)特征,抓住主要矛盾,使分析結(jié)果更加準(zhǔn)確。同時,采用特征選擇算法還便于理解和可視化數(shù)據(jù),降低計算及存儲壓力。
特征選擇簡單來說就是選出一個“候選子集”,對這個子集進行分類等處理時其效果好于原始數(shù)據(jù),且子集特征小于原數(shù)據(jù)。如何決定這個“候選子集”?想要在出事特征集合中選取一個包含重要信息的特征子集。若沒有任何領(lǐng)域知識作為先驗假設(shè),就只能遍歷。但是這樣計算量會特別大。所以方法是先產(chǎn)生一個“候選子集”,再對其進行評估。因此需要兩個步驟,一是“子集搜索”,二是“子集評價”。其中子集搜索就是先確定候選子集中的一個屬性,并向其中加入另一個屬性。若分類性能變好,則加入這個屬性,若分類性能未變好,則舍棄這個屬性,并向其中加入另一個屬性。子集搜索包括前進法,后退發(fā),和逐步回歸法。子集評價包含信息增益,交叉熵,相關(guān)性,余玄相似度等評價準(zhǔn)則。兩者結(jié)合起來就是特征選擇方法,如前進法和信息熵結(jié)合,顯然和決策樹很相似。常見特征選擇有三類方法:過濾式,包裹式,嵌入式
2)過濾式(filter)
過濾式方法先對數(shù)據(jù)集進行特征選擇,在訓(xùn)練學(xué)習(xí)器。相當(dāng)于先用特征選擇過程對初識特征進行過濾,再用過濾后的特征來訓(xùn)練模型。過濾式方法不需要考慮后續(xù)學(xué)習(xí)器的選擇。
3)包裹式(wrapper)
于過濾式特征選擇不考慮后續(xù)學(xué)習(xí)器不同,包裹式特征選擇直接把最終將要使用的學(xué)習(xí)器性能作為特征子集的評價準(zhǔn)則。其開銷比過濾式特征大,但最終學(xué)習(xí)性能更好。
4)嵌入式(embedding)
嵌入式特征選擇將特征選擇過程和機器訓(xùn)練過程融為一體一體。兩者在同一優(yōu)化過程中完成,即在學(xué)習(xí)器過程中自動進行了特征選擇。比如決策樹在分支的過程中,使用的就是嵌入式特征選擇方法,其內(nèi)在還是根據(jù)某個度量指標(biāo)對特征進行排序。
總結(jié)
以上是生活随笔為你收集整理的特征选择算法(机器学习)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【摘录】MTK按键扫描原理及相关代码
- 下一篇: 容器基本操作