當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

特征选择算法(机器学习)

發(fā)布時間：2023/12/9 编程问答 60 豆豆

生活随笔收集整理的這篇文章主要介紹了特征选择算法(机器学习) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1）特征選擇理論
一份數(shù)據(jù)有很多屬性，但有些屬性可能很關(guān)鍵，另一些沒有用。從給定特征集中選擇出相關(guān)特征子集的過程稱為特征選擇。特征選擇是一個重要的數(shù)據(jù)預(yù)處理過程。一般在正式的數(shù)據(jù)處理之前進(jìn)行。
特征選擇是一個重要的數(shù)據(jù)預(yù)處理過程，他不僅可以降低數(shù)據(jù)維數(shù)，以節(jié)省時間，簡化分析，規(guī)避“維度災(zāi)難”，更可以去除無關(guān)特征，抓住主要矛盾，使分析結(jié)果更加準(zhǔn)確。同時，采用特征選擇算法還便于理解和可視化數(shù)據(jù)，降低計算及存儲壓力。
特征選擇簡單來說就是選出一個“候選子集”，對這個子集進(jìn)行分類等處理時其效果好于原始數(shù)據(jù)，且子集特征小于原數(shù)據(jù)。如何決定這個“候選子集”？想要在出事特征集合中選取一個包含重要信息的特征子集。若沒有任何領(lǐng)域知識作為先驗(yàn)假設(shè)，就只能遍歷。但是這樣計算量會特別大。所以方法是先產(chǎn)生一個“候選子集”，再對其進(jìn)行評估。因此需要兩個步驟，一是“子集搜索”，二是“子集評價”。其中子集搜索就是先確定候選子集中的一個屬性，并向其中加入另一個屬性。若分類性能變好，則加入這個屬性，若分類性能未變好，則舍棄這個屬性，并向其中加入另一個屬性。子集搜索包括前進(jìn)法，后退發(fā)，和逐步回歸法。子集評價包含信息增益，交叉熵，相關(guān)性，余玄相似度等評價準(zhǔn)則。兩者結(jié)合起來就是特征選擇方法，如前進(jìn)法和信息熵結(jié)合，顯然和決策樹很相似。常見特征選擇有三類方法：過濾式，包裹式，嵌入式
2）過濾式（filter）
過濾式方法先對數(shù)據(jù)集進(jìn)行特征選擇，在訓(xùn)練學(xué)習(xí)器。相當(dāng)于先用特征選擇過程對初識特征進(jìn)行過濾，再用過濾后的特征來訓(xùn)練模型。過濾式方法不需要考慮后續(xù)學(xué)習(xí)器的選擇。
3）包裹式（wrapper）
于過濾式特征選擇不考慮后續(xù)學(xué)習(xí)器不同，包裹式特征選擇直接把最終將要使用的學(xué)習(xí)器性能作為特征子集的評價準(zhǔn)則。其開銷比過濾式特征大，但最終學(xué)習(xí)性能更好。
4）嵌入式（embedding）
嵌入式特征選擇將特征選擇過程和機(jī)器訓(xùn)練過程融為一體一體。兩者在同一優(yōu)化過程中完成，即在學(xué)習(xí)器過程中自動進(jìn)行了特征選擇。比如決策樹在分支的過程中，使用的就是嵌入式特征選擇方法，其內(nèi)在還是根據(jù)某個度量指標(biāo)對特征進(jìn)行排序。

總結(jié)

以上是生活随笔為你收集整理的特征选择算法(机器学习)的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【摘录】MTK按键扫描原理及相关代码
下一篇：容器基本操作