日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

特征选择算法(机器学习)

發(fā)布時間:2023/12/9 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 特征选择算法(机器学习) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1)特征選擇理論
一份數(shù)據(jù)有很多屬性,但有些屬性可能很關(guān)鍵,另一些沒有用。從給定特征集中選擇出相關(guān)特征子集的過程稱為特征選擇。特征選擇是一個重要的數(shù)據(jù)預(yù)處理過程。一般在正式的數(shù)據(jù)處理之前進行。
特征選擇是一個重要的數(shù)據(jù)預(yù)處理過程,他不僅可以降低數(shù)據(jù)維數(shù),以節(jié)省時間,簡化分析,規(guī)避“維度災(zāi)難”,更可以去除無關(guān)特征,抓住主要矛盾,使分析結(jié)果更加準(zhǔn)確。同時,采用特征選擇算法還便于理解和可視化數(shù)據(jù),降低計算及存儲壓力。
特征選擇簡單來說就是選出一個“候選子集”,對這個子集進行分類等處理時其效果好于原始數(shù)據(jù),且子集特征小于原數(shù)據(jù)。如何決定這個“候選子集”?想要在出事特征集合中選取一個包含重要信息的特征子集。若沒有任何領(lǐng)域知識作為先驗假設(shè),就只能遍歷。但是這樣計算量會特別大。所以方法是先產(chǎn)生一個“候選子集”,再對其進行評估。因此需要兩個步驟,一是“子集搜索”,二是“子集評價”。其中子集搜索就是先確定候選子集中的一個屬性,并向其中加入另一個屬性。若分類性能變好,則加入這個屬性,若分類性能未變好,則舍棄這個屬性,并向其中加入另一個屬性。子集搜索包括前進法,后退發(fā),和逐步回歸法。子集評價包含信息增益,交叉熵,相關(guān)性,余玄相似度等評價準(zhǔn)則。兩者結(jié)合起來就是特征選擇方法,如前進法和信息熵結(jié)合,顯然和決策樹很相似。常見特征選擇有三類方法:過濾式,包裹式,嵌入式
2)過濾式(filter)
過濾式方法先對數(shù)據(jù)集進行特征選擇,在訓(xùn)練學(xué)習(xí)器。相當(dāng)于先用特征選擇過程對初識特征進行過濾,再用過濾后的特征來訓(xùn)練模型。過濾式方法不需要考慮后續(xù)學(xué)習(xí)器的選擇。
3)包裹式(wrapper)
于過濾式特征選擇不考慮后續(xù)學(xué)習(xí)器不同,包裹式特征選擇直接把最終將要使用的學(xué)習(xí)器性能作為特征子集的評價準(zhǔn)則。其開銷比過濾式特征大,但最終學(xué)習(xí)性能更好。
4)嵌入式(embedding)
嵌入式特征選擇將特征選擇過程和機器訓(xùn)練過程融為一體一體。兩者在同一優(yōu)化過程中完成,即在學(xué)習(xí)器過程中自動進行了特征選擇。比如決策樹在分支的過程中,使用的就是嵌入式特征選擇方法,其內(nèi)在還是根據(jù)某個度量指標(biāo)對特征進行排序。

總結(jié)

以上是生活随笔為你收集整理的特征选择算法(机器学习)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。