【特征选择】基础知识
???????? 數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已。特征選擇是特種工程的重要組成部分,在現實任務中,獲得數據之后通常先進性特征選擇,用相關特征訓練學習器。
特征選擇的概念
- 相關特征:與當前學習任務相關的特征
- 無關特征:與當前學習任務無關的特征
- 特征選擇:在不丟失重要特征的前提下,從給定的特征集合中選擇出相關特征子集的過程(相關性)
?
特征選擇的原因
1.降低學習難度
2.減輕維度災難
3.減少計算和存儲開銷
4.提高模型的可解釋性
?
特征選擇的過程
????????? 生成一個“候選子集”,評價候選子集的好壞,基于評價結果生成下一個“候選子集“,再評價候選子集的好壞......直至無法找到更好的候選子集為止。特征選擇的關鍵環節:如何根據評價結果生成下一個候選特征子集?(子集搜索問題)如何評價候選特征子集的好壞?(子集評價問題)
(1)子集搜索問題
????? 通過貪心策略解決子集搜索問題,三種常見的策略:
- 前向搜索策略:逐漸增加相關特征
- 后向搜索策略:逐漸減少無關特征
- 雙向搜索策略:逐漸增加相關特征,同時逐漸減少無關特征
(2)子集評價問題
???????? 通過計算候選子集的信息增益,評價候選子集的好壞。信息增益越大,則候選子集包含的的有助于分類的信息越多。信息增益是子集評價的準則之一,其他能判斷劃分差異的機制均能夠用于特征子集評價。
特征選擇方法之決策樹
?
特征選擇的方法--過濾式(filter)、包裹式(wrapper)、嵌入式 (embedded)
- 過濾式--使用發散性/相關性對各個特征進行評分,設定閾值或特征個數選擇特征 。特征選擇過程與學習器無關,相當于先對初始特征進行過濾,再用過濾后的特征訓練模型。
?
- 包裹式--使用學習器的目標函數對各個特征進行評分,選擇若干特征/刪除若干特征。特征選擇過程與學習器相關,使用學習器的性能作為特征選擇的評價準則,選擇最有利于學習器性能的特征子集。
- 嵌入式--使用機器學習算法對各個特征進行評分,選擇若干個特征。特征選擇過程與學習器相關,特征選擇過程與學習器訓練過程融合,在學習器訓練過程中自動地進行特征選擇。
?
?
特征選擇的效果
????? 特征選擇不一定提升模型性能。
- 移除無關特征,能夠在一定程度上提升模型性能。
- 移除重要程度較低的特征,不一定導致模型性能下降,也不一定導致模型性能提升。(特征的某種度量方式不代表特征的最終效果,度量方式只是一個參考而已)
轉載于:https://www.cnblogs.com/wanglei5205/p/8973614.html
總結
以上是生活随笔為你收集整理的【特征选择】基础知识的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Android项目实战(三十二):圆角对
- 下一篇: 2018集训队日常训练1