R语言特征提取与特征选择
“數(shù)據(jù)決定了機器學習的上限,而算法只是盡可能逼近這個上限”,這里的數(shù)據(jù)指的就是經(jīng)過特征工程得到的數(shù)據(jù)。特征工程指的是把原始數(shù)據(jù)轉(zhuǎn)變?yōu)槟P偷挠柧殧?shù)據(jù)的過程,它的目的就是獲取更好的訓練數(shù)據(jù)特征,使得機器學習模型逼近這個上限。特征工程能使得模型的性能得到提升,有時甚至在簡單的模型上也能取得不錯的效果。
特征工程在機器學習中占有非常重要的作用,一般認為括特征構(gòu)建、特征提取、特征選擇三個部分。特征構(gòu)建比較麻煩,需要一定的經(jīng)驗。 特征提取與特征選擇都是為了從原始特征中找出最有效的特征。它們之間的區(qū)別是特征提取強調(diào)通過特征轉(zhuǎn)換的方式得到一組具有明顯物理或統(tǒng)計意義的特征;而特征選擇是從特征集合中挑選一組具有明顯物理或統(tǒng)計意義的特征子集。兩者都能幫助減少特征的維度、數(shù)據(jù)冗余,特征提取有時能發(fā)現(xiàn)更有意義的特征屬性,特征選擇的過程經(jīng)常能表示出每個特征的重要性對于模型構(gòu)建的重要性。簡單來說,特征構(gòu)建是升維的過程,特征提取和特征選擇是獎為的過程。
常用的特征選擇方法大致可以分為三類:過濾式(filter)、包裹式(wrapper)和嵌入式(embedding)。這里主要選用filter過濾法來篩選變量。
在此,應用mlr包進行特征選擇,如對變量重要性排序等操作,首先是通過makeClassifTask()創(chuàng)建一個用于分類的Task,其他回歸等目的有相應的創(chuàng)建函數(shù)。通過removeConstantFeatures()函數(shù)丟棄零變量,gener ateFilterValuesData()函數(shù)可選擇相應的method進行特征重要性排序(這里運用信息增益衡量),并可繪圖實現(xiàn)。
(1)方差選擇法
通過特征本身的方差來篩選特征的類。算各個特征的方差,然后根據(jù)閾值,選擇方差大于閾值的特征。
(2)相關(guān)系數(shù)法
計算各個特征對目標值的相關(guān)系數(shù)以及相關(guān)系數(shù)的P值。從圖6.6可以看出,通過該方法算出的特征偏向于交易次數(shù)。
(3)卡方檢驗
經(jīng)典的卡方檢驗是檢驗定性自變量對定性因變量的相關(guān)性,考慮自變量等于i且因變量等于j的樣本頻數(shù)的觀察值與期望的差距,這個統(tǒng)計量的含義簡而言之就是自變量對因變量的相關(guān)性。
(4)互信息法
經(jīng)典的互信息也是評價定性自變量對定性因變量的相關(guān)性的,可以看成是一個隨機變量中包含的關(guān)于另一個隨機變量的信息量。
參考的大佬文章:
https://zhuanlan.zhihu.com/p/25732304
總結(jié)
以上是生活随笔為你收集整理的R语言特征提取与特征选择的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 怎样看懂波形图
- 下一篇: 【知识积累】腾讯云CentOS 7服务器