[特征工程系列二]显性特征的基本处理方法
今天接著前一篇文章講,主要分享基于顯性特征工程的一些最基本的處理方法。關(guān)于顯性特征是什么,大家可以去看系列文章一。關(guān)于顯性特征的處理方法可以做這樣的類比:不知道大家平時會不會自己做菜,我個人的話基本每周都會做。我們從菜市場買的菜,不經(jīng)過處理是不能下鍋的,因為需要清洗、摘取爛的葉子、切段等操作后才可以下鍋。如果把機器學習整個流程比做炒一盤青菜的話,今天要介紹這些方式就有點像菜的前期處理過程。那我們就分類別介紹下,對于一份數(shù)據(jù),需要針對特征做哪些處理。
?
1.????數(shù)據(jù)清洗
主要包括兩方面,一方面是填充缺失值,因為在機器學習算法的計算過程中會對數(shù)據(jù)進行各種運算符的計算,需要把一些空值填充,通常會被填充為0或者是對應(yīng)特征列的均值。第二方面是亂碼問題,如果是文本數(shù)據(jù),經(jīng)常會出現(xiàn)編碼問題,需要把數(shù)據(jù)的類型全部處理好,最好是double型的。
?
2.????去量綱
因為數(shù)據(jù)的量綱會影響到某些算法的計算,比如有兩個字段數(shù)據(jù)分別是一個人吃飯用了多少秒、吃了多少斤飯,那一個是時間數(shù)據(jù),另一個是重量數(shù)據(jù),算法是無法感知這些量綱的影響的,所以需要一些數(shù)學手段規(guī)避。去量綱常用的方法是歸一化和標準化。
?
標準化就是每個特征值減去均值再除以方差,表現(xiàn)的是數(shù)據(jù)的一個分布情況。
歸一化是把數(shù)據(jù)的分布強制性的限制到0和1之間,使得向量單位化。
個人認為標準化對于刻畫數(shù)據(jù)的特征效果更好。
?
3.????數(shù)據(jù)平滑
大家可能平時會接觸到一些分布極不均勻的數(shù)據(jù),比如一個數(shù)據(jù)區(qū)間是[0,256],但是百分之九十以上的數(shù)據(jù)分布在[0,10]和[200,256]這兩個區(qū)間中。對于這樣的數(shù)據(jù)可以通過取對數(shù)的方式來處理,讓數(shù)據(jù)的分布更加平滑。或者干脆數(shù)據(jù)分桶,去一個中間閾值,小于128的標記為0,大于128的標記為1。
?
4.????數(shù)據(jù)去噪
很多時候數(shù)據(jù)因為采集方式可能出現(xiàn)各別事故,比如有的數(shù)據(jù)是靠調(diào)查問卷采集上來的,但是就有一個人不認真寫,瞎寫,造成了噪聲數(shù)據(jù)。這種跟事實偏差極大的數(shù)據(jù),可以通過正態(tài)分布的原理去除,因為可以設(shè)想數(shù)據(jù)的分布大部分是比較平均的,符合正態(tài)分布,那與均值偏差極大的部分就很有可能是噪聲,需要去除。
?
5.????降維
降維的方式很多啦,如果要講的話需要非常大的篇幅,之前在寫書的時候已經(jīng)寫了一遍了~有點懶,在這里簡單題下。其實除了PCA、LDA這兩種降維方式以外,邏輯回歸中的正則L1也可以理解為一種降維處理。
總結(jié)
以上是生活随笔為你收集整理的[特征工程系列二]显性特征的基本处理方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [特征工程系列一] 论特征的重要性
- 下一篇: [特征工程系列三]显性特征的衍生