當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

[特征工程系列二]显性特征的基本处理方法

發(fā)布時間：2025/4/5 编程问答 56 豆豆

生活随笔收集整理的這篇文章主要介紹了 [特征工程系列二]显性特征的基本处理方法小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

今天接著前一篇文章講，主要分享基于顯性特征工程的一些最基本的處理方法。關(guān)于顯性特征是什么，大家可以去看系列文章一。關(guān)于顯性特征的處理方法可以做這樣的類比：不知道大家平時會不會自己做菜，我個人的話基本每周都會做。我們從菜市場買的菜，不經(jīng)過處理是不能下鍋的，因為需要清洗、摘取爛的葉子、切段等操作后才可以下鍋。如果把機器學習整個流程比做炒一盤青菜的話，今天要介紹這些方式就有點像菜的前期處理過程。那我們就分類別介紹下，對于一份數(shù)據(jù)，需要針對特征做哪些處理。

1.????數(shù)據(jù)清洗

主要包括兩方面，一方面是填充缺失值，因為在機器學習算法的計算過程中會對數(shù)據(jù)進行各種運算符的計算，需要把一些空值填充，通常會被填充為0或者是對應(yīng)特征列的均值。第二方面是亂碼問題，如果是文本數(shù)據(jù)，經(jīng)常會出現(xiàn)編碼問題，需要把數(shù)據(jù)的類型全部處理好，最好是double型的。

2.????去量綱

因為數(shù)據(jù)的量綱會影響到某些算法的計算，比如有兩個字段數(shù)據(jù)分別是一個人吃飯用了多少秒、吃了多少斤飯，那一個是時間數(shù)據(jù)，另一個是重量數(shù)據(jù)，算法是無法感知這些量綱的影響的，所以需要一些數(shù)學手段規(guī)避。去量綱常用的方法是歸一化和標準化。

標準化就是每個特征值減去均值再除以方差，表現(xiàn)的是數(shù)據(jù)的一個分布情況。

歸一化是把數(shù)據(jù)的分布強制性的限制到0和1之間，使得向量單位化。

個人認為標準化對于刻畫數(shù)據(jù)的特征效果更好。

3.????數(shù)據(jù)平滑

大家可能平時會接觸到一些分布極不均勻的數(shù)據(jù)，比如一個數(shù)據(jù)區(qū)間是[0,256]，但是百分之九十以上的數(shù)據(jù)分布在[0,10]和[200,256]這兩個區(qū)間中。對于這樣的數(shù)據(jù)可以通過取對數(shù)的方式來處理，讓數(shù)據(jù)的分布更加平滑。或者干脆數(shù)據(jù)分桶，去一個中間閾值，小于128的標記為0，大于128的標記為1。

4.????數(shù)據(jù)去噪

很多時候數(shù)據(jù)因為采集方式可能出現(xiàn)各別事故，比如有的數(shù)據(jù)是靠調(diào)查問卷采集上來的，但是就有一個人不認真寫，瞎寫，造成了噪聲數(shù)據(jù)。這種跟事實偏差極大的數(shù)據(jù)，可以通過正態(tài)分布的原理去除，因為可以設(shè)想數(shù)據(jù)的分布大部分是比較平均的，符合正態(tài)分布，那與均值偏差極大的部分就很有可能是噪聲，需要去除。

5.????降維

降維的方式很多啦，如果要講的話需要非常大的篇幅，之前在寫書的時候已經(jīng)寫了一遍了~有點懶，在這里簡單題下。其實除了PCA、LDA這兩種降維方式以外，邏輯回歸中的正則L1也可以理解為一種降維處理。

總結(jié)

以上是生活随笔為你收集整理的[特征工程系列二]显性特征的基本处理方法的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： [特征工程系列一] 论特征的重要性
下一篇： [特征工程系列三]显性特征的衍生

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

[特征工程系列二]显性特征的基本处理方法

總結(jié)