當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

第五章--预处理理论

發(fā)布時間：2025/4/5 编程问答 15 豆豆

生活随笔收集整理的這篇文章主要介紹了第五章--预处理理论小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

特征工程

，?

?異常值(空值)處理

空值、重復值、四分位數(shù)上下1.5倍到3倍邊界范圍以外、業(yè)務(wù)實際情況下不允許出現(xiàn)的值

?集中值：均值，中位數(shù)，眾數(shù)等

，?，

，?

?特征選擇：

，?

?特征變換：

?對指化：將數(shù)據(jù)進行對數(shù)化和指數(shù)化的過程

指數(shù)化：將一個數(shù)進行指數(shù)變換的過程，指數(shù)的底數(shù)一般取自然底數(shù)e

，?

對數(shù)化：取自然底數(shù)e

，?

?離散化：

將連續(xù)變量分成幾段(bins)

原因：

1.客服數(shù)據(jù)缺陷：連續(xù)數(shù)據(jù)有很多信息，但其中也可能存在一些意想不到的噪聲

2.某些算法要求：樸素貝葉斯需要屬性是離散的數(shù)據(jù)

3.非線性數(shù)據(jù)映射：比如某些數(shù)據(jù)的分布可能會有明顯的拐點，連續(xù)數(shù)值在不同的區(qū)間內(nèi)可能代表著不同的含義，因此在不同區(qū)間可能比連續(xù)數(shù)值本身更能代表數(shù)據(jù)的特性

，

?數(shù)據(jù)分箱計數(shù)：(在進行分箱前一定要進行排序)

方法一：等頻分箱計數(shù)(等深分箱)

方法二：等距分箱計數(shù)(等寬分箱)

自因變量優(yōu)化方法：根據(jù)自變量，因變量的有序分布，找到拐點等特殊變化點進行離散化

歸一化：一種數(shù)據(jù)變換方法，即最小化，最大化的一種特殊形式，將數(shù)據(jù)的范圍縮放到指定的范圍內(nèi)

所謂的歸一化，就是將數(shù)據(jù)轉(zhuǎn)換至0到1?的范圍(最小值是0，最大值是1)

優(yōu)點：一方面可以觀察單個數(shù)據(jù)相對于整體數(shù)據(jù)的比列，另一方面，如果遇到數(shù)據(jù)不同量綱的特征，可以方便的建立起這些數(shù)據(jù)特征之間進行合適的距離度量方法

標準化：將數(shù)據(jù)縮放到均值為0，標準差為1的尺度上

?數(shù)值化：把非數(shù)值數(shù)據(jù)轉(zhuǎn)換成數(shù)值數(shù)據(jù)的過程

，?

?正規(guī)化(規(guī)范化)：將個一向量的長度正規(guī)到單位一

?L2距離：歐氏距離

，

?注：不管是一般的線性PCA變換，或奇異值分解等，都沒有考慮到標注，而是讓特征與特征之間的相關(guān)性強弱來決定降維后的分布形態(tài)，是一種無監(jiān)督的降維方法，而LDA是使用到標注的降維方法。

注：不要理解成了?這個隱含狄利克雷分布！！！在文本分析領(lǐng)域，這個分布主要是應(yīng)用在自然語言處理中主題模型的建立。

?說明：m個特征，Y是其標注，以二分類為例的話，這里的Y就取0或者1，同時，這個特征矩陣有n行，對應(yīng)于n個對象，

然后根據(jù)行進行切分，可以分成兩個子矩陣，一個子矩陣的標注都是0，而另外一個子矩陣的標注都是1 。

然后根據(jù)這兩個子矩陣進行線性變換，所謂的線性變換，就是在這個子矩陣前乘以一個參數(shù)矩陣w，注意：標注Y并不參與到計算中

先衡量不同標注間的距離，直觀意義上就是將兩個矩陣進行直接相減。希望它們之間的距離盡可能大

?再衡量同一個標注之間距離的大小，希望它們盡可能小

?最大化一個函數(shù)：

?特征衍生：對現(xiàn)有的特征進行某些組合生成新的具有含義的特征。

總結(jié)

以上是生活随笔為你收集整理的第五章--预处理理论的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。