第五章--预处理理论
特征工程
,??
,??異常值(空值)處理
空值、重復值、四分位數(shù)上下1.5倍到3倍邊界范圍以外、業(yè)務(wù)實際情況下不允許出現(xiàn)的值
?集中值:均值,中位數(shù),眾數(shù)等
,?,?
?
,??特征選擇:
,??
,??
?特征變換:
?對指化:將數(shù)據(jù)進行對數(shù)化和指數(shù)化的過程
指數(shù)化:將一個數(shù)進行指數(shù)變換的過程,指數(shù)的底數(shù)一般取自然底數(shù)e
,?對數(shù)化:取自然底數(shù)e
,??離散化:
將連續(xù)變量分成幾段(bins)
原因:
1.客服數(shù)據(jù)缺陷:連續(xù)數(shù)據(jù)有很多信息,但其中也可能存在一些意想不到的噪聲
2.某些算法要求:樸素貝葉斯需要屬性是離散的數(shù)據(jù)
3.非線性數(shù)據(jù)映射:比如某些數(shù)據(jù)的分布可能會有明顯的拐點,連續(xù)數(shù)值在不同的區(qū)間內(nèi)可能代表著不同的含義,因此在不同區(qū)間可能比連續(xù)數(shù)值本身更能代表數(shù)據(jù)的特性
,?數(shù)據(jù)分箱計數(shù):(在進行分箱前一定要進行排序)
方法一:等頻分箱計數(shù)(等深分箱)
方法二:等距分箱計數(shù)(等寬分箱)
自因變量優(yōu)化方法:根據(jù)自變量,因變量的有序分布,找到拐點等特殊變化點進行離散化
歸一化:一種數(shù)據(jù)變換方法,即最小化,最大化的一種特殊形式,將數(shù)據(jù)的范圍縮放到指定的范圍內(nèi)
所謂的歸一化,就是將數(shù)據(jù)轉(zhuǎn)換至0到1?的范圍(最小值是0,最大值是1)
優(yōu)點:一方面可以觀察單個數(shù)據(jù)相對于整體數(shù)據(jù)的比列,另一方面,如果遇到數(shù)據(jù)不同量綱的特征,可以方便的建立起這些數(shù)據(jù)特征之間進行合適的距離度量方法
標準化:將數(shù)據(jù)縮放到均值為0,標準差為1的尺度上
?數(shù)值化:把非數(shù)值數(shù)據(jù)轉(zhuǎn)換成數(shù)值數(shù)據(jù)的過程
?
,??正規(guī)化(規(guī)范化):將個一向量的長度正規(guī)到單位一
?L2距離:歐氏距離
?
?
?
,?注:不管是一般的線性PCA變換,或奇異值分解等,都沒有考慮到標注,而是讓特征與特征之間的相關(guān)性強弱來決定降維后的分布形態(tài),是一種無監(jiān)督的降維方法,而LDA是使用到標注的降維方法。
?
注:不要理解成了?這個隱含狄利克雷分布!!!在文本分析領(lǐng)域,這個分布主要是應(yīng)用在自然語言處理中主題模型的建立。
?說明:m個特征,Y是其標注,以二分類為例的話,這里的Y就取0或者1,同時,這個特征矩陣有n行,對應(yīng)于n個對象,
?
然后根據(jù)行進行切分,可以分成兩個子矩陣,一個子矩陣的標注都是0,而另外一個子矩陣的標注都是1 。
?
然后根據(jù)這兩個子矩陣進行線性變換,所謂的線性變換,就是在這個子矩陣前乘以一個參數(shù)矩陣w,注意:標注Y并不參與到計算中
先衡量不同標注間的距離,直觀意義上就是將兩個矩陣進行直接相減。希望它們之間的距離盡可能大
?
?再衡量同一個標注之間距離的大小,希望它們盡可能小
?
?最大化一個函數(shù):
?
?
?
?
?特征衍生:對現(xiàn)有的特征進行某些組合生成新的具有含義的特征。
?
總結(jié)
以上是生活随笔為你收集整理的第五章--预处理理论的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第6章 梯度下降法
- 下一篇: 第六章---机器学习与数据建模