第五章--预处理理论
特征工程
,??
,??異常值(空值)處理
空值、重復值、四分位數上下1.5倍到3倍邊界范圍以外、業務實際情況下不允許出現的值
?集中值:均值,中位數,眾數等
,?,?
?
,??特征選擇:
,??
,??
?特征變換:
?對指化:將數據進行對數化和指數化的過程
指數化:將一個數進行指數變換的過程,指數的底數一般取自然底數e
,?對數化:取自然底數e
,??離散化:
將連續變量分成幾段(bins)
原因:
1.客服數據缺陷:連續數據有很多信息,但其中也可能存在一些意想不到的噪聲
2.某些算法要求:樸素貝葉斯需要屬性是離散的數據
3.非線性數據映射:比如某些數據的分布可能會有明顯的拐點,連續數值在不同的區間內可能代表著不同的含義,因此在不同區間可能比連續數值本身更能代表數據的特性
,?數據分箱計數:(在進行分箱前一定要進行排序)
方法一:等頻分箱計數(等深分箱)
方法二:等距分箱計數(等寬分箱)
自因變量優化方法:根據自變量,因變量的有序分布,找到拐點等特殊變化點進行離散化
歸一化:一種數據變換方法,即最小化,最大化的一種特殊形式,將數據的范圍縮放到指定的范圍內
所謂的歸一化,就是將數據轉換至0到1?的范圍(最小值是0,最大值是1)
優點:一方面可以觀察單個數據相對于整體數據的比列,另一方面,如果遇到數據不同量綱的特征,可以方便的建立起這些數據特征之間進行合適的距離度量方法
標準化:將數據縮放到均值為0,標準差為1的尺度上
?數值化:把非數值數據轉換成數值數據的過程
?
,??正規化(規范化):將個一向量的長度正規到單位一
?L2距離:歐氏距離
?
?
?
,?注:不管是一般的線性PCA變換,或奇異值分解等,都沒有考慮到標注,而是讓特征與特征之間的相關性強弱來決定降維后的分布形態,是一種無監督的降維方法,而LDA是使用到標注的降維方法。
?
注:不要理解成了?這個隱含狄利克雷分布!!!在文本分析領域,這個分布主要是應用在自然語言處理中主題模型的建立。
?說明:m個特征,Y是其標注,以二分類為例的話,這里的Y就取0或者1,同時,這個特征矩陣有n行,對應于n個對象,
?
然后根據行進行切分,可以分成兩個子矩陣,一個子矩陣的標注都是0,而另外一個子矩陣的標注都是1 。
?
然后根據這兩個子矩陣進行線性變換,所謂的線性變換,就是在這個子矩陣前乘以一個參數矩陣w,注意:標注Y并不參與到計算中
先衡量不同標注間的距離,直觀意義上就是將兩個矩陣進行直接相減。希望它們之間的距離盡可能大
?
?再衡量同一個標注之間距離的大小,希望它們盡可能小
?
?最大化一個函數:
?
?
?
?
?特征衍生:對現有的特征進行某些組合生成新的具有含義的特征。
?
總結
以上是生活随笔為你收集整理的第五章--预处理理论的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第6章 梯度下降法
- 下一篇: 第六章---机器学习与数据建模