日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

第五章--预处理理论

發布時間:2025/4/5 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 第五章--预处理理论 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

特征工程

,?

?

,?

?異常值(空值)處理

空值、重復值、四分位數上下1.5倍到3倍邊界范圍以外、業務實際情況下不允許出現的值

?集中值:均值,中位數,眾數等

,?,

?

?

,?

?特征選擇:

,?

?

,?

?

?特征變換:

?對指化:將數據進行對數化和指數化的過程

指數化:將一個數進行指數變換的過程,指數的底數一般取自然底數e

,?

對數化:取自然底數e

,?

?離散化:

將連續變量分成幾段(bins)

原因:

1.客服數據缺陷:連續數據有很多信息,但其中也可能存在一些意想不到的噪聲

2.某些算法要求:樸素貝葉斯需要屬性是離散的數據

3.非線性數據映射:比如某些數據的分布可能會有明顯的拐點,連續數值在不同的區間內可能代表著不同的含義,因此在不同區間可能比連續數值本身更能代表數據的特性

?數據分箱計數:(在進行分箱前一定要進行排序)

方法一:等頻分箱計數(等深分箱)

方法二:等距分箱計數(等寬分箱)

自因變量優化方法:根據自變量,因變量的有序分布,找到拐點等特殊變化點進行離散化

歸一化:一種數據變換方法,即最小化,最大化的一種特殊形式,將數據的范圍縮放到指定的范圍內

所謂的歸一化,就是將數據轉換至0到1?的范圍(最小值是0,最大值是1)

優點:一方面可以觀察單個數據相對于整體數據的比列,另一方面,如果遇到數據不同量綱的特征,可以方便的建立起這些數據特征之間進行合適的距離度量方法

標準化:將數據縮放到均值為0,標準差為1的尺度上

?數值化:把非數值數據轉換成數值數據的過程

?

,?

?正規化(規范化):將個一向量的長度正規到單位一

?L2距離:歐氏距離

?

?

?

?注:不管是一般的線性PCA變換,或奇異值分解等,都沒有考慮到標注,而是讓特征與特征之間的相關性強弱來決定降維后的分布形態,是一種無監督的降維方法,而LDA是使用到標注的降維方法。

?

注:不要理解成了?這個隱含狄利克雷分布!!!在文本分析領域,這個分布主要是應用在自然語言處理中主題模型的建立。

?說明:m個特征,Y是其標注,以二分類為例的話,這里的Y就取0或者1,同時,這個特征矩陣有n行,對應于n個對象,

?

然后根據行進行切分,可以分成兩個子矩陣,一個子矩陣的標注都是0,而另外一個子矩陣的標注都是1 。

?

然后根據這兩個子矩陣進行線性變換,所謂的線性變換,就是在這個子矩陣前乘以一個參數矩陣w,注意:標注Y并不參與到計算中

先衡量不同標注間的距離,直觀意義上就是將兩個矩陣進行直接相減。希望它們之間的距離盡可能大

?

?再衡量同一個標注之間距離的大小,希望它們盡可能小

?

?最大化一個函數:

?

?

?

?

?特征衍生:對現有的特征進行某些組合生成新的具有含義的特征。

?

總結

以上是生活随笔為你收集整理的第五章--预处理理论的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。