十六、数据变换和数据离散化
1.數據歸約的概念
數據變換的概念和數據離散化
在數據預處理過程中,不同的數據適合不同的數據挖掘算。數據變換是一種將原始數據變換成較好數據格式的方法,以便作為數據處理前特定數據挖掘算法的輸入。
- 數據離散化是一種數據變換形式。
- 數據變換策略概述
- 通過規范化變換數據-
- 通過分箱離散化
- 通過直方圖分析離散化
- 通過聚類、決策樹和相關分析離散化
- 標稱數據的概念分層產生
2 數據變換策略概述
在數據變換中,數據被變換或統一成適合于挖掘的形式。數據變換策略包括如下幾種:
- 光滑(smoothing):去掉數據中的噪聲。這類技術包括分箱、回歸和聚類。
- 屬性構造:可以由給定的屬性構造新的屬性并添加到屬性集中,以幫助挖掘過程。
- 聚集:對數據進行匯總或聚集。例如,可以聚集日銷售數據,計算月和年銷售量。。
- 規范化:把屬性數據按比例縮放,使之落入一個特定的小區間,如0.0~1.0。
- 離散化:數值屬性(例如,年齡)的原始值用區間標簽(例如,0~10,11~20等)。
- 由標稱數據產生概念分層:屬性,如street,可以泛化到較高的概念層,如city或country。
3 通過規范化變數據
3.1 最小-最大規范化:對原始數據進行線性變換
令minA和maxA表示屬性A的最小值和最大值,最小—最大值標準化將值vi映射為vi’(范圍是[new_minA, new_maxA]:
最小—最大值標準化保留了原有數據值的關系。如果后來的輸入的標準化的數據落在了原有數據區間的外面,將會發生過界的錯誤。
3.2 最小-最大規范化:例子
假定收入屬性的最小值和最大值分別是$12,000和$98,000. 將收入屬性映射到范圍[0.0, 1.0]上。則一個值為$73,600的收入標準化為。
3.3 z-分數標準化
屬性A的值,基于平均值和標準差來標準化。計算公式:
其中Aˉ和σA是屬性A的均值和標準差。這種方法在實際的最小值和最大值未知時很有用,或者離群點主導了最小—最大值的標準化。
3.2.4 z-分數標準化——例子*
假定income屬性的均值和標準差是$54,000和$16,000。使用z-分數標準化,則$73,600被轉換為: 。
4 數據離散化
4.1 通過分箱離散化
分箱并不使用類信息,因此是一種非監督的離散化技術,對用戶制定的箱個數很敏感,也容易受離群點的影響。
4.2 通過直方圖分箱離散化
直方圖分析也是一種非監督離散化技術,因為它不使用類信息。
4.3 通過聚類、決策樹和相關分析離散化
聚類將數據劃分成簇或組;離散化的決策樹方法是監督的,它們使用了類標號(分類)。
5. 標稱數據的概念分層產生
5.1 標稱數據的數據變化
現在,我們考察標稱數據的數據變換。特別地,我們研究標稱屬性的概念分層產生。標稱屬性具有有窮多個不同值(但可能很多),值之間無序。例如地理位置、工作類別和商品類型。
1、對于用戶和領域專家而言,人工定義概念分層是一項乏味和耗時的任務。幸運的是,許多分層結構都隱藏在數據庫的模式中,并且可以在模式定義級自動地定義。
2、概念分層可以用來把數據變換到多個粒度層。例如,關于銷售的數據挖掘模式除了在單個分店挖掘之外,還可以針對指定的地區或國家挖掘。
5.2 根據每個屬性的不同值個數產生概念分層
假設用戶從數據庫中選擇了一個關于location的屬性集country(15), province_or_state(365),city(3567), street(674339),但沒有指出這些屬性之間的分層次序。
總結
以上是生活随笔為你收集整理的十六、数据变换和数据离散化的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 十四、数据集成
- 下一篇: 十七、频繁模式、关联和相关性的基本概念和