當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

十六、数据变换和数据离散化

發布時間：2024/9/16 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了十六、数据变换和数据离散化小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.數據歸約的概念

數據變換的概念和數據離散化
在數據預處理過程中，不同的數據適合不同的數據挖掘算。數據變換是一種將原始數據變換成較好數據格式的方法，以便作為數據處理前特定數據挖掘算法的輸入。

數據離散化是一種數據變換形式。
數據變換策略概述
通過規范化變換數據-
通過分箱離散化
通過直方圖分析離散化
通過聚類、決策樹和相關分析離散化
標稱數據的概念分層產生

2 數據變換策略概述

在數據變換中，數據被變換或統一成適合于挖掘的形式。數據變換策略包括如下幾種：

光滑（smoothing）：去掉數據中的噪聲。這類技術包括分箱、回歸和聚類。
屬性構造：可以由給定的屬性構造新的屬性并添加到屬性集中，以幫助挖掘過程。
聚集：對數據進行匯總或聚集。例如，可以聚集日銷售數據，計算月和年銷售量。。
規范化：把屬性數據按比例縮放，使之落入一個特定的小區間，如0.0～1.0。
離散化：數值屬性（例如，年齡）的原始值用區間標簽（例如，0～10,11～20等）。
由標稱數據產生概念分層：屬性，如street，可以泛化到較高的概念層，如city或country。

3 通過規范化變數據

3.1 最小-最大規范化：對原始數據進行線性變換

令minA和maxA表示屬性A的最小值和最大值，最小—最大值標準化將值vi映射為vi’(范圍是[new_minA, new_maxA]:

最小—最大值標準化保留了原有數據值的關系。如果后來的輸入的標準化的數據落在了原有數據區間的外面，將會發生過界的錯誤。

3.2 最小-最大規范化：例子

假定收入屬性的最小值和最大值分別是$12,000和$98,000. 將收入屬性映射到范圍[0.0, 1.0]上。則一個值為$73,600的收入標準化為。

3.3 z-分數標準化

屬性A的值，基于平均值和標準差來標準化。計算公式：

其中Aˉ和σA是屬性A的均值和標準差。這種方法在實際的最小值和最大值未知時很有用，或者離群點主導了最小—最大值的標準化。
3.2.4 z-分數標準化——例子*
假定income屬性的均值和標準差是$54,000和$16,000。使用z-分數標準化，則$73,600被轉換為：。

4 數據離散化

4.1 通過分箱離散化

分箱并不使用類信息，因此是一種非監督的離散化技術，對用戶制定的箱個數很敏感，也容易受離群點的影響。

4.2 通過直方圖分箱離散化

直方圖分析也是一種非監督離散化技術，因為它不使用類信息。

4.3 通過聚類、決策樹和相關分析離散化

聚類將數據劃分成簇或組；離散化的決策樹方法是監督的，它們使用了類標號（分類）。

5. 標稱數據的概念分層產生

5.1 標稱數據的數據變化

現在，我們考察標稱數據的數據變換。特別地，我們研究標稱屬性的概念分層產生。標稱屬性具有有窮多個不同值（但可能很多），值之間無序。例如地理位置、工作類別和商品類型。

1、對于用戶和領域專家而言，人工定義概念分層是一項乏味和耗時的任務。幸運的是，許多分層結構都隱藏在數據庫的模式中，并且可以在模式定義級自動地定義。
2、概念分層可以用來把數據變換到多個粒度層。例如，關于銷售的數據挖掘模式除了在單個分店挖掘之外，還可以針對指定的地區或國家挖掘。

5.2 根據每個屬性的不同值個數產生概念分層

假設用戶從數據庫中選擇了一個關于location的屬性集country(15), province_or_state(365),city(3567), street(674339)，但沒有指出這些屬性之間的分層次序。

與50位技術專家面對面20年技術見證，附贈技術全景圖

總結

以上是生活随笔為你收集整理的十六、数据变换和数据离散化的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：十四、数据集成
下一篇：十七、频繁模式、关联和相关性的基本概念和