日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

十六、数据变换和数据离散化

發布時間:2024/9/16 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 十六、数据变换和数据离散化 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.數據歸約的概念

數據變換的概念和數據離散化
在數據預處理過程中,不同的數據適合不同的數據挖掘算。數據變換是一種將原始數據變換成較好數據格式的方法,以便作為數據處理前特定數據挖掘算法的輸入。

  • 數據離散化是一種數據變換形式。
  • 數據變換策略概述
  • 通過規范化變換數據-
  • 通過分箱離散化
  • 通過直方圖分析離散化
  • 通過聚類、決策樹和相關分析離散化
  • 標稱數據的概念分層產生

2 數據變換策略概述

在數據變換中,數據被變換或統一成適合于挖掘的形式。數據變換策略包括如下幾種:

  • 光滑(smoothing):去掉數據中的噪聲。這類技術包括分箱、回歸和聚類。
  • 屬性構造:可以由給定的屬性構造新的屬性并添加到屬性集中,以幫助挖掘過程。
  • 聚集:對數據進行匯總或聚集。例如,可以聚集日銷售數據,計算月和年銷售量。。
  • 規范化:把屬性數據按比例縮放,使之落入一個特定的小區間,如0.0~1.0。
  • 離散化:數值屬性(例如,年齡)的原始值用區間標簽(例如,0~10,11~20等)。
  • 由標稱數據產生概念分層:屬性,如street,可以泛化到較高的概念層,如city或country。

3 通過規范化變數據

3.1 最小-最大規范化:對原始數據進行線性變換

令minA和maxA表示屬性A的最小值和最大值,最小—最大值標準化將值vi映射為vi’(范圍是[new_minA, new_maxA]:

最小—最大值標準化保留了原有數據值的關系。如果后來的輸入的標準化的數據落在了原有數據區間的外面,將會發生過界的錯誤。

3.2 最小-最大規范化:例子

假定收入屬性的最小值和最大值分別是$12,000和$98,000. 將收入屬性映射到范圍[0.0, 1.0]上。則一個值為$73,600的收入標準化為。

3.3 z-分數標準化

屬性A的值,基于平均值和標準差來標準化。計算公式:

其中Aˉ和σA是屬性A的均值和標準差。這種方法在實際的最小值和最大值未知時很有用,或者離群點主導了最小—最大值的標準化。
3.2.4 z-分數標準化——例子*
假定income屬性的均值和標準差是$54,000和$16,000。使用z-分數標準化,則$73,600被轉換為: 。

4 數據離散化

4.1 通過分箱離散化

分箱并不使用類信息,因此是一種非監督的離散化技術,對用戶制定的箱個數很敏感,也容易受離群點的影響。

4.2 通過直方圖分箱離散化

直方圖分析也是一種非監督離散化技術,因為它不使用類信息。

4.3 通過聚類、決策樹和相關分析離散化

聚類將數據劃分成簇或組;離散化的決策樹方法是監督的,它們使用了類標號(分類)。

5. 標稱數據的概念分層產生

5.1 標稱數據的數據變化

現在,我們考察標稱數據的數據變換。特別地,我們研究標稱屬性的概念分層產生。標稱屬性具有有窮多個不同值(但可能很多),值之間無序。例如地理位置、工作類別和商品類型。

1、對于用戶和領域專家而言,人工定義概念分層是一項乏味和耗時的任務。幸運的是,許多分層結構都隱藏在數據庫的模式中,并且可以在模式定義級自動地定義。
2、概念分層可以用來把數據變換到多個粒度層。例如,關于銷售的數據挖掘模式除了在單個分店挖掘之外,還可以針對指定的地區或國家挖掘。

5.2 根據每個屬性的不同值個數產生概念分層

假設用戶從數據庫中選擇了一個關于location的屬性集country(15), province_or_state(365),city(3567), street(674339),但沒有指出這些屬性之間的分層次序。

與50位技術專家面對面20年技術見證,附贈技術全景圖

總結

以上是生活随笔為你收集整理的十六、数据变换和数据离散化的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。