日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

三十七、数据泛化(面向属性的归纳)

發布時間:2024/9/16 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 三十七、数据泛化(面向属性的归纳) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1. 數據泛化:面向屬性的歸納

從概念上講,數據立方體可以看做一種多維數據泛化。數據泛化通過把相對低層的值(例如,屬性年齡的數值)用較高層概念(例如,青年、中年和老年)替換來匯總數據。

  • 數據特征化的面向屬性的歸納
  • 面向屬性歸納的有效實現
  • 類比較的面向屬性歸納

2 數據特征的面向屬性的歸納

2.1 面向屬性的歸納的基本步驟

  • 數據聚焦,獲得初始數據關系
  • 進行面向屬性的歸納
  • 基本操作是數據泛化,對有大量不同的屬性,進行一下操作:

    • 屬性刪除
    • 屬性泛化
    • 屬性泛化控制

    2.2 數據聚焦

    • 目的是獲得跟任務相關的數據集,包括屬性或維,在DMQL中它們由in relevance to子句表示。

    • 獲取Big-University數據庫中研究生的數據

      use Big_University_DBselect name,gender,major,birth_place,birth_datefrom studentTo Science in “graduate”where status in “graduate”
    • 用戶可能引進太多的屬性

    2.3 數據泛化

    • 屬性刪除的使用規則:對初始工作關系中具有大量不同值的屬性,符合一下情況,應使用屬性刪除。
    • 在此屬性上沒有泛化操作符(比如該屬性沒有定義相關的感念分層)
    • 該屬性的較高層概念用其他屬性表示。如:屬性是street,它的高層次概念用屬性<city, province_or_state, country>

    2.4 屬性概化控制

    • 屬性概化的使用規則:如果初始工作關系中的某個屬性由大量不同值,且該屬性上存在概化操作符,則使用該泛化操作對該屬性進行數據泛化操作。
    • 什么是“具有大量的不同值”?要將屬性概化到多高的抽象層?
    • 屬性泛化控制的兩種常用方法:
    • 屬性泛化臨界值控制:對所有屬性設置一個泛化臨界值或對每個屬性分別設置一個臨界值。

    3 面向屬性歸納的有效實現

    3.1 基本步驟

    • 第一步進行的是關系查詢,把任務相關的數據收集到工作關系表W中。
    • 第二步收集初始關系上的統計量。這最多需要掃描一次該關系。
    • 第三部導出主觀系P。通過掃描工作關系的每個元組并把廣義元祖插入到P中完成

    4 類比較的面向屬性歸納

    4.1 類比較的面向屬性歸納的過程
    在許多應用中,用戶可能對單個類的概念或特征不感興趣,而是希望挖掘一種描述,它將一個類與其他課比較的類相區分

    • 數據收集:通過查詢處理收集數據庫中相關數據,并把它們劃分成一個目標類和對比類。
    • 維相關分析:如果有多個維,則應當在這些類上進行維相關分析。
    • 同步泛化:泛化在目標類上進行,泛化到用戶或領域專家指定的維閾值控制的層,產生主目標類關系。
    • 導出類比較的表示:結果類比較描述可以用表、圖或規則的形式可視化。

    4.2 挖掘類比較

    假設我們想比較Big_University的研究生和本科生的一般性質,給定了屬性name,gender,major,
    birth_place,birth_date,residence,phone#和gpa。

    首先將該查詢轉換成兩個關系查詢,收集兩個任務相關的集合:一個是初始目標類工作關系,另一個是初始對比類工作關系。


    合:一個是初始目標類工作關系,另一個是初始對比類工作關系。

    總結

    以上是生活随笔為你收集整理的三十七、数据泛化(面向属性的归纳)的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。