日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据仓库与数据挖掘实践期末复习总结

發布時間:2024/8/1 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据仓库与数据挖掘实践期末复习总结 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本篇內容為筆者數據倉庫挖掘與實踐的期末復習提綱范圍,提綱標號為《數據倉庫挖掘實踐》的部分目錄。

文章目錄

  • 1.1.2 什么是數據倉庫
    • 定義
    • 特征(4個)
  • 1.2.1 數據倉庫系統的組成
    • 定義
    • 組成
  • 1.2.2 ETL
  • 1.4 數據倉庫與操作型數據庫的關系
    • 操作型數據和分析型數據的區別
    • 數據倉庫與操作型數據庫的對比
  • 2.3.1 多維數據模型及相關概念
  • 2.3.4 幾種常見的基于關系數據庫的多維數據模型
  • 3.1 OLAP概述
  • 3.2 OLAP的多維數據模型
  • 3.3.1 數據立方體的有效計算
  • 5.1 關聯分析的概念
  • 5.2 Aprior算法
  • 7.1 分類過程
  • 7.3 決策樹分類算法
  • 7.4 樸素貝葉斯分類算法
  • 10.1 聚類概述
  • 10.2 K-means算法
  • 10.3.1 層級聚類算法概述
  • 10.3.2 DIANA算法和AGNES算法

1.1.2 什么是數據倉庫

定義

數據倉庫是一個 面向主題的、穩定的、集成的、隨時間變化的 數據的集合。

特征(4個)

  • 面向主題
    主題是指用戶使用數據倉庫進行決策時所關心的重點領域。從數據組織的角度看,主題是一些數據的集合。
    面向主體組織的數據具有以下特點:
    A. 各個主題有完整、一致的內容一邊在此基礎上進行分析處理
    B. 主題之間有重疊的內容,反應主題之間的聯系。重疊是邏輯上的,不是物理上的。
    C. 個主題的綜合方式存在不同
    D. 主題域應該具有獨立性和完備性
  • 集成的
    數據倉庫中存儲的數據一般從企業原來已經建立的數據庫系統中提取出來,但并不是原有數據的簡單復制,而是經過了抽取、篩選、清理、轉換、綜合等工作。
  • 非易失的
    數據倉庫在某個時間段來看是不變的
  • 時變的
    定期從操作型數據庫系統之接收新的數據內容
  • 1.2.1 數據倉庫系統的組成

    定義

    數據倉庫系統以數據倉庫為核心,將各種應用系統集成在一起,為統一的歷史數據分析提供平臺。通過數據分析與報表模塊和分析工具OLAP(聯機分析處理)、決策分析、數據挖掘完成對信息的提取,滿足決策需要。

    組成

    數據倉庫系統通常指的是一個數據庫環境
    由以下3部分組成:

  • 數據存儲與管理層
    包含以下4個內容:
    A. 數據倉庫:整個數據倉庫環境的核心,是數據存放的地方和提供對數據檢索的支持。
    B. 抽取工具:把數據從各種各樣的環境中提取出來,進行必要的轉化、整理,在存放到數據倉庫內。
    C. 元數據:關于數據的數據,位于數據倉庫的上層,是描述數據倉庫內數據的結構、位置和建立方法的數據。
    D. 數據集市:面向某個主題而從數據倉庫中劃分出來的
  • OLAP服務器層
    OLAP服務是對存儲在數據倉庫中的數據提供分析的一種軟件。
  • 前端分析工具層
    數據報表、數據分析和數據挖掘為用戶產生的各種數據分析和匯總報表,以及數據挖掘結果。
  • 1.2.2 ETL

    ETL:抽取、轉換、裝載。簡稱為數據抽取,按照統一的規則集成并提高數據的價值,是完成數據從數據源向目標數據倉庫轉化的過程。

  • 數據抽取
    將數據從各種原始的業務系統中抽取出來
  • 數據轉換
    按照原先設計好的規則將抽取的數據進行轉換,是本來異構的數據格式統一起來
  • 數據裝載
    將轉換完的數據按計劃增量或全部導入到數據倉庫中
  • 1.4 數據倉庫與操作型數據庫的關系

    操作型數據和分析型數據的區別

    操作型數據分析性數據
    細節的綜合的
    存取瞬間歷史數據
    可更新不可更新
    事先可知操作需求操作需求事先不可知
    符合軟件開發的生命周期完全不同的生命周期
    對性能要求較高對性能要求較為寬松
    某一個時刻操作一個單元某一個時刻操作一個集合
    事務驅動分析驅動
    細節的一次操作的數據量較大

    數據倉庫與操作型數據庫的對比

    數據倉庫操作型數據庫
    面向主題面向應用
    容量巨大容量相對較小
    數據是綜合的或提煉的數據是詳細的
    保存歷史的數據保存當前的數據
    通常數據是不可更新的數據是可更新的
    操作需求是臨時決定的操作需求是事先可知的
    一個操作存取一個數據集合一個操作存取一條記錄
    數據經常冗余數據非冗余
    操作相對不頻繁操作較頻繁
    所查詢的是經過加工的數據所查詢的是原始數據
    支持決策分析支持事務處理
    決策分析需要歷史數據事務處理需要當前數據
    需要復雜計算鮮有復雜計算
    服務對象為企業高層決策人員服務對象為企業業務處理方面的人員

    2.3.1 多維數據模型及相關概念

  • 粒度
    指數據倉庫中的數據單元的詳細程度和級別,數據越詳細,粒度越小,級別越低。
  • 維度
    簡稱“維”,是指人們觀察事物的特定角度,概念上類似于關系表的屬性
  • 維屬性和維成員
    一個維是通過一組屬性來描述的,維的一個取值稱為該維的一個成員
  • 維層次
    同一維度可以存在細節程度不同的各個值,可以將粒度大的值映射到粒度小的值上,這樣構成為層次
  • 度量/事實
    度量是數據倉庫中的信息單元,即多維空間中的一個單元,用以存放數據,也稱為事實。
  • 2.3.4 幾種常見的基于關系數據庫的多維數據模型

    三種模式:星形模式,雪花模式,事實星座模式
    星形模式是最基本的模式,一個星形模式有多個維表,但只能存在一個事實表。在星形模式基礎上,構造維表的層結構(維表的規范化),得到雪花模式。如果打破星形模式只有一個事實表的限制,且這些事實表共享部分或全部已有維表信息,則稱為事實星座模式

    3.1 OLAP概述

    3.2 OLAP的多維數據模型

    3.3.1 數據立方體的有效計算

    5.1 關聯分析的概念

    5.2 Aprior算法

    7.1 分類過程

    7.3 決策樹分類算法

    7.4 樸素貝葉斯分類算法

    10.1 聚類概述

    10.2 K-means算法

    10.3.1 層級聚類算法概述

    10.3.2 DIANA算法和AGNES算法

    總結

    以上是生活随笔為你收集整理的数据仓库与数据挖掘实践期末复习总结的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。