當前位置：首頁 > 运维知识 > windows >内容正文

windows

【DBMS 数据库管理系统】数据仓库数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )

發布時間：2025/6/17 windows 21 豆豆

生活随笔收集整理的這篇文章主要介紹了【DBMS 数据库管理系统】数据仓库数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 ) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

一、數據倉庫中的數據組織級別
二、數據倉庫中的元數據
三、粒度 ( 根據數據綜合程度劃分粒度 )
四、粒度 ( 根據樣本采樣率劃分粒度 )
五、分割
六、數據倉庫組織形式

一、數據倉庫中的數據組織級別

數據倉庫中的數據組織級別 : 下面細節程度由低到高逐一解析 ;

早期細節級別數據 : 之前的一段時間的歷史數據 ;
當前細節級別數據 : 最近階段的歷史數據 ;
輕度綜合級別數據 : 以天 , 星期 , 月 , 為時間單位綜合數據 ;
高度綜合級別數據 : 以季度 , 年 , 為時間單位綜合數據 ;

引入 “力度” 概念 : 上述介紹的數據的不同的綜合級別 , 稱為力度 ;

力度效果 : 力度越大 , 細節成都越低 , 綜合程度越高 ;
級別劃分 : 數據的綜合級別的劃分 , 是根據力度進行劃分的 ;

數據倉庫中的數據組織涉及概念 : 粒度與分割 , 數據倉庫數據組織形式 , 數據倉庫數據追加 ;

二、數據倉庫中的元數據

元數據 ( MetaData ) :

概念 : 關于 “數據” 的數據 ;
數據庫 -> 數據倉庫 : 從操作型環境向數據倉庫環境轉換 , 建立的元數據 ; 包含元數據項名 , 屬性 , 屬性在數據倉庫中的轉換 ;
數據倉庫 -> 前端應用映射 : 多維數據模型與前端工具之間建立的映射 , 該映射相關的數據是元數據 ;

三、粒度 ( 根據數據綜合程度劃分粒度 )

根據 “數據綜合程度” 劃分粒度 : “粒度” 是對數據倉庫中的數據的綜合程度高低進行的度量 ;

粒度與綜合 : 粒度越小 , 數據細節程度越高 , 數據的綜合程度越低 ;
多粒度查詢 : 數據倉庫中一般查詢是多粒度查詢 , 不同的粒度 , 能回答不同的查詢 ;

不同粒度查詢舉例 : 粒度大小影響數據庫查詢的效率 ;

細節查詢 : 如果要查詢 $A$ 是否在昨天下午 $3$ 點給 $B$ 打過電話 , 此時應該直接查詢該時間點的數據 ;
以 “年” 為粒度查詢 : 如果要查詢 $A$ 去年通話時間 , 就需要查詢以 “年” 為單位的通話數據 ;
以 “十年” 為粒度查詢 : 如果要預測 $A$ 未來幾年的通話時間 , 就需查詢 $A$ 所有的通話數據記錄 , 然后做出預測 ;

四、粒度 ( 根據樣本采樣率劃分粒度 )

根據 “采樣率高低” 劃分粒度 :

樣本數據庫 : 以一定的采樣率從細節數據 / 輕度綜合數據中抽取出的數據子集 , 稱為樣本數據庫 ;
樣本數據庫 “作用” : 使用該數據子集進行模擬分析 ;
抽象方式 : 隨機抽取 ;

"樣本數據庫" 優點 :

效率 : 查詢分析效率高 ;
降低數據量 : 如果源數據的數據量很大 , 抽樣數據的量可以降低 ;
準確度高 : 分析結果的誤差很小 , 準確度高 ;
主要因素 : 這種分析方式 , 有助于抓住主要因素 , 主要矛盾 ;

兩種形式的 “粒度” 舉例 : “商品” 主題 ;

時間段上信息綜合粒度 : 銷售綜合表 , 采購綜合表 , 是根據 “數據綜合程度” 劃分的粒度 ;
不同時間點的采樣粒度 : 庫存信息表 , 是根據 “采樣率高低” 劃分的粒度 ;

五、分割

分割 : 將完整的數據集分散到各自的物理單元中去 , 以便能分別獨立處理 ;

分割結果 : 數據分割后的數據單元 , 稱為分片 ;
分割目的 : 提高效率 ;
分割作用 : 分析相關性數據集合 , 將具有相關性的數據組織到一起分析 , 提高分析效率 ;

分割標準 :

方便進行如下操作 : 重構 , 索引 , 重組 , 恢復 , 監控 , 掃描 ;
業務領域
日期
地域
多個分割標準組合

"分割" 示例 : 對保險行業數據進行分割 ;

總的數據集 : $3$ 年的車險 , 壽險 , 健康險 , 財產險 , 意外險數據 ;
分割標準 : 按照 “時間” , 和 “險種” , 進行分割 ;
分片詳情 : 分片個數為 $\times 5 = 15$ 個數據分片 ;

時間車險壽險健康險財產險意外險

$2020$ 年	分片 $1$	分片 $2$	分片 $3$	分片 $4$	分片 $5$
$2019$ 年	分片 $6$	分片 $7$	分片 $8$	分片 $9$	分片 $10$
$2018$ 年	分片 $11$	分片 $12$	分片 $13$	分片 $14$	分片 $15$

數據分片使用方式 :

處理單獨數據分片 : 如果只分析 $2019$ 年的車險數據 , 只需要分析分片 $6$ 中的數據即可 , 每個分片的數據都可以獨立處理 ;
合并若干數據分片 : 如果分析 $2020$ 年的健康險和意外險數據 , 那么需要將分片 $2$ 和分片 $5$ 合并起來 , 進行分析 ;

六、數據倉庫組織形式

數據倉庫組織形式 :

簡單堆積文件
輪轉綜合文件
簡化直接文件
連續文件

簡單堆積文件 :

概念 : 將數據庫中提取加工的數據 , 直接積累存儲 ;
操作 : 來一個存放一個 , 按照時間先后順序存放 , 堆積 ;

輪轉綜合文件 :

概念 : 將數據的存儲單位 , 分成若干級別 , 每個級別有有限個指定的數據 ;
數據形式 : 一定時間段的綜合數據 , 稱為輪轉記錄 ;
優點 : 結構簡單 , 數據量比 “簡單堆積文件” 少 ;
缺點 : 綜合數據 , 會損失數據細節 , 越久遠的歷史數據 , 數據細節損失的越多 ;
操作 : 夠一個時間段 , 就將指定長度的數據綜合在一起 ; 每次綜合都會損失一定的數據細節 ;
示例 : 如果數據積累夠 1 天 , 直接綜合成一天的數據 ; 如果數據積累夠 30 天 , 直接綜合成一個月的數據 ; 如果數據積累夠 12 個月 , 直接綜合成一年的數據 , 小時的數據不超過 24 個 , 天的數據不超過 30 個 , 月的數據不超過 12 個 ;

簡化直接文件 :

概念 : 按照一定時間間隔 , 對數據庫采樣 ;
快照 : 每隔一定時間 , 做一個數據庫快照 , 存儲該快照 , 與 “簡單堆積文件” 類似 ;
示例 : 周一對數據做一個快照 , 周二在做一個快照 , 每天都做一個數據庫快照 , 存儲下來 ;
缺點 : 浪費存儲空間 ;

連續文件 : 在上述 “簡化直接文件” 快照的基礎之上 , 進行增量更新 , 只更新對比后的差異數據 ;

概念 : 兩個連續簡化的直接文件 , 對比兩個文件的差異 , 生成連續文件 ;
連續文件 + 新的簡單文件 = 新的連續文件

總結

以上是生活随笔為你收集整理的【DBMS 数据库管理系统】数据仓库数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【DBMS 数据库管理系统】数据仓库特征
下一篇：【DBMS 数据库管理系统】数据仓库中

windows

【DBMS 数据库管理系统】数据仓库 数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )

文章目錄

一、數據倉庫中的 數據組織級別

二、數據倉庫中的 元數據

三、粒度 ( 根據 數據綜合程度 劃分粒度 )

四、粒度 ( 根據 樣本采樣率 劃分粒度 )