【DBMS 数据库管理系统】数据仓库 数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )
文章目錄
- 一、數據倉庫中的 數據組織級別
- 二、數據倉庫中的 元數據
- 三、粒度 ( 根據 數據綜合程度 劃分粒度 )
- 四、粒度 ( 根據 樣本采樣率 劃分粒度 )
- 五、分割
- 六、數據倉庫組織形式
一、數據倉庫中的 數據組織級別
數據倉庫中的數據組織 級別 : 下面 細節程度 由低到高 逐一解析 ;
- 早期細節級別數據 : 之前的一段時間的歷史數據 ;
- 當前細節級別數據 : 最近階段的歷史數據 ;
- 輕度綜合級別數據 : 以 天 , 星期 , 月 , 為時間單位綜合數據 ;
- 高度綜合級別數據 : 以 季度 , 年 , 為時間單位綜合數據 ;
引入 “力度” 概念 : 上述介紹的 數據的不同的綜合級別 , 稱為力度 ;
- 力度效果 : 力度越大 , 細節成都越低 , 綜合程度越高 ;
- 級別劃分 : 數據的綜合級別的劃分 , 是根據力度進行劃分的 ;
數據倉庫中的數據組織 涉及概念 : 粒度 與 分割 , 數據倉庫數據組織形式 , 數據倉庫數據追加 ;
二、數據倉庫中的 元數據
元數據 ( MetaData ) :
- 概念 : 關于 “數據” 的 數據 ;
- 數據庫 -> 數據倉庫 : 從 操作型環境 向 數據倉庫環境 轉換 , 建立的元數據 ; 包含 元數據項名 , 屬性 , 屬性在數據倉庫中的轉換 ;
- 數據倉庫 -> 前端應用 映射 : 多維數據模型 與 前端工具 之間建立的映射 , 該映射相關的數據 是 元數據 ;
三、粒度 ( 根據 數據綜合程度 劃分粒度 )
根據 “數據綜合程度” 劃分粒度 : “粒度” 是對 數據倉庫 中的數據 的 綜合程度高低 進行的度量 ;
- 粒度與綜合 : 粒度越小 , 數據細節程度越高 , 數據的綜合程度越低 ;
- 多粒度查詢 : 數據倉庫中一般查詢是多粒度查詢 , 不同的粒度 , 能回答不同的查詢 ;
不同粒度查詢舉例 : 粒度大小影響數據庫查詢的效率 ;
-
細節查詢 : 如果要查詢 AAA 是否在昨天下午 333 點給 BBB 打過電話 , 此時應該直接查詢該時間點的數據 ;
-
以 “年” 為粒度查詢 : 如果要查詢 AAA 去年通話時間 , 就需要查詢以 “年” 為單位的通話數據 ;
-
以 “十年” 為粒度查詢 : 如果要預測 AAA 未來幾年的通話時間 , 就需查詢 AAA 所有的通話數據記錄 , 然后做出預測 ;
四、粒度 ( 根據 樣本采樣率 劃分粒度 )
根據 “采樣率高低” 劃分粒度 :
- 樣本數據庫 : 以 一定的采樣率 從 細節數據 / 輕度綜合數據 中抽取出的 數據子集 , 稱為樣本數據庫 ;
- 樣本數據庫 “作用” : 使用該 數據子集 進行 模擬分析 ;
- 抽象方式 : 隨機抽取 ;
"樣本數據庫" 優點 :
- 效率 : 查詢分析 效率 高 ;
- 降低數據量 : 如果源數據的數據量很大 , 抽樣數據的量可以降低 ;
- 準確度高 : 分析結果的誤差很小 , 準確度高 ;
- 主要因素 : 這種分析方式 , 有助于抓住 主要因素 , 主要矛盾 ;
兩種形式的 “粒度” 舉例 : “商品” 主題 ;
- 時間段上信息綜合粒度 : 銷售綜合表 , 采購綜合表 , 是 根據 “數據綜合程度” 劃分的粒度 ;
- 不同時間點的采樣粒度 : 庫存信息表 , 是 根據 “采樣率高低” 劃分的粒度 ;
五、分割
分割 : 將 完整的數據集 分散到 各自的物理單元 中去 , 以便能 分別獨立處理 ;
- 分割結果 : 數據 分割后的 數據單元 , 稱為 分片 ;
- 分割目的 : 提高效率 ;
- 分割作用 : 分析 相關性 數據集合 , 將 具有相關性 的數據 組織到一起分析 , 提高分析效率 ;
分割標準 :
- 方便進行如下操作 : 重構 , 索引 , 重組 , 恢復 , 監控 , 掃描 ;
- 業務領域
- 日期
- 地域
- 多個分割標準組合
"分割" 示例 : 對 保險行業數據 進行分割 ;
- 總的數據集 : 333 年的 車險 , 壽險 , 健康險 , 財產險 , 意外險 數據 ;
- 分割標準 : 按照 “時間” , 和 “險種” , 進行分割 ;
- 分片詳情 : 分片個數為 3×5=153 \times 5 = 153×5=15 個數據分片 ;
| 202020202020 年 | 分片 111 | 分片 222 | 分片 333 | 分片 444 | 分片 555 |
| 201920192019 年 | 分片 666 | 分片 777 | 分片 888 | 分片 999 | 分片 101010 |
| 201820182018 年 | 分片 111111 | 分片 121212 | 分片 131313 | 分片 141414 | 分片 151515 |
數據分片使用方式 :
-
處理單獨數據分片 : 如果只分析 201920192019 年的車險數據 , 只需要分析 分片 666 中的數據即可 , 每個分片的數據都可以獨立處理 ;
-
合并若干數據分片 : 如果分析 202020202020 年的健康險 和 意外險 數據 , 那么需要 將 分片 222 和 分片 555 合并起來 , 進行分析 ;
六、數據倉庫組織形式
數據倉庫組織形式 :
- 簡單堆積文件
- 輪轉綜合文件
- 簡化直接文件
- 連續文件
簡單堆積文件 :
- 概念 : 將數據庫中 提取加工 的數據 , 直接積累存儲 ;
- 操作 : 來一個存放一個 , 按照時間先后順序存放 , 堆積 ;
輪轉綜合文件 :
- 概念 : 將 數據的存儲單位 , 分成 若干級別 , 每個級別有有限個指定的數據 ;
- 數據形式 : 一定時間段的綜合數據 , 稱為 輪轉記錄 ;
- 優點 : 結構簡單 , 數據量比 “簡單堆積文件” 少 ;
- 缺點 : 綜合數據 , 會損失數據細節 , 越久遠的歷史數據 , 數據細節損失的越多 ;
- 操作 : 夠一個時間段 , 就將指定長度的數據綜合在一起 ; 每次綜合都會損失一定的數據細節 ;
- 示例 : 如果數據積累夠 1 天 , 直接綜合成一天的數據 ; 如果數據積累夠 30 天 , 直接綜合成一個月的數據 ; 如果數據積累夠 12 個月 , 直接綜合成一年的數據 , 小時的數據不超過 24 個 , 天的數據不超過 30 個 , 月的數據 不超過 12 個 ;
簡化直接文件 :
- 概念 : 按照一定時間間隔 , 對數據庫采樣 ;
- 快照 : 每隔一定時間 , 做一個數據庫快照 , 存儲該快照 , 與 “簡單堆積文件” 類似 ;
- 示例 : 周一對數據做一個快照 , 周二在做一個快照 , 每天都做一個數據庫快照 , 存儲下來 ;
- 缺點 : 浪費存儲空間 ;
連續文件 : 在上述 “簡化直接文件” 快照的基礎之上 , 進行增量更新 , 只更新對比后的差異數據 ;
- 概念 : 兩個連續簡化的直接文件 , 對比兩個文件的差異 , 生成連續文件 ;
- 連續文件 + 新的簡單文件 = 新的連續文件
總結
以上是生活随笔為你收集整理的【DBMS 数据库管理系统】数据仓库 数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【DBMS 数据库管理系统】数据仓库特征
- 下一篇: 【DBMS 数据库管理系统】数据仓库中