日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > windows >内容正文

windows

【DBMS 数据库管理系统】数据仓库 数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )

發布時間:2025/6/17 windows 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【DBMS 数据库管理系统】数据仓库 数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 ) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

  • 一、數據倉庫中的 數據組織級別
  • 二、數據倉庫中的 元數據
  • 三、粒度 ( 根據 數據綜合程度 劃分粒度 )
  • 四、粒度 ( 根據 樣本采樣率 劃分粒度 )
  • 五、分割
  • 六、數據倉庫組織形式





一、數據倉庫中的 數據組織級別



數據倉庫中的數據組織 級別 : 下面 細節程度 由低到高 逐一解析 ;

  • 早期細節級別數據 : 之前的一段時間的歷史數據 ;
  • 當前細節級別數據 : 最近階段的歷史數據 ;
  • 輕度綜合級別數據 : 以 天 , 星期 , 月 , 為時間單位綜合數據 ;
  • 高度綜合級別數據 : 以 季度 , 年 , 為時間單位綜合數據 ;

引入 “力度” 概念 : 上述介紹的 數據的不同的綜合級別 , 稱為力度 ;

  • 力度效果 : 力度越大 , 細節成都越低 , 綜合程度越高 ;
  • 級別劃分 : 數據的綜合級別的劃分 , 是根據力度進行劃分的 ;

數據倉庫中的數據組織 涉及概念 : 粒度 與 分割 , 數據倉庫數據組織形式 , 數據倉庫數據追加 ;





二、數據倉庫中的 元數據



元數據 ( MetaData ) :

  • 概念 : 關于 “數據” 的 數據 ;
  • 數據庫 -> 數據倉庫 :操作型環境數據倉庫環境 轉換 , 建立的元數據 ; 包含 元數據項名 , 屬性 , 屬性在數據倉庫中的轉換 ;
  • 數據倉庫 -> 前端應用 映射 : 多維數據模型前端工具 之間建立的映射 , 該映射相關的數據 是 元數據 ;




三、粒度 ( 根據 數據綜合程度 劃分粒度 )



根據 “數據綜合程度” 劃分粒度 : “粒度” 是對 數據倉庫 中的數據 的 綜合程度高低 進行的度量 ;

  • 粒度與綜合 : 粒度越小 , 數據細節程度越高 , 數據的綜合程度越低 ;
  • 多粒度查詢 : 數據倉庫中一般查詢是多粒度查詢 , 不同的粒度 , 能回答不同的查詢 ;

不同粒度查詢舉例 : 粒度大小影響數據庫查詢的效率 ;

  • 細節查詢 : 如果要查詢 AAA 是否在昨天下午 333 點給 BBB 打過電話 , 此時應該直接查詢該時間點的數據 ;

  • 以 “年” 為粒度查詢 : 如果要查詢 AAA 去年通話時間 , 就需要查詢以 “年” 為單位的通話數據 ;

  • 以 “十年” 為粒度查詢 : 如果要預測 AAA 未來幾年的通話時間 , 就需查詢 AAA 所有的通話數據記錄 , 然后做出預測 ;





四、粒度 ( 根據 樣本采樣率 劃分粒度 )



根據 “采樣率高低” 劃分粒度 :

  • 樣本數據庫 : 一定的采樣率細節數據 / 輕度綜合數據 中抽取出的 數據子集 , 稱為樣本數據庫 ;
  • 樣本數據庫 “作用” : 使用該 數據子集 進行 模擬分析 ;
  • 抽象方式 : 隨機抽取 ;

"樣本數據庫" 優點 :

  • 效率 : 查詢分析 效率 高 ;
  • 降低數據量 : 如果源數據的數據量很大 , 抽樣數據的量可以降低 ;
  • 準確度高 : 分析結果的誤差很小 , 準確度高 ;
  • 主要因素 : 這種分析方式 , 有助于抓住 主要因素 , 主要矛盾 ;

兩種形式的 “粒度” 舉例 : “商品” 主題 ;

  • 時間段上信息綜合粒度 : 銷售綜合表 , 采購綜合表 , 是 根據 “數據綜合程度” 劃分的粒度 ;
  • 不同時間點的采樣粒度 : 庫存信息表 , 是 根據 “采樣率高低” 劃分的粒度 ;




五、分割



分割 :完整的數據集 分散到 各自的物理單元 中去 , 以便能 分別獨立處理 ;

  • 分割結果 : 數據 分割后的 數據單元 , 稱為 分片 ;
  • 分割目的 : 提高效率 ;
  • 分割作用 : 分析 相關性 數據集合 , 將 具有相關性 的數據 組織到一起分析 , 提高分析效率 ;

分割標準 :

  • 方便進行如下操作 : 重構 , 索引 , 重組 , 恢復 , 監控 , 掃描 ;
  • 業務領域
  • 日期
  • 地域
  • 多個分割標準組合

"分割" 示例 : 對 保險行業數據 進行分割 ;

  • 總的數據集 : 333 年的 車險 , 壽險 , 健康險 , 財產險 , 意外險 數據 ;
  • 分割標準 : 按照 “時間” , 和 “險種” , 進行分割 ;
  • 分片詳情 : 分片個數為 3×5=153 \times 5 = 153×5=15 個數據分片 ;
時間車險壽險健康險財產險意外險
202020202020分片 111分片 222分片 333分片 444分片 555
201920192019分片 666分片 777分片 888分片 999分片 101010
201820182018分片 111111分片 121212分片 131313分片 141414分片 151515

數據分片使用方式 :

  • 處理單獨數據分片 : 如果只分析 201920192019 年的車險數據 , 只需要分析 分片 666 中的數據即可 , 每個分片的數據都可以獨立處理 ;

  • 合并若干數據分片 : 如果分析 202020202020 年的健康險 和 意外險 數據 , 那么需要 將 分片 222 和 分片 555 合并起來 , 進行分析 ;





六、數據倉庫組織形式



數據倉庫組織形式 :

  • 簡單堆積文件
  • 輪轉綜合文件
  • 簡化直接文件
  • 連續文件

簡單堆積文件 :

  • 概念 : 將數據庫中 提取加工 的數據 , 直接積累存儲 ;
  • 操作 : 來一個存放一個 , 按照時間先后順序存放 , 堆積 ;

輪轉綜合文件 :

  • 概念 :數據的存儲單位 , 分成 若干級別 , 每個級別有有限個指定的數據 ;
  • 數據形式 : 一定時間段的綜合數據 , 稱為 輪轉記錄 ;
  • 優點 : 結構簡單 , 數據量比 “簡單堆積文件” 少 ;
  • 缺點 : 綜合數據 , 會損失數據細節 , 越久遠的歷史數據 , 數據細節損失的越多 ;
  • 操作 : 夠一個時間段 , 就將指定長度的數據綜合在一起 ; 每次綜合都會損失一定的數據細節 ;
  • 示例 : 如果數據積累夠 1 天 , 直接綜合成一天的數據 ; 如果數據積累夠 30 天 , 直接綜合成一個月的數據 ; 如果數據積累夠 12 個月 , 直接綜合成一年的數據 , 小時的數據不超過 24 個 , 天的數據不超過 30 個 , 月的數據 不超過 12 個 ;

簡化直接文件 :

  • 概念 : 按照一定時間間隔 , 對數據庫采樣 ;
  • 快照 : 每隔一定時間 , 做一個數據庫快照 , 存儲該快照 , 與 “簡單堆積文件” 類似 ;
  • 示例 : 周一對數據做一個快照 , 周二在做一個快照 , 每天都做一個數據庫快照 , 存儲下來 ;
  • 缺點 : 浪費存儲空間 ;

連續文件 : 在上述 “簡化直接文件” 快照的基礎之上 , 進行增量更新 , 只更新對比后的差異數據 ;

  • 概念 : 兩個連續簡化的直接文件 , 對比兩個文件的差異 , 生成連續文件 ;
  • 連續文件 + 新的簡單文件 = 新的連續文件

總結

以上是生活随笔為你收集整理的【DBMS 数据库管理系统】数据仓库 数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。