【DBMS 数据库管理系统】数据仓库 ( 数据仓库简介 | 操作型数据与分析性数据对比 | 数据仓库特征 | 特征一 : 面向主题组织数据 | 面向应用 | )
文章目錄
- 一、數(shù)據(jù)倉庫簡介
- 二、操作型數(shù)據(jù)與分析型數(shù)據(jù)對比
- 三、數(shù)據(jù)倉庫 特征 與 定義
- 四、特征一 : 面向主題 數(shù)據(jù)組織方式
- 五、面向應(yīng)用 數(shù)據(jù)組織方式
- 六、面向主題 組織數(shù)據(jù)
- 七、數(shù)據(jù) 從 面向應(yīng)用 轉(zhuǎn)為 面向主題
- 七、數(shù)據(jù)倉庫中的主題實現(xiàn)
- 八、基于關(guān)系數(shù)據(jù)庫
- 九、面向主題的數(shù)據(jù)組織
一、數(shù)據(jù)倉庫簡介
數(shù)據(jù)倉庫 簡介 :
-
用途 : 作為 DSS ( Decision Support System 決策支持系統(tǒng) ) 服務(wù)基礎(chǔ)的 分析型數(shù)據(jù)庫 ;
-
數(shù)據(jù) : 用于存儲 大量的 只讀數(shù)據(jù) ;
-
應(yīng)用場景 : 為管理者 決策 提供相關(guān)信息 ;
數(shù)據(jù)倉庫 與操作系統(tǒng)分離 , 基于標準的企業(yè)模型集成 , 帶時間屬性 , 面向主題 , 不可更新 的 數(shù)據(jù)集合 ;
二、操作型數(shù)據(jù)與分析型數(shù)據(jù)對比
| ① 數(shù)據(jù)粒度 | 細節(jié)的 | 綜合的 |
| ② 數(shù)據(jù)時效 | 存儲瞬間準確 | 過去的歷史數(shù)據(jù) |
| ③ 是否只讀 | 可更新 | 不可更新 |
| ④ 需求可知 | 操作時實現(xiàn)知道需求 | 操作時事先不知道需求 |
| ⑤ 生命周期 | 生命周期符合 SDLC | 完全不同的生命周期 |
| ⑥ 性能要求 | 性能要求高 | 性能要求低 |
| ⑦ 操作大小 | 同一時刻操作一個單元的數(shù)據(jù) | 同一時刻操作一個集合的數(shù)據(jù) |
| ⑧ 數(shù)據(jù)大小 | 單詞操作數(shù)據(jù)量小 | 單詞操作數(shù)據(jù)量大 |
| ⑨ 驅(qū)動力量 | 事務(wù)驅(qū)動 | 分析驅(qū)動 |
| ⑩ 具體用途 | 面向應(yīng)用 | 面向分析 |
| ? 應(yīng)用場景 | 支持日常操作 | 支持管理需求 |
三、數(shù)據(jù)倉庫 特征 與 定義
數(shù)據(jù)倉庫特征 :
- 面向主題
- 集成
- 不可更新
- 隨時間不斷變化
數(shù)據(jù)倉庫定義 : 數(shù)據(jù)倉庫 是 用于 更好地 支持 企業(yè) / 組織 決策分析處理 , 面向主題的 , 集成的 , 不可更新的 , 隨時間不斷變化的 數(shù)據(jù)集合 ;
四、特征一 : 面向主題 數(shù)據(jù)組織方式
主題 :
- 主題是一個抽象 : 使用該抽象 , 在較高層次上 , 將企業(yè)信息系統(tǒng)中的數(shù)據(jù) , 進行綜合 , 歸類 , 并進行分析利用 ;
- 邏輯意義 : 企業(yè)中 某個 宏觀分析領(lǐng)域 涉及的分析對象 ;
較高層次 :
- 層次較高 : 相對于 面向應(yīng)用 的 數(shù)據(jù)組織方式 , 層次較高
- 抽象級別 : 按照主題進行 數(shù)據(jù)組織方式 , 數(shù)據(jù)的抽象級別較高
面向主題 數(shù)據(jù)組織方式 特點 :
- 描述 : 對 分析對象的數(shù)據(jù) 的 , 完整的 , 一致的 , 描述 ;
- 內(nèi)容 : 完整 , 統(tǒng)一 , 刻畫 , 各個分析對象 , 涉及的數(shù)據(jù) , 及數(shù)據(jù)對象之間的關(guān)系 ;
五、面向應(yīng)用 數(shù)據(jù)組織方式
面向應(yīng)用 數(shù)據(jù)組織方式 特點 :
- 調(diào)查收集需求 : 需要詳細調(diào)查企業(yè)中相關(guān)組織 , 部門 , 收集數(shù)據(jù)庫 基礎(chǔ)數(shù)據(jù) , 及 數(shù)據(jù)的處理過程 ; ( 這是在需求分析階段進行的工作 )
- 組織數(shù)據(jù)依據(jù) : 反映 企業(yè)內(nèi)部的組織結(jié)構(gòu) , 業(yè)務(wù)活動特點 ;
- 數(shù)據(jù)組織本質(zhì) : 反映 組織 , 部門 , 內(nèi)部數(shù)據(jù) 動態(tài)特征 , 每個部門的業(yè)務(wù)處理的 : 輸入 , 處理 , 輸出 , 的數(shù)據(jù)
- 數(shù)據(jù)組織方式 : 按 實際應(yīng)用的 業(yè)務(wù)處理流程 組織 ;
- 數(shù)據(jù)組織目的 : 提供 OLTP 業(yè)務(wù)處理的速度 , 和 準確性 ;
- 存儲介質(zhì)改變 : OLTP 應(yīng)用只是將傳統(tǒng)的業(yè)務(wù)活動 , 從紙質(zhì)介質(zhì) , 轉(zhuǎn)為電子信息 , 系統(tǒng)中的數(shù)據(jù) 與 現(xiàn)實中被替代的紙質(zhì)文檔對應(yīng) ;
上述 OLTP 面向應(yīng)用的數(shù)據(jù)組織 , 數(shù)據(jù) , 與 數(shù)據(jù)處理 是分開的 , 一個客觀實體的數(shù)據(jù) , 與不同的應(yīng)用場景捆綁 , 無法統(tǒng)一 , 分散存儲在不同的表中 , 如商品信息 , 分別存儲在采購子系統(tǒng) , 銷售子系統(tǒng) , 庫存子系統(tǒng)中 , 數(shù)據(jù)被分開存儲 ;
面向應(yīng)用 數(shù)據(jù)組織方式 缺點 : 數(shù)據(jù)抽象程度太低 , 數(shù)據(jù) 與 應(yīng)用沒有分離 ;
引入數(shù)據(jù)倉庫 : 應(yīng)該將 數(shù)據(jù) 從 數(shù)據(jù)處理 中抽象出來 , 組成和具體應(yīng)用獨立的 數(shù)據(jù)倉庫 ;
面向應(yīng)用 數(shù)據(jù)組織方式 優(yōu)點 :
- 操作性好 : 將 數(shù)據(jù)庫 與 企業(yè)的業(yè)務(wù)邏輯 對應(yīng) , 可操作性高 ;
- 方便轉(zhuǎn)換 : 方便 企業(yè) 將原有的紙質(zhì)業(yè)務(wù) , 轉(zhuǎn)為計算機處理的業(yè)務(wù) ;
- 支持 OLTP 應(yīng)用
六、面向主題 組織數(shù)據(jù)
面向主題 組織數(shù)據(jù) 步驟 :
① 抽取主題 : 按照 OLAP 數(shù)據(jù)分析 的要求 , 確定抽取的主題 ;
② 主題內(nèi)容 : 確定 該抽取的主題 , 包含的數(shù)據(jù)內(nèi)容 ;
主題抽取 示例 :
主題 : 商場的商品采購 ;
OLTP 數(shù)據(jù) : 在 OLTP 數(shù)據(jù)庫中 , 存儲有 訂單 , 訂單詳情 , 供應(yīng)商 , 等數(shù)據(jù)庫表 , 清晰的展示了 商品采購時 所涉及業(yè)務(wù)的數(shù)據(jù)內(nèi)容 , 上述 數(shù)據(jù)的組織方式 是 面向應(yīng)用 數(shù)據(jù)組織方式 ;
OLAP 數(shù)據(jù)需求 :
- 分析對象 : 在數(shù)據(jù)倉庫中 , 需求是分析供應(yīng)商的詳細數(shù)據(jù) , 通過數(shù)據(jù)分析處理 , 選出優(yōu)質(zhì)供應(yīng)商 , 供應(yīng)商是主要的分析對象 ;
- 忽略數(shù)據(jù) : 具體的訂單情況 , 清單詳情 , 是需要忽略的 , 數(shù)據(jù)分析時 , 不需要分析采購的具體細節(jié) , 如送貨周期 , 送貨時間 , 交接人員 等 , 這些都是操作型數(shù)據(jù) , 分析時不需要關(guān)心這些細節(jié)數(shù)據(jù) ;
- 數(shù)據(jù)組合 : 只抽取供應(yīng)商的數(shù)據(jù)是不夠的 , 還需要其它數(shù)據(jù)庫中的部分數(shù)據(jù) , 有些數(shù)據(jù)需要丟棄 , 有些數(shù)據(jù)需要抽取 , 重新組合成新的數(shù)據(jù) ;
針對與商場 , 面向主題創(chuàng)建 數(shù)據(jù)倉庫 , 抽取出如下三個主題 : ① 商品 , ② 供應(yīng)商 , ③ 顧客 ;
將 444 個子系統(tǒng) , 轉(zhuǎn)為了 333 個主題 ;
- OLTP 子系統(tǒng) : 固有信息 , 采購子系統(tǒng) , 銷售子系統(tǒng) , 庫存子系統(tǒng) ;
- OLAP 主題 : 商品 , 供應(yīng)商 , 顧客 ;
以 “商品” 主題為例 : 商品主題包含以下數(shù)據(jù) :
- 商品本身信息 : 商品號 , 商品價格 , 商品顏色 ; ( 從商品固有信息中抽取 )
- 商品采購信息 : 商品號 , 供貨商 , 采購價格 ; ( 從采購子系統(tǒng)中抽取 )
- 商品銷售信息 : 商品號 , 零售價 , 顧客信息 ; ( 從銷售子系統(tǒng)中抽取 )
- 商品庫存信息 : 商品號 , 庫存量 , 保存時間 ; ( 從庫存子系統(tǒng)中抽取 )
七、數(shù)據(jù) 從 面向應(yīng)用 轉(zhuǎn)為 面向主題
數(shù)據(jù) 從 面向應(yīng)用 轉(zhuǎn)為 面向主題 轉(zhuǎn)換過程 :
1 . 丟棄數(shù)據(jù) : 一些與分析對象無關(guān)的信息 , 直接丟棄 ;
2 . 組織數(shù)據(jù) : 與分析對象有關(guān)的信息 , 可能分布與各個子系統(tǒng)中 , 將這些數(shù)據(jù)重新組織起來 , 形成針對該分析對象的完整描述 , 放入一個主題中 ;
3 . 內(nèi)容重疊 : 主題間可能存在內(nèi)容重疊 , 這些 重疊的信息 反映了主題之間的聯(lián)系 ;
- 邏輯重疊 : 主題邏輯上的重疊 , 區(qū)別于相同的數(shù)據(jù)的物理存儲重疊 ;
- 細節(jié)重疊 : 數(shù)據(jù)在不同的主題上綜合方式不同 ;
- 重疊方式 : 主題間的重疊可能是多重重疊 , 如 333 個主題間相互重疊 , 不是兩兩重疊 ;
七、數(shù)據(jù)倉庫中的主題實現(xiàn)
數(shù)據(jù)倉庫中的主題實現(xiàn)有兩種方式 :
- ① 基于多維數(shù)據(jù)庫 : 以多維數(shù)組的形式存儲 ; ( 處理數(shù)據(jù)稀疏問題 )
- ② 基于關(guān)系數(shù)據(jù)庫 : 以表的形式存儲 ;
八、基于關(guān)系數(shù)據(jù)庫
"主題" 基于關(guān)系數(shù)據(jù)庫 :
- 主題數(shù)據(jù)組成 : 用一組 關(guān)系數(shù)據(jù)庫 中的關(guān)系表 中的數(shù)據(jù) 表示主題 ;
- 公共碼鍵 : 每個 關(guān)系表 都有一個 公共碼鍵 作為 主屬性 , 就是 id ;
- 主題數(shù)據(jù)聯(lián)系方式 : 主題下的 關(guān)系表 數(shù)據(jù) , 使用公共碼鍵 進行關(guān)聯(lián) ;
公共碼鍵示例 :
-
"商品" 主題 : 以商品主題為例 ;
-
公共碼鍵 : 商品號 , 在所有的商品主題下的表中 , 都帶有公共碼鍵 , 商品號 ;
-
商品表 : 商品號 , 商品名稱 , 顏色 , 形狀 , 零售價 , …
-
采購表 : 商品號 , 供應(yīng)商 , 采購日期 , 進貨價 , …
-
庫存表 : 商品號 , 庫存量 , 庫存時間 , …
主題中 關(guān)系表 的存儲 :
- 低頻訪問數(shù)據(jù)存儲 : 不經(jīng)常訪問的數(shù)據(jù) , 如歷史數(shù)據(jù) , 細節(jié)數(shù)據(jù) 等查詢概率低的數(shù)據(jù) , 放在普通磁盤中存儲 ;
- 高頻訪問數(shù)據(jù)存儲 : 經(jīng)常訪問的數(shù)據(jù) , 放在高速訪問存儲設(shè)備中 , 如 固態(tài)硬盤 ;
九、面向主題的數(shù)據(jù)組織
主題域 : 主題域是 完備的分析領(lǐng)域 , 需要具備以下兩個特征 ;
- 獨立性 : 主題域 必須有獨立的主題 , 有明確的界限 , 表示某數(shù)據(jù)屬于 / 不屬于 該主題 ;
- 完備性 : 主題中包含的 主題對象 的數(shù)據(jù)必須完整 , 分析處理所用到的數(shù)據(jù) , 都包含在該主題中 ;
主題數(shù)據(jù)組織 是 在較高層級 對數(shù)據(jù)進行抽象 ; 主題數(shù)據(jù)組織 獨立于 數(shù)據(jù)處理邏輯 ; 在該 主題數(shù)據(jù) 基礎(chǔ)上 , 可以快速開發(fā)新的 OLAP 應(yīng)用 ;
《新程序員》:云原生和全面數(shù)字化實踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的【DBMS 数据库管理系统】数据仓库 ( 数据仓库简介 | 操作型数据与分析性数据对比 | 数据仓库特征 | 特征一 : 面向主题组织数据 | 面向应用 | )的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【DBMS 数据库管理系统】数据库 ->
- 下一篇: 【DBMS 数据库管理系统】数据仓库特征