第一节:数据库与数据仓库
生活随笔
收集整理的這篇文章主要介紹了
第一节:数据库与数据仓库
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
1:引言
? ?? a:人類對數(shù)據(jù)的管理經(jīng)歷了人工管理,文件系統(tǒng)管理,數(shù)據(jù)庫系統(tǒng)管理三個階段,數(shù)據(jù)庫管理實現(xiàn)了對數(shù)據(jù)的永久存儲,有序組 織和共享。
? ?? b:在數(shù)據(jù)庫系統(tǒng)管理階段的早期,人們對數(shù)據(jù)的使用主要集中在crud。
? ?? c:當數(shù)據(jù)積累到一定程度時,人們希望對數(shù)據(jù)進行統(tǒng)計,多維分析,甚至挖掘來產(chǎn)生更多的價值,這時候,傳統(tǒng)的操作型數(shù)據(jù)庫 已經(jīng)無法滿足這一需求,因此便產(chǎn)生了數(shù)據(jù)倉庫。 ? ?? d:傳統(tǒng)的數(shù)據(jù)庫與數(shù)據(jù)倉庫在存放的數(shù)據(jù)特征,性能要求,應用范圍,面向人員等方面均有差別。 2:兩種數(shù)據(jù)處理模式:操作性數(shù)據(jù)處理和分析型數(shù)據(jù)處理
???? 計算機系統(tǒng)中存在著兩種不同的數(shù)據(jù)處理模型:操作性數(shù)據(jù)處理和分析型數(shù)據(jù)處理,又分別稱為聯(lián)機事務處理和聯(lián)機分析處理。
? ? A: 操作型數(shù)據(jù)處理:是指對數(shù)據(jù)庫聯(lián)機的日常操作,主要完成數(shù)據(jù)的收集,整理,存儲以及增刪改查等操作,主要由一般人員和 ? ? 基層管理人員完成。 ? ? B: 分析型數(shù)據(jù)處理:是指對數(shù)據(jù)的再加工,通常是對海量的歷史數(shù)據(jù)查詢和分析,從中獲取信息,主要由分析人員和中高級管理 ? ? 人員完成。 3:兩類數(shù)據(jù):操作型數(shù)據(jù)和分析型數(shù)據(jù)
???? 兩種數(shù)據(jù)操作模式對應兩類數(shù)據(jù):操作型數(shù)據(jù)和分析型數(shù)據(jù)。
???? 操作型數(shù)據(jù):細節(jié)的,當前的,可更新的,事務驅(qū)動,一次操作數(shù)據(jù)量小,操作簡單,一個時刻操作一個單元
???? 分析型數(shù)據(jù):綜合的,歷史的,可修改的,分析驅(qū)動,一次操作數(shù)據(jù)量大,計算復雜,一個時刻操作一個集合
? ?? 操作型數(shù)據(jù):主要應用于企業(yè)的日常事務處理,數(shù)據(jù)庫中存放的是細節(jié)的數(shù)據(jù),也是當前的數(shù)據(jù),反映的是最近一次修改的結(jié) 果。對數(shù)據(jù)庫的操作主要是數(shù)據(jù)的增刪改查,數(shù)據(jù)庫中的數(shù)據(jù)可以修改,數(shù)據(jù)的組織以方便事務處理,提高事務性能處理為主。 ? ?? 分析型數(shù)據(jù)處理:主要用于企業(yè)的管理工作,數(shù)據(jù)庫中主要存放歷史數(shù)據(jù)和綜合數(shù)據(jù),當數(shù)據(jù)的操作主要集中在查詢和統(tǒng)計分 析時,需要涉及大量數(shù)據(jù),數(shù)據(jù)的組織方式主要以方便查詢分析為主要目標,為了提高查詢效率允許存在一定的數(shù)據(jù)冗余。 4:數(shù)據(jù)的局限性
????? 傳統(tǒng)的數(shù)據(jù)庫在操作型數(shù)據(jù)處理上取得了巨大的成功,但是在分析型數(shù)據(jù)處理上遇到了瓶頸。
?????? 1):數(shù)據(jù)的分散。操作型數(shù)據(jù)處理往往只需要涉及一個部門業(yè)務或者一個系統(tǒng)數(shù)據(jù),因此現(xiàn)在的企業(yè)數(shù)據(jù)是分散在各個操作 型數(shù)據(jù)庫,而分析型操作往往面向整個企業(yè),跨部門進行。
?????? 2):數(shù)據(jù)不一致問題。從各個操作型數(shù)據(jù)庫中抽取數(shù)據(jù)會存在數(shù)據(jù)不一致的問題,比如同名異義,異名同義,單位不統(tǒng)一, 字長不一致等,因此在分析操作之前必須首先對這些數(shù)據(jù)進行預處理。
?????? 3):歷史數(shù)據(jù)問題。分析型數(shù)據(jù)操作一般需要大量的歷史數(shù)據(jù),但操作型數(shù)據(jù)庫一般存放的是短期的數(shù)據(jù)。
?????? 4):數(shù)據(jù)粒度的問題。分析型操作往往關(guān)注的是綜合數(shù)據(jù),但是操作型數(shù)據(jù)庫往往存放的是細節(jié)數(shù)據(jù),如果分析前對細節(jié)數(shù) 據(jù)進行綜合,會嚴重影響分析的效率。
?????? 因此,為了克服以上困難,使兩種數(shù)據(jù)操作都能有效的進行,就產(chǎn)生了數(shù)據(jù)倉庫。
?????? 總結(jié):數(shù)據(jù)庫和數(shù)據(jù)倉庫分工不同,數(shù)據(jù)庫存放操作型數(shù)據(jù),用于操作型數(shù)據(jù)處理,關(guān)注事務處理效率;
???????????????? ??????????? 數(shù)據(jù)倉庫存放分析型數(shù)據(jù),用于分析型數(shù)據(jù)處理,關(guān)注的是分析和查詢的效率;
?兩者功能不同,用途不同,因此結(jié)構(gòu)也會不同。
5:數(shù)據(jù)倉庫的定義
? ?? 數(shù)據(jù)倉庫是面向主題的,集成的,不可更新的,隨時間不斷變化的用來更好的支持企業(yè)或組織決策分析的數(shù)據(jù)集合。
???? 數(shù)據(jù)倉庫的特征:
?面向主題的
? 集成的
? 不可更新的
? 隨時間不斷變化的
???? 數(shù)據(jù)倉庫的用途:面向企業(yè)決策分析。
???? 簡單來講,數(shù)據(jù)倉庫就是一種面向決策主題的,從多個數(shù)據(jù)源集成數(shù)據(jù)的,擁有當前數(shù)據(jù),細節(jié)級和綜合級的歷史數(shù)據(jù),以查詢 ? 和分析為主的數(shù)據(jù)庫系統(tǒng),目的是支持企業(yè)決策。 6:數(shù)據(jù)倉庫數(shù)據(jù)的特征
????? 1):面向主題的
????????????? 面向主題的數(shù)據(jù)組織方式是相對面向應用的數(shù)據(jù)組織方式而言的。
????????????? 什么是面向主題的數(shù)據(jù)組織方式?
????????????? 面向主題的數(shù)據(jù)組織方式就是在較高層次上對分析對象的數(shù)據(jù)的一個完整的,一致的描述,能完整,統(tǒng)一的刻畫各個分析對 象所涉及的各項數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。
?????????????
???????????? 企業(yè)在信息化建設時通常會按照業(yè)務類別來建立子系統(tǒng),比如采購,銷售,庫存,人事,財務,子系統(tǒng)背后就是各個操作型 數(shù)據(jù)庫。基于這樣的數(shù)據(jù)環(huán)境,如果需要對“顧客”這一對象進行相關(guān)的分析處理,就需要從各個操作型數(shù)據(jù)庫中提取數(shù) 據(jù),即使能夠取出來也會面臨各種問題,比如數(shù)據(jù)不一致。這就是面向應用的數(shù)據(jù)組織方式,顯然不能滿足分析需要。 ???????????? 面向主題就是根據(jù)分析的需要,將分析對象所涉及的數(shù)據(jù)以及數(shù)據(jù)之間的聯(lián)系從企業(yè)各個方面進行收集,匯聚,形成一個完 整的,一致的,統(tǒng)一的數(shù)據(jù)集合。這里的主題就是分析對象,比如“顧客”,“商品”,“供應商”。 ???????????? 面向應用側(cè)重于做什么,面向主題側(cè)重于誰來做。
???????????? 面向主題的數(shù)據(jù)組織方式強調(diào)的就是,要形成關(guān)于主題一致的信息集合。
????? 2):集成的
? 由于數(shù)據(jù)倉庫中的數(shù)據(jù)是按照主題組織的,因此所涉及的數(shù)據(jù)來源于各個操作性數(shù)據(jù)庫,數(shù)據(jù)文件胡總和網(wǎng)絡。由于數(shù)據(jù)來 源不同,就可能存在不一致的情況,比如同名異義,異名同義,單位不同,字長不同,因此在進入數(shù)據(jù)倉庫前就需要對數(shù)據(jù) 進行清洗,轉(zhuǎn)換等操作。又因為之前的數(shù)據(jù)是面向應用的,因此需要將數(shù)據(jù)從面向應用到面向主題進行轉(zhuǎn)變。而數(shù)據(jù)倉庫中 不僅有細節(jié)數(shù)據(jù),還需要有大量的綜合數(shù)據(jù),所以就需要對數(shù)據(jù)進行綜合,計算。完成這幾步后,數(shù)據(jù)才能被加載到數(shù)據(jù)倉 庫中去。 ????? 3):不可更新的
? 不可更新是指數(shù)據(jù)一旦進入到數(shù)據(jù)倉庫中去,就不允許修改,并且會被長期保留。
? 數(shù)據(jù)倉庫中的數(shù)據(jù)反映的是一段相當長時間內(nèi)的歷史數(shù)據(jù),一般會按照一定的周期進行刷新,加載。
????? 4):隨時間不斷變化的
? 數(shù)據(jù)倉庫會隨著時間的變化不斷增加新的數(shù)據(jù),因為數(shù)據(jù)倉庫中的數(shù)據(jù)是來源于操作型數(shù)據(jù)庫等數(shù)據(jù)源的歷史數(shù)據(jù)和綜合性 數(shù)據(jù),所以需要定期去捕獲這些數(shù)據(jù)源中的新數(shù)據(jù),將其加載到數(shù)據(jù)倉庫中去。
? ? 數(shù)據(jù)倉庫中的數(shù)據(jù)會有一定的存儲期限,當超過這個期限后,數(shù)據(jù)就會被刪除。
? ? ? ? ? ? ? 數(shù)據(jù)倉庫中有大量的綜合數(shù)據(jù),而很多數(shù)據(jù)是按照時間進行組織的,比如日記錄,月記錄,所以就需要按照一定的時間周 期,定期加載這些數(shù)據(jù)。 7:數(shù)據(jù)倉庫的功能
?數(shù)據(jù)倉庫是一種數(shù)據(jù)存儲,將不同來源的異構(gòu)數(shù)據(jù)進行清洗,轉(zhuǎn)換,加工,集成并存儲起來,支持分析查詢需求,從而為企業(yè)決策提 供支持。
????
? ?? a:人類對數(shù)據(jù)的管理經(jīng)歷了人工管理,文件系統(tǒng)管理,數(shù)據(jù)庫系統(tǒng)管理三個階段,數(shù)據(jù)庫管理實現(xiàn)了對數(shù)據(jù)的永久存儲,有序組 織和共享。
? ?? b:在數(shù)據(jù)庫系統(tǒng)管理階段的早期,人們對數(shù)據(jù)的使用主要集中在crud。
? ?? c:當數(shù)據(jù)積累到一定程度時,人們希望對數(shù)據(jù)進行統(tǒng)計,多維分析,甚至挖掘來產(chǎn)生更多的價值,這時候,傳統(tǒng)的操作型數(shù)據(jù)庫 已經(jīng)無法滿足這一需求,因此便產(chǎn)生了數(shù)據(jù)倉庫。 ? ?? d:傳統(tǒng)的數(shù)據(jù)庫與數(shù)據(jù)倉庫在存放的數(shù)據(jù)特征,性能要求,應用范圍,面向人員等方面均有差別。 2:兩種數(shù)據(jù)處理模式:操作性數(shù)據(jù)處理和分析型數(shù)據(jù)處理
???? 計算機系統(tǒng)中存在著兩種不同的數(shù)據(jù)處理模型:操作性數(shù)據(jù)處理和分析型數(shù)據(jù)處理,又分別稱為聯(lián)機事務處理和聯(lián)機分析處理。
? ? A: 操作型數(shù)據(jù)處理:是指對數(shù)據(jù)庫聯(lián)機的日常操作,主要完成數(shù)據(jù)的收集,整理,存儲以及增刪改查等操作,主要由一般人員和 ? ? 基層管理人員完成。 ? ? B: 分析型數(shù)據(jù)處理:是指對數(shù)據(jù)的再加工,通常是對海量的歷史數(shù)據(jù)查詢和分析,從中獲取信息,主要由分析人員和中高級管理 ? ? 人員完成。 3:兩類數(shù)據(jù):操作型數(shù)據(jù)和分析型數(shù)據(jù)
???? 兩種數(shù)據(jù)操作模式對應兩類數(shù)據(jù):操作型數(shù)據(jù)和分析型數(shù)據(jù)。
???? 操作型數(shù)據(jù):細節(jié)的,當前的,可更新的,事務驅(qū)動,一次操作數(shù)據(jù)量小,操作簡單,一個時刻操作一個單元
???? 分析型數(shù)據(jù):綜合的,歷史的,可修改的,分析驅(qū)動,一次操作數(shù)據(jù)量大,計算復雜,一個時刻操作一個集合
? ?? 操作型數(shù)據(jù):主要應用于企業(yè)的日常事務處理,數(shù)據(jù)庫中存放的是細節(jié)的數(shù)據(jù),也是當前的數(shù)據(jù),反映的是最近一次修改的結(jié) 果。對數(shù)據(jù)庫的操作主要是數(shù)據(jù)的增刪改查,數(shù)據(jù)庫中的數(shù)據(jù)可以修改,數(shù)據(jù)的組織以方便事務處理,提高事務性能處理為主。 ? ?? 分析型數(shù)據(jù)處理:主要用于企業(yè)的管理工作,數(shù)據(jù)庫中主要存放歷史數(shù)據(jù)和綜合數(shù)據(jù),當數(shù)據(jù)的操作主要集中在查詢和統(tǒng)計分 析時,需要涉及大量數(shù)據(jù),數(shù)據(jù)的組織方式主要以方便查詢分析為主要目標,為了提高查詢效率允許存在一定的數(shù)據(jù)冗余。 4:數(shù)據(jù)的局限性
????? 傳統(tǒng)的數(shù)據(jù)庫在操作型數(shù)據(jù)處理上取得了巨大的成功,但是在分析型數(shù)據(jù)處理上遇到了瓶頸。
?????? 1):數(shù)據(jù)的分散。操作型數(shù)據(jù)處理往往只需要涉及一個部門業(yè)務或者一個系統(tǒng)數(shù)據(jù),因此現(xiàn)在的企業(yè)數(shù)據(jù)是分散在各個操作 型數(shù)據(jù)庫,而分析型操作往往面向整個企業(yè),跨部門進行。
?????? 2):數(shù)據(jù)不一致問題。從各個操作型數(shù)據(jù)庫中抽取數(shù)據(jù)會存在數(shù)據(jù)不一致的問題,比如同名異義,異名同義,單位不統(tǒng)一, 字長不一致等,因此在分析操作之前必須首先對這些數(shù)據(jù)進行預處理。
?????? 3):歷史數(shù)據(jù)問題。分析型數(shù)據(jù)操作一般需要大量的歷史數(shù)據(jù),但操作型數(shù)據(jù)庫一般存放的是短期的數(shù)據(jù)。
?????? 4):數(shù)據(jù)粒度的問題。分析型操作往往關(guān)注的是綜合數(shù)據(jù),但是操作型數(shù)據(jù)庫往往存放的是細節(jié)數(shù)據(jù),如果分析前對細節(jié)數(shù) 據(jù)進行綜合,會嚴重影響分析的效率。
?????? 因此,為了克服以上困難,使兩種數(shù)據(jù)操作都能有效的進行,就產(chǎn)生了數(shù)據(jù)倉庫。
?????? 總結(jié):數(shù)據(jù)庫和數(shù)據(jù)倉庫分工不同,數(shù)據(jù)庫存放操作型數(shù)據(jù),用于操作型數(shù)據(jù)處理,關(guān)注事務處理效率;
???????????????? ??????????? 數(shù)據(jù)倉庫存放分析型數(shù)據(jù),用于分析型數(shù)據(jù)處理,關(guān)注的是分析和查詢的效率;
?兩者功能不同,用途不同,因此結(jié)構(gòu)也會不同。
5:數(shù)據(jù)倉庫的定義
? ?? 數(shù)據(jù)倉庫是面向主題的,集成的,不可更新的,隨時間不斷變化的用來更好的支持企業(yè)或組織決策分析的數(shù)據(jù)集合。
???? 數(shù)據(jù)倉庫的特征:
?面向主題的
? 集成的
? 不可更新的
? 隨時間不斷變化的
???? 數(shù)據(jù)倉庫的用途:面向企業(yè)決策分析。
???? 簡單來講,數(shù)據(jù)倉庫就是一種面向決策主題的,從多個數(shù)據(jù)源集成數(shù)據(jù)的,擁有當前數(shù)據(jù),細節(jié)級和綜合級的歷史數(shù)據(jù),以查詢 ? 和分析為主的數(shù)據(jù)庫系統(tǒng),目的是支持企業(yè)決策。 6:數(shù)據(jù)倉庫數(shù)據(jù)的特征
????? 1):面向主題的
????????????? 面向主題的數(shù)據(jù)組織方式是相對面向應用的數(shù)據(jù)組織方式而言的。
????????????? 什么是面向主題的數(shù)據(jù)組織方式?
????????????? 面向主題的數(shù)據(jù)組織方式就是在較高層次上對分析對象的數(shù)據(jù)的一個完整的,一致的描述,能完整,統(tǒng)一的刻畫各個分析對 象所涉及的各項數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。
?????????????
???????????? 企業(yè)在信息化建設時通常會按照業(yè)務類別來建立子系統(tǒng),比如采購,銷售,庫存,人事,財務,子系統(tǒng)背后就是各個操作型 數(shù)據(jù)庫。基于這樣的數(shù)據(jù)環(huán)境,如果需要對“顧客”這一對象進行相關(guān)的分析處理,就需要從各個操作型數(shù)據(jù)庫中提取數(shù) 據(jù),即使能夠取出來也會面臨各種問題,比如數(shù)據(jù)不一致。這就是面向應用的數(shù)據(jù)組織方式,顯然不能滿足分析需要。 ???????????? 面向主題就是根據(jù)分析的需要,將分析對象所涉及的數(shù)據(jù)以及數(shù)據(jù)之間的聯(lián)系從企業(yè)各個方面進行收集,匯聚,形成一個完 整的,一致的,統(tǒng)一的數(shù)據(jù)集合。這里的主題就是分析對象,比如“顧客”,“商品”,“供應商”。 ???????????? 面向應用側(cè)重于做什么,面向主題側(cè)重于誰來做。
???????????? 面向主題的數(shù)據(jù)組織方式強調(diào)的就是,要形成關(guān)于主題一致的信息集合。
????? 2):集成的
? 由于數(shù)據(jù)倉庫中的數(shù)據(jù)是按照主題組織的,因此所涉及的數(shù)據(jù)來源于各個操作性數(shù)據(jù)庫,數(shù)據(jù)文件胡總和網(wǎng)絡。由于數(shù)據(jù)來 源不同,就可能存在不一致的情況,比如同名異義,異名同義,單位不同,字長不同,因此在進入數(shù)據(jù)倉庫前就需要對數(shù)據(jù) 進行清洗,轉(zhuǎn)換等操作。又因為之前的數(shù)據(jù)是面向應用的,因此需要將數(shù)據(jù)從面向應用到面向主題進行轉(zhuǎn)變。而數(shù)據(jù)倉庫中 不僅有細節(jié)數(shù)據(jù),還需要有大量的綜合數(shù)據(jù),所以就需要對數(shù)據(jù)進行綜合,計算。完成這幾步后,數(shù)據(jù)才能被加載到數(shù)據(jù)倉 庫中去。 ????? 3):不可更新的
? 不可更新是指數(shù)據(jù)一旦進入到數(shù)據(jù)倉庫中去,就不允許修改,并且會被長期保留。
? 數(shù)據(jù)倉庫中的數(shù)據(jù)反映的是一段相當長時間內(nèi)的歷史數(shù)據(jù),一般會按照一定的周期進行刷新,加載。
????? 4):隨時間不斷變化的
? 數(shù)據(jù)倉庫會隨著時間的變化不斷增加新的數(shù)據(jù),因為數(shù)據(jù)倉庫中的數(shù)據(jù)是來源于操作型數(shù)據(jù)庫等數(shù)據(jù)源的歷史數(shù)據(jù)和綜合性 數(shù)據(jù),所以需要定期去捕獲這些數(shù)據(jù)源中的新數(shù)據(jù),將其加載到數(shù)據(jù)倉庫中去。
? ? 數(shù)據(jù)倉庫中的數(shù)據(jù)會有一定的存儲期限,當超過這個期限后,數(shù)據(jù)就會被刪除。
? ? ? ? ? ? ? 數(shù)據(jù)倉庫中有大量的綜合數(shù)據(jù),而很多數(shù)據(jù)是按照時間進行組織的,比如日記錄,月記錄,所以就需要按照一定的時間周 期,定期加載這些數(shù)據(jù)。 7:數(shù)據(jù)倉庫的功能
?數(shù)據(jù)倉庫是一種數(shù)據(jù)存儲,將不同來源的異構(gòu)數(shù)據(jù)進行清洗,轉(zhuǎn)換,加工,集成并存儲起來,支持分析查詢需求,從而為企業(yè)決策提 供支持。
????
轉(zhuǎn)載于:https://www.cnblogs.com/zja001/p/10282276.html
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的第一节:数据库与数据仓库的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关于form组件的补充-------fo
- 下一篇: MySQL总论