数据仓库、数据集市、数据湖,这些大数据名词你知道多少?
數(shù)據(jù)倉庫,英文名稱為Data Warehouse,可簡寫為DW或DWH。數(shù)據(jù)倉庫,是為企業(yè)所有級別的決策制定過程,提供所有類型數(shù)據(jù)支持的戰(zhàn)略集合。它是單個數(shù)據(jù)存儲,出于分析性報告和決策支持目的而創(chuàng)建。 為需要業(yè)務(wù)智能的企業(yè),提供指導(dǎo)業(yè)務(wù)流程改進、監(jiān)視時間、成本、質(zhì)量以及控制。
?
數(shù)據(jù)集市(Data Mart) ,也叫數(shù)據(jù)市場,數(shù)據(jù)集市就是滿足特定的部門或者用戶的需求,按照多維的方式進行存儲,包括定義維度、需要計算的指標、維度的層次等,生成面向決策分析需求的數(shù)據(jù)立方體。
從范圍上來說,數(shù)據(jù)是從企業(yè)范圍的數(shù)據(jù)庫、數(shù)據(jù)倉庫,或者是更加專業(yè)的數(shù)據(jù)倉庫中抽取出來的。數(shù)據(jù)中心的重點就在于它迎合了專業(yè)用戶群體的特殊需求,在分析、內(nèi)容、表現(xiàn),以及易用方面。數(shù)據(jù)中心的用戶希望數(shù)據(jù)是由他們熟悉的術(shù)語表現(xiàn)的。
?
數(shù)據(jù)湖或hub的概念最初是由大數(shù)據(jù)廠商提出的,表面上看,數(shù)據(jù)都是承載在基于可向外擴展的HDFS廉價存儲硬件之上的。但數(shù)據(jù)量越大,越需要各種不同種類的存儲。最終,所有的企業(yè)數(shù)據(jù)都可以被認為是大數(shù)據(jù),但并不是所有的企業(yè)數(shù)據(jù)都是適合存放在廉價的HDFS集群之上的。
?
以上為三個名詞的解釋。
但是說到之間的聯(lián)系,或者不同,或許在于數(shù)據(jù)倉庫和數(shù)據(jù)集市之間更有的說:
數(shù)據(jù)倉庫是一個集成的、面向主題的數(shù)據(jù)集合,設(shè)計的目的是支持DSS(決策支持系統(tǒng))功能。在數(shù)據(jù)倉庫里,每個數(shù)據(jù)單元都與特定的時間相關(guān)。數(shù)據(jù)倉庫包括原子級別的數(shù)據(jù)和輕度匯總的數(shù)據(jù),是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時間不斷變化(不同時間)的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程。
單獨的DB2數(shù)據(jù)庫包括企業(yè)的數(shù)據(jù)集市。每個數(shù)據(jù)集市包括來自中央數(shù)據(jù)倉庫的歷史數(shù)據(jù)的子集,用以滿足特定部門、團隊、客戶或應(yīng)用程序分析和報告需求。主管此DB2數(shù)據(jù)庫的系統(tǒng)稱為數(shù)據(jù)集市服務(wù)器。盡管可以有許多數(shù)據(jù)集市,但只能有一個數(shù)據(jù)集市服務(wù)器。
數(shù)據(jù)集市組件需要IBM DB2 Universal Database Enterprise Edition,您必須在安裝控制服務(wù)器前手工安裝它。
IBM Tivoli Monitoringfor Transaction Performance倉庫包創(chuàng)建結(jié)構(gòu)適用于報告界面的數(shù)據(jù)集市。IBM Tivoli Monitoringfor Transaction Performance通過提供一個稱為數(shù)據(jù)集市ETL的抽取、轉(zhuǎn)換和裝入(ETL)過程來實現(xiàn)此操作,該進程創(chuàng)建數(shù)據(jù)集市并將來自中央數(shù)據(jù)倉庫的數(shù)據(jù)裝入其中。
可以修改現(xiàn)有的數(shù)據(jù)集市或創(chuàng)建包含略微不同的數(shù)據(jù)的新數(shù)據(jù)集市,以迎合您所在環(huán)境下的特定報告需要。要修改或創(chuàng)建數(shù)據(jù)集市,必須熟悉數(shù)據(jù)庫ETL過程以及數(shù)據(jù)集市在Tivoli。
那么數(shù)據(jù)集市就是企業(yè)級數(shù)據(jù)倉庫的一個子集,他主要面向部門級業(yè)務(wù),并且只面向某個特定的主題。為了解決靈活性與性能之間的矛盾,數(shù)據(jù)集市就是數(shù)據(jù)倉庫體系結(jié)構(gòu)中增加的一種小型的部門或工作組級別的數(shù)據(jù)倉庫。數(shù)據(jù)集市存儲為特定用戶預(yù)先計算好的數(shù)據(jù),從而滿足用戶對性能的需求。數(shù)據(jù)集市可以在一定程度上緩解訪問數(shù)據(jù)倉庫的瓶頸。
?
坦白來說:我們可以理解為,數(shù)據(jù)倉庫就是數(shù)據(jù)集市的父親,父親(數(shù)倉)那里有很多的資金(數(shù)據(jù)),然后兒子(數(shù)據(jù)集市)拿著這些資金在各個領(lǐng)域中(多維的方式)進行投資(存儲),然后獲得更大的利益(生成面向決策分析需求的數(shù)據(jù)立方體)。
?
而對于數(shù)據(jù)湖呢?其價值在于:
數(shù)據(jù)湖的一部分價值是把不同種類的數(shù)據(jù)匯聚到一起,另一部分價值是不需要預(yù)定義的模型就能進行數(shù)據(jù)分析。現(xiàn)在的大數(shù)據(jù)架構(gòu)是可擴展的,并且可以為用戶提供越來越多的實時分析。在商業(yè)智能(BI)和數(shù)據(jù)倉庫還沒有被淘汰的今天,大數(shù)據(jù)分析和大數(shù)據(jù)湖正在向更多類型的實時智能服務(wù)發(fā)展,這些實時的智能服務(wù)可以支持實時的決策制定。
?
簡單來說,數(shù)據(jù)湖架構(gòu)面向多數(shù)據(jù)源的信息存儲,包括物聯(lián)網(wǎng)在內(nèi)。
?
但是這樣其缺點也大大被放大出來:
大數(shù)據(jù)分析或歸檔可通過訪問數(shù)據(jù)湖處理或交付數(shù)據(jù)子集給請求用戶。但數(shù)據(jù)湖架構(gòu)可不僅僅是一個巨大的磁盤而已。
數(shù)據(jù)湖的數(shù)據(jù)持久性和安全卻是需要優(yōu)先考慮的因素。很多選擇都能交付一個合理的成本,但并非所有都能滿足數(shù)據(jù)湖的長期存儲需求。挑戰(zhàn)就在于數(shù)據(jù)湖中很多數(shù)據(jù)永遠不會刪除。這種數(shù)據(jù)的價值在于它要拿來分析以及和年復(fù)一年的數(shù)據(jù)進行比對,這將抵消其容量成本。
在數(shù)據(jù)湖架構(gòu)中,信息安全作為另一項挑戰(zhàn)往往被人忽視。相比于其它,這種類型的存儲安全要更加重要。數(shù)據(jù)湖架構(gòu)從定義上看是將所有的雞蛋放在一個籃子中。而如果其中一個存儲庫的安全被破壞,那么未知方將可能訪問所有數(shù)據(jù)。很多數(shù)據(jù)都以易于讀取的格式存儲,像是JPEG、PDF文件——如果你的數(shù)據(jù)湖架構(gòu)不夠安全,那么信息損失很容易。
?
總結(jié)
以上是生活随笔為你收集整理的数据仓库、数据集市、数据湖,这些大数据名词你知道多少?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 那么到底什么是热点???
- 下一篇: kafka _命令行操作