大数据平台容量评估_大数据平台
系統(tǒng)概述
大數(shù)據(jù)應(yīng)用支撐平臺提供數(shù)據(jù)支撐服務(wù),對外發(fā)布數(shù)據(jù)服務(wù)進(jìn)行數(shù)據(jù)價(jià)值變現(xiàn)。包含數(shù)據(jù)采集、數(shù)據(jù)治理、數(shù)據(jù)交換、數(shù)據(jù)存儲、數(shù)據(jù)計(jì)算相關(guān)組件的搭建、驗(yàn)證,并建立大數(shù)據(jù)倉庫。
b)功能要求
1.數(shù)據(jù)采集,大數(shù)據(jù)平臺數(shù)據(jù)源層有各類型數(shù)據(jù)源,數(shù)據(jù)類型分為關(guān)系型業(yè)務(wù)庫、NoSQL庫、文本文件、視頻、服務(wù)接口,數(shù)據(jù)格式分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)(文件、圖片、視頻等),為了將多源異構(gòu)的數(shù)據(jù)進(jìn)行采集,需要將源數(shù)據(jù)原封不動的從源庫全量抽取出來,或者只抽取上次抽取以來源庫中要新增或修改的數(shù)據(jù),因此數(shù)據(jù)采集工具需要滿足對多源異構(gòu)數(shù)據(jù)的全量抽取和增量抽取。
2.數(shù)據(jù)治理,由于從數(shù)據(jù)采集工具采集過來的數(shù)據(jù)不具備統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)及數(shù)據(jù)格式,數(shù)據(jù)治理工具需要對到達(dá)的數(shù)據(jù)進(jìn)行格式檢查、標(biāo)準(zhǔn)化、增量對比、數(shù)據(jù)篩選、拆分后,生成符合標(biāo)準(zhǔn)的、統(tǒng)一格式的數(shù)據(jù),使之與大數(shù)據(jù)平臺要求的數(shù)據(jù)標(biāo)準(zhǔn)、邏輯關(guān)系與質(zhì)量符合。
3.數(shù)據(jù)交換,為了滿足子系統(tǒng)與總系統(tǒng)之間的數(shù)據(jù)交換及同步的需求,各系統(tǒng)之間的數(shù)據(jù)傳輸過程需要符合數(shù)據(jù)規(guī)范標(biāo)準(zhǔn),交換的雙方通過發(fā)送和接收任務(wù)進(jìn)行數(shù)據(jù)交換,整個(gè)過程需要保證數(shù)據(jù)安全保密及可靠性,并且數(shù)據(jù)查詢結(jié)果始終一致。
4.數(shù)據(jù)存儲,為了滿足數(shù)據(jù)采集、數(shù)據(jù)治理、數(shù)據(jù)交換各個(gè)過程中到達(dá)存儲的數(shù)據(jù),數(shù)據(jù)存儲體系需要滿足分布式文件存儲、分布式列式存儲、NoSql數(shù)據(jù)庫存儲、圖數(shù)據(jù)庫存儲、關(guān)系型結(jié)果庫存儲;為了滿足數(shù)據(jù)計(jì)算和數(shù)據(jù)分析過程對數(shù)據(jù)的需求,數(shù)據(jù)存儲體系需要支持全量的從數(shù)據(jù)存儲體系中抽取出來加載到并行數(shù)據(jù)處理器,增量的結(jié)構(gòu)化數(shù)據(jù)實(shí)時(shí)從數(shù)據(jù)存儲體系中抽取出來后加載到處理器中進(jìn)行分析計(jì)算。
5.數(shù)據(jù)計(jì)算,數(shù)據(jù)計(jì)算模塊需要為數(shù)據(jù)分析應(yīng)用場景提供數(shù)據(jù)計(jì)算能力,需要整合分布式計(jì)算框架MapReduce、全文檢索存儲引擎(Solr)、Spark(SparkSQL、SparkStreaming、GraphX),通過數(shù)據(jù)匹配、數(shù)據(jù)搜索、數(shù)據(jù)重構(gòu),提供對海量數(shù)據(jù)的并行加載與處理功能,并對數(shù)據(jù)進(jìn)行實(shí)時(shí)計(jì)算和離線計(jì)算,支撐上層數(shù)據(jù)分析需求。
6.大數(shù)據(jù)倉庫,數(shù)據(jù)倉庫支持從各種不同的數(shù)據(jù)源中采集數(shù)據(jù),包括關(guān)系數(shù)據(jù)庫、NoSql庫、文本文件、視頻文件、數(shù)據(jù)接口等。采集工具綜合運(yùn)用kettle、dataX、sqoop、kafka、flume等,實(shí)現(xiàn)全量采集和增量采集方式。按數(shù)據(jù)處理的不同階段,將數(shù)據(jù)倉庫進(jìn)行分層:
STAGE層(接口層):提供業(yè)務(wù)系統(tǒng)數(shù)據(jù)文件的臨時(shí)存儲,是生產(chǎn)系統(tǒng)數(shù)據(jù)源的直接拷貝,由ETL過程對數(shù)據(jù)源進(jìn)行直接抽取,在格式和數(shù)據(jù)定義上不作任何改變。從各業(yè)務(wù)系統(tǒng)中抽取、抓取的數(shù)據(jù),進(jìn)入這一層。
ODS/DWD層(細(xì)節(jié)數(shù)據(jù)層):簡稱DWD層,是對STAGE層數(shù)據(jù)進(jìn)行沉淀,減少了抽取的復(fù)雜性,同時(shí)ODS/DWD的信息模型組織主要遵循企業(yè)業(yè)務(wù)事務(wù)處理的形式,將企業(yè)各專業(yè)數(shù)據(jù)進(jìn)行集中,將數(shù)據(jù)按分析的主體的形式存放,跟STAGE層的粒度一致,屬于分析的公共資源。
MID層(輕度匯總層):是面向分析型應(yīng)用,對DWD層的生產(chǎn)數(shù)據(jù)進(jìn)行輕度綜合和匯總統(tǒng)計(jì)。
DM層(數(shù)據(jù)集市層):將數(shù)據(jù)按分析的專題組織成多維庫表的形式存放,屬于分析目標(biāo)范疇的數(shù)據(jù)組織與匯總,屬于分析的專有資源,其信息主要來源于DWD 和MID層匯總,時(shí)間維度可以是日、月、季、年。
MDW層(元數(shù)據(jù)):對數(shù)據(jù)倉庫中的數(shù)據(jù)、數(shù)據(jù)源、采集方式進(jìn)行描述。
各類數(shù)據(jù)從業(yè)務(wù)系統(tǒng)通過ETL工具抽取至接口層,然后經(jīng)過清洗轉(zhuǎn)換,進(jìn)入細(xì)節(jié)數(shù)據(jù)層,經(jīng)過匯總統(tǒng)計(jì),進(jìn)入輕度匯總層,再經(jīng)過主題劃分,按事實(shí)表、維度表進(jìn)行匯總組織,形成數(shù)據(jù)集市層。
數(shù)據(jù)倉庫的服務(wù)主要包括元數(shù)據(jù)管理、數(shù)據(jù)處理調(diào)度、數(shù)據(jù)稽核、數(shù)據(jù)發(fā)布。元數(shù)據(jù)管理對數(shù)據(jù)倉庫中的數(shù)據(jù)、數(shù)據(jù)源、采集方式進(jìn)行管理,為數(shù)據(jù)處理和發(fā)布提供基礎(chǔ)元數(shù)據(jù)。數(shù)據(jù)處理調(diào)度實(shí)現(xiàn)各層數(shù)據(jù)處理過程的調(diào)度管理。數(shù)據(jù)稽核實(shí)現(xiàn)數(shù)據(jù)完整性、一致性、準(zhǔn)確性的檢查。數(shù)據(jù)發(fā)布實(shí)現(xiàn)數(shù)據(jù)的對外共享發(fā)布。
基于數(shù)據(jù)倉庫,搭建數(shù)據(jù)分析工具,實(shí)現(xiàn)數(shù)據(jù)明細(xì)查詢、全文檢索,數(shù)據(jù)交互式探索、數(shù)據(jù)統(tǒng)計(jì)和數(shù)據(jù)挖掘等。數(shù)據(jù)分析的結(jié)果可以進(jìn)一步接入到應(yīng)用中,進(jìn)行可視化展現(xiàn)。
總結(jié)
以上是生活随笔為你收集整理的大数据平台容量评估_大数据平台的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 量子电动力学的发展:费曼的诺贝尔奖
- 下一篇: 485 九针头_张元英安宥真还是孩子,手