當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据平台容量评估_大数据平台

發(fā)布時(shí)間：2023/12/15 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据平台容量评估_大数据平台小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

系統(tǒng)概述

大數(shù)據(jù)應(yīng)用支撐平臺提供數(shù)據(jù)支撐服務(wù)，對外發(fā)布數(shù)據(jù)服務(wù)進(jìn)行數(shù)據(jù)價(jià)值變現(xiàn)。包含數(shù)據(jù)采集、數(shù)據(jù)治理、數(shù)據(jù)交換、數(shù)據(jù)存儲、數(shù)據(jù)計(jì)算相關(guān)組件的搭建、驗(yàn)證，并建立大數(shù)據(jù)倉庫。

b)功能要求

1.數(shù)據(jù)采集，大數(shù)據(jù)平臺數(shù)據(jù)源層有各類型數(shù)據(jù)源，數(shù)據(jù)類型分為關(guān)系型業(yè)務(wù)庫、NoSQL庫、文本文件、視頻、服務(wù)接口，數(shù)據(jù)格式分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)(文件、圖片、視頻等)，為了將多源異構(gòu)的數(shù)據(jù)進(jìn)行采集，需要將源數(shù)據(jù)原封不動的從源庫全量抽取出來，或者只抽取上次抽取以來源庫中要新增或修改的數(shù)據(jù)，因此數(shù)據(jù)采集工具需要滿足對多源異構(gòu)數(shù)據(jù)的全量抽取和增量抽取。

2.數(shù)據(jù)治理，由于從數(shù)據(jù)采集工具采集過來的數(shù)據(jù)不具備統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)及數(shù)據(jù)格式，數(shù)據(jù)治理工具需要對到達(dá)的數(shù)據(jù)進(jìn)行格式檢查、標(biāo)準(zhǔn)化、增量對比、數(shù)據(jù)篩選、拆分后，生成符合標(biāo)準(zhǔn)的、統(tǒng)一格式的數(shù)據(jù)，使之與大數(shù)據(jù)平臺要求的數(shù)據(jù)標(biāo)準(zhǔn)、邏輯關(guān)系與質(zhì)量符合。

3.數(shù)據(jù)交換，為了滿足子系統(tǒng)與總系統(tǒng)之間的數(shù)據(jù)交換及同步的需求，各系統(tǒng)之間的數(shù)據(jù)傳輸過程需要符合數(shù)據(jù)規(guī)范標(biāo)準(zhǔn)，交換的雙方通過發(fā)送和接收任務(wù)進(jìn)行數(shù)據(jù)交換，整個(gè)過程需要保證數(shù)據(jù)安全保密及可靠性，并且數(shù)據(jù)查詢結(jié)果始終一致。

4.數(shù)據(jù)存儲，為了滿足數(shù)據(jù)采集、數(shù)據(jù)治理、數(shù)據(jù)交換各個(gè)過程中到達(dá)存儲的數(shù)據(jù)，數(shù)據(jù)存儲體系需要滿足分布式文件存儲、分布式列式存儲、NoSql數(shù)據(jù)庫存儲、圖數(shù)據(jù)庫存儲、關(guān)系型結(jié)果庫存儲；為了滿足數(shù)據(jù)計(jì)算和數(shù)據(jù)分析過程對數(shù)據(jù)的需求，數(shù)據(jù)存儲體系需要支持全量的從數(shù)據(jù)存儲體系中抽取出來加載到并行數(shù)據(jù)處理器，增量的結(jié)構(gòu)化數(shù)據(jù)實(shí)時(shí)從數(shù)據(jù)存儲體系中抽取出來后加載到處理器中進(jìn)行分析計(jì)算。

5.數(shù)據(jù)計(jì)算，數(shù)據(jù)計(jì)算模塊需要為數(shù)據(jù)分析應(yīng)用場景提供數(shù)據(jù)計(jì)算能力，需要整合分布式計(jì)算框架MapReduce、全文檢索存儲引擎(Solr)、Spark(SparkSQL、SparkStreaming、GraphX)，通過數(shù)據(jù)匹配、數(shù)據(jù)搜索、數(shù)據(jù)重構(gòu)，提供對海量數(shù)據(jù)的并行加載與處理功能，并對數(shù)據(jù)進(jìn)行實(shí)時(shí)計(jì)算和離線計(jì)算，支撐上層數(shù)據(jù)分析需求。

6.大數(shù)據(jù)倉庫，數(shù)據(jù)倉庫支持從各種不同的數(shù)據(jù)源中采集數(shù)據(jù)，包括關(guān)系數(shù)據(jù)庫、NoSql庫、文本文件、視頻文件、數(shù)據(jù)接口等。采集工具綜合運(yùn)用kettle、dataX、sqoop、kafka、flume等，實(shí)現(xiàn)全量采集和增量采集方式。按數(shù)據(jù)處理的不同階段，將數(shù)據(jù)倉庫進(jìn)行分層：

STAGE層(接口層)：提供業(yè)務(wù)系統(tǒng)數(shù)據(jù)文件的臨時(shí)存儲，是生產(chǎn)系統(tǒng)數(shù)據(jù)源的直接拷貝，由ETL過程對數(shù)據(jù)源進(jìn)行直接抽取，在格式和數(shù)據(jù)定義上不作任何改變。從各業(yè)務(wù)系統(tǒng)中抽取、抓取的數(shù)據(jù)，進(jìn)入這一層。

ODS/DWD層(細(xì)節(jié)數(shù)據(jù)層)：簡稱DWD層，是對STAGE層數(shù)據(jù)進(jìn)行沉淀，減少了抽取的復(fù)雜性，同時(shí)ODS/DWD的信息模型組織主要遵循企業(yè)業(yè)務(wù)事務(wù)處理的形式，將企業(yè)各專業(yè)數(shù)據(jù)進(jìn)行集中，將數(shù)據(jù)按分析的主體的形式存放，跟STAGE層的粒度一致，屬于分析的公共資源。

MID層(輕度匯總層)：是面向分析型應(yīng)用，對DWD層的生產(chǎn)數(shù)據(jù)進(jìn)行輕度綜合和匯總統(tǒng)計(jì)。

DM層(數(shù)據(jù)集市層)：將數(shù)據(jù)按分析的專題組織成多維庫表的形式存放，屬于分析目標(biāo)范疇的數(shù)據(jù)組織與匯總，屬于分析的專有資源，其信息主要來源于DWD 和MID層匯總，時(shí)間維度可以是日、月、季、年。

MDW層(元數(shù)據(jù))：對數(shù)據(jù)倉庫中的數(shù)據(jù)、數(shù)據(jù)源、采集方式進(jìn)行描述。

各類數(shù)據(jù)從業(yè)務(wù)系統(tǒng)通過ETL工具抽取至接口層，然后經(jīng)過清洗轉(zhuǎn)換，進(jìn)入細(xì)節(jié)數(shù)據(jù)層，經(jīng)過匯總統(tǒng)計(jì)，進(jìn)入輕度匯總層，再經(jīng)過主題劃分，按事實(shí)表、維度表進(jìn)行匯總組織，形成數(shù)據(jù)集市層。

數(shù)據(jù)倉庫的服務(wù)主要包括元數(shù)據(jù)管理、數(shù)據(jù)處理調(diào)度、數(shù)據(jù)稽核、數(shù)據(jù)發(fā)布。元數(shù)據(jù)管理對數(shù)據(jù)倉庫中的數(shù)據(jù)、數(shù)據(jù)源、采集方式進(jìn)行管理，為數(shù)據(jù)處理和發(fā)布提供基礎(chǔ)元數(shù)據(jù)。數(shù)據(jù)處理調(diào)度實(shí)現(xiàn)各層數(shù)據(jù)處理過程的調(diào)度管理。數(shù)據(jù)稽核實(shí)現(xiàn)數(shù)據(jù)完整性、一致性、準(zhǔn)確性的檢查。數(shù)據(jù)發(fā)布實(shí)現(xiàn)數(shù)據(jù)的對外共享發(fā)布。

基于數(shù)據(jù)倉庫，搭建數(shù)據(jù)分析工具，實(shí)現(xiàn)數(shù)據(jù)明細(xì)查詢、全文檢索，數(shù)據(jù)交互式探索、數(shù)據(jù)統(tǒng)計(jì)和數(shù)據(jù)挖掘等。數(shù)據(jù)分析的結(jié)果可以進(jìn)一步接入到應(yīng)用中，進(jìn)行可視化展現(xiàn)。

總結(jié)

以上是生活随笔為你收集整理的大数据平台容量评估_大数据平台的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：量子电动力学的发展：费曼的诺贝尔奖
下一篇： 485 九针头_张元英安宥真还是孩子，手

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

大数据平台容量评估_大数据平台

總結(jié)