大数据项目实施案例
第一、項(xiàng)目目標(biāo)
將超過(guò)30個(gè)核心系統(tǒng)數(shù)據(jù),實(shí)施同步復(fù)制,統(tǒng)一集中到大數(shù)據(jù)平臺(tái)。
1)將數(shù)據(jù)實(shí)施同步,數(shù)據(jù)量很大。---數(shù)據(jù)比較復(fù)雜
2)數(shù)據(jù)復(fù)制的實(shí)時(shí)性、準(zhǔn)確性
3)復(fù)制數(shù)據(jù)需要增加標(biāo)簽(操作時(shí)間、操作類(lèi)型、操作人等),便于后端識(shí)別數(shù)據(jù)。
4)如何抽取數(shù)據(jù),減輕對(duì)生產(chǎn)庫(kù)的影響。如視圖、臨時(shí)表、dg庫(kù)等手段。
5)如何更好的適配后端應(yīng)用,保證數(shù)據(jù)規(guī)格靈活,預(yù)留字段充足。
可以考慮建立編碼管理,元數(shù)據(jù)倉(cāng)庫(kù)。
6)具備操作控制流管理、數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)對(duì)比的功能,方便追蹤溯源。
第二、項(xiàng)目難點(diǎn)與應(yīng)對(duì)
1)業(yè)務(wù)系統(tǒng)眾多,數(shù)據(jù)源比較復(fù)雜,有sqlserver,mysql,essbase,oracle,sql server。同時(shí)數(shù)據(jù)規(guī)則不一。
建議建立數(shù)據(jù)處理中心、元數(shù)據(jù)倉(cāng)庫(kù)。轉(zhuǎn)換數(shù)據(jù)格式,并做好擴(kuò)展性。
2) 數(shù)據(jù)量龐大,初始化數(shù)據(jù)的時(shí)間開(kāi)始點(diǎn)很重要。一般財(cái)務(wù)核算數(shù)據(jù)保留兩年的時(shí)間。但是因?yàn)闃I(yè)務(wù)特殊性,有些數(shù)據(jù)
需要追溯到10-30 年,甚至更長(zhǎng)時(shí)間。
3)對(duì)數(shù)據(jù)存儲(chǔ)空間、存儲(chǔ)機(jī)房位置,是否需要專(zhuān)用光纜,是否和其他系統(tǒng)搶占資源等。
4)復(fù)制核心業(yè)務(wù)系統(tǒng)數(shù)據(jù)不超過(guò)10S-20S。實(shí)效要求高。準(zhǔn)確性也需要,否則無(wú)法保證數(shù)據(jù)準(zhǔn)確性。
5)對(duì)數(shù)據(jù)清洗、分?jǐn)偂⒀a(bǔ)錄。提供一個(gè)統(tǒng)一手工補(bǔ)錄的接口。
第三、解決方案:
1)數(shù)據(jù)平臺(tái)復(fù)制數(shù)據(jù)需要支持異構(gòu)數(shù)據(jù)庫(kù)、大數(shù)據(jù)量、實(shí)時(shí)性、模塊化。
可以考慮初始化數(shù)據(jù)全量同步到hdfs,增量數(shù)據(jù)同步到kafka。
2)復(fù)制數(shù)據(jù)放在 備份庫(kù)上。一定要減輕生產(chǎn)庫(kù)的壓力。
3)為了節(jié)約網(wǎng)絡(luò)資源,需要和備份數(shù)據(jù)庫(kù)放在同一個(gè)機(jī)房。、
4)需要建立數(shù)據(jù)控制流,方便數(shù)據(jù)校驗(yàn)。 暫定校驗(yàn)數(shù)據(jù)條數(shù)、數(shù)據(jù)數(shù)量合計(jì)。
目的是支持后續(xù)業(yè)務(wù)進(jìn)行數(shù)據(jù)操作回查,實(shí)現(xiàn)數(shù)據(jù)校驗(yàn)。特別是財(cái)務(wù)數(shù)據(jù),可能需要下鉆
抽取憑證級(jí)的數(shù)據(jù)。
5)需要配置多個(gè)同步通道。可以快速將數(shù)據(jù)同步到數(shù)據(jù)庫(kù),并支持增量同步的方式。
需要選取復(fù)制效率最高的產(chǎn)品。如可以支持多線程、多并發(fā)、特定數(shù)據(jù)格式、數(shù)據(jù)壓縮技術(shù),
以及快速數(shù)據(jù)抽取和裝載技術(shù)。
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
總結(jié)
- 上一篇: stl algorithm -- sor
- 下一篇: 为何大厂APP如微信、支付宝、淘宝、手Q