#研发解决方案#数据移山:接入、迁移、同步一站式
數(shù)據(jù)中心趙興申 最后更新于2018/8/7
關(guān)鍵詞:數(shù)據(jù)接入,數(shù)據(jù)遷移,實(shí)時(shí)同步,數(shù)據(jù)庫(kù)變更訂閱中心
提綱:
1.??????移山產(chǎn)生背景
2.??????技術(shù)棧
3.??????移山數(shù)據(jù)處理能力
4.??????小結(jié)
?
移山?是數(shù)據(jù)中心推出的異構(gòu)數(shù)據(jù)源之間的數(shù)據(jù)遷移自動(dòng)化平臺(tái),它旨在解決第三方ISV數(shù)據(jù)接入、實(shí)時(shí)數(shù)據(jù)(單向/雙向)同步、大數(shù)據(jù)集群間的數(shù)據(jù)遷移等問(wèn)題。
移山?前臺(tái)部分由劉永飛,后臺(tái)由趙興申、譚清勇等同學(xué)開發(fā)完成。2018年3月9日移山(YiShan)一期上線運(yùn)行。
?
0x00 移山產(chǎn)生背景
隨著數(shù)屏、魔盒、數(shù)據(jù)開放實(shí)驗(yàn)室等大數(shù)據(jù)組件上線運(yùn)行,我司數(shù)據(jù)倉(cāng)庫(kù)體系得到了進(jìn)一步的發(fā)展,生產(chǎn)效率進(jìn)一步提高,但是在數(shù)據(jù)接入、數(shù)據(jù)遷移、分析結(jié)果輸出還存在以下問(wèn)題:
-
業(yè)務(wù)庫(kù)數(shù)據(jù)進(jìn)入倉(cāng)庫(kù)流程復(fù)雜:
-
對(duì)于數(shù)據(jù)倉(cāng)庫(kù)中不存在的業(yè)務(wù)表,數(shù)據(jù)挖掘工程師需要先在?數(shù)據(jù)庫(kù)變更訂閱中心?配置該表,數(shù)據(jù)才會(huì)流向HBase(數(shù)據(jù)湖),然后還需要編碼開發(fā)才能將HBase中的數(shù)據(jù)同步至數(shù)據(jù)倉(cāng)庫(kù)。這個(gè)過(guò)程操作復(fù)雜,極大制約了數(shù)據(jù)的開發(fā)效率;
-
-
計(jì)算任務(wù)和結(jié)果輸出未完全分離:
-
我們的離線計(jì)算任務(wù)采用 spark 進(jìn)行計(jì)算,任務(wù)計(jì)算完成后需要將分析結(jié)果輸出到下游數(shù)據(jù)使用方(一般輸出到 MySQL 數(shù)據(jù)庫(kù)),數(shù)據(jù)計(jì)算和結(jié)果輸出封裝在一個(gè) spark 任務(wù)中。計(jì)算結(jié)果數(shù)據(jù)量大的情況下,經(jīng)常會(huì)導(dǎo)致 spark 任務(wù)不能正常結(jié)束或假死;
-
-
第三方數(shù)據(jù)接入方案不成熟:
-
對(duì)于第三方數(shù)據(jù)接入,我們之前有一個(gè)簡(jiǎn)易版的數(shù)據(jù)采集服務(wù),采用內(nèi)存隊(duì)列方式處理接入數(shù)據(jù),數(shù)據(jù)量大的情況下,經(jīng)常會(huì)造成接口訪問(wèn)超時(shí),影響數(shù)據(jù)的完整性。
-
?
為了解決上述問(wèn)題,我們需要一個(gè)完整的數(shù)據(jù)接入、同步、遷移解決方案,移山項(xiàng)目應(yīng)運(yùn)而生。同時(shí)我們要求可視化配置,可排查(最好是全鏈路可排查),可調(diào)度,支持下層集群服務(wù)(如kafka、hbase等)的擴(kuò)容或縮容,最重要的一點(diǎn)是自帶監(jiān)控報(bào)警。
?
0x01 技術(shù)棧
0x02 移山數(shù)據(jù)處理能力
2.1 三大數(shù)據(jù)通道
數(shù)據(jù)接入、數(shù)據(jù)遷移、實(shí)時(shí)同步三大數(shù)據(jù)通道涵蓋所有業(yè)務(wù)場(chǎng)景。
?
2.2 完備的監(jiān)控報(bào)警機(jī)制
-
報(bào)警設(shè)置
系統(tǒng)根據(jù)不同數(shù)據(jù)通道,采用相應(yīng)的監(jiān)控報(bào)警機(jī)制,例如:對(duì)數(shù)據(jù)接入、數(shù)據(jù)遷移通道采用達(dá)到一定的重試閾值,才進(jìn)行報(bào)警;對(duì)實(shí)時(shí)同步這種不能進(jìn)行重試的任務(wù),立即報(bào)警。
?
-
運(yùn)行監(jiān)控
對(duì)數(shù)據(jù)接入、數(shù)據(jù)遷移提供詳細(xì)的任務(wù)運(yùn)行監(jiān)控,并詳細(xì)記載任務(wù)執(zhí)行日志、錯(cuò)誤日志、成功記錄數(shù)、失敗記錄數(shù)等信息。
?
2.3 良好的數(shù)據(jù)、異常分析能力
移山系統(tǒng)提供了數(shù)據(jù)分析,幫助了解每日數(shù)據(jù)同步記錄數(shù)、執(zhí)行時(shí)長(zhǎng)等信息。
?
0x03 小結(jié)
綜上所述,移山的三大數(shù)據(jù)通道已全部涵蓋日常數(shù)據(jù)遷移場(chǎng)景。移山以組件的方式集成到數(shù)據(jù)倉(cāng)庫(kù)體系中,形成如下圖所示的大數(shù)據(jù)技術(shù)支撐體系。
-EOF-
?
轉(zhuǎn)載于:https://www.cnblogs.com/zhengyun_ustc/p/yishan.html
總結(jié)
以上是生活随笔為你收集整理的#研发解决方案#数据移山:接入、迁移、同步一站式的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 花神的数论题(这题...哎。数位dp咋就
- 下一篇: 入坑-DM导论-第一章绪论笔记