大数据之路之数据上云解决方案(全量)
定義:數(shù)據(jù)上云又稱數(shù)據(jù)采集,數(shù)據(jù)集成,數(shù)據(jù)遷移,是大數(shù)據(jù)架構(gòu)中的最基礎(chǔ)也是最根本的一環(huán),從性質(zhì)上來(lái)講屬于ETL中的一部分操作,即把數(shù)據(jù)從一個(gè)地方遷移匯總到另外一個(gè)地方。數(shù)據(jù)上云解決了信息孤島問(wèn)題,解決了信息不對(duì)稱問(wèn)題,即”車同軌書(shū)同文“,同時(shí)把數(shù)據(jù)遷移到云計(jì)算平臺(tái),對(duì)后續(xù)數(shù)據(jù)的計(jì)算和應(yīng)用提供了第一步開(kāi)山之路
難點(diǎn):
上云工具:數(shù)據(jù)上云工具有很多,不僅有開(kāi)源的DataX,Kettle,Sqoop等,還有一些廠商自研的各種數(shù)據(jù)采集平臺(tái),我們可根據(jù)實(shí)際需求選擇最好的。由于很多數(shù)據(jù)采集平臺(tái)都是付費(fèi)或者與自己云平臺(tái)綁定在一塊的,買(mǎi)了服務(wù)才能用,而且這種平臺(tái)大多數(shù)是圖形化點(diǎn)擊操作,無(wú)需掌握采集技術(shù)原理,只需傻瓜式點(diǎn)點(diǎn)即可,所以這里我們講一下更具技術(shù)含量的開(kāi)源采集工具,以DataX為例,DataX知識(shí)
篇幅有限,這里先講全量上云
全量上云即在上云的那一剎那,把當(dāng)前數(shù)據(jù)庫(kù)形成一個(gè)全量快照,然后采集上云,所以在傳統(tǒng)全量上云中,云下數(shù)據(jù)庫(kù)新進(jìn)來(lái)的數(shù)據(jù)是無(wú)法采集到的,不過(guò)影響也不算大。畢竟我們選擇全量上云時(shí)一般都是在凌晨左右,業(yè)務(wù)量極低,而且本身全量上云就是離線操作,所以這些新進(jìn)來(lái)的數(shù)據(jù)第二次采集再進(jìn)來(lái)也不遲,如果業(yè)務(wù)有需求的,可以通過(guò)控制時(shí)間和采集頻率來(lái)解決?
以oracle - 云 為例
第一步:信息配置:由于實(shí)際業(yè)務(wù)表成千上萬(wàn),我們不可能一一進(jìn)行json的配置,所以需要采用配置文件和腳本結(jié)合的方法:即首先配置好數(shù)據(jù)庫(kù),表等配置文件,然后通過(guò)shell腳本建立并發(fā)開(kāi)始平臺(tái)建表,數(shù)據(jù)上云
第二步:分區(qū)合并:可能某些oracle9i數(shù)據(jù)庫(kù)上云過(guò)程中提示快照過(guò)舊,這時(shí)候就不能再使用自定義分區(qū)來(lái)上云,只能夠用數(shù)據(jù)庫(kù)初始分區(qū)進(jìn)行,后續(xù)再在云平臺(tái)進(jìn)行數(shù)據(jù)合并,把一張表的不同分區(qū)合成一個(gè)分區(qū)
第三步:數(shù)據(jù)檢測(cè):數(shù)據(jù)檢測(cè)主要針對(duì)兩方面:數(shù)據(jù)+質(zhì)量,數(shù)據(jù)可以通過(guò)腳本來(lái)一一實(shí)現(xiàn)檢測(cè),但是數(shù)據(jù)質(zhì)量,比如是否亂碼,是否跨行等只能通過(guò)自己手動(dòng)來(lái)查看
第四步:后續(xù)運(yùn)維:有些業(yè)務(wù)數(shù)據(jù)全量上云只需要一次,有的可能數(shù)據(jù)庫(kù)較小,每天都可以全量,這些都要根據(jù)實(shí)際需求,在云平臺(tái)或者腳本里設(shè)置好自動(dòng)調(diào)度,還要考慮血緣,依賴,以及后續(xù)運(yùn)維的難易程度
這里是數(shù)據(jù)全量上云的解決方案,如需要腳本或者工具等請(qǐng)參考我的Github :DTBoys
感謝觀看
總結(jié)
以上是生活随笔為你收集整理的大数据之路之数据上云解决方案(全量)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 修改群晖mac 及 sn
- 下一篇: 商业云平台和开源云平台