日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

大数据之路之数据上云解决方案(全量)

發(fā)布時(shí)間:2023/12/14 编程问答 84 豆豆
生活随笔 收集整理的這篇文章主要介紹了 大数据之路之数据上云解决方案(全量) 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

定義:數(shù)據(jù)上云又稱數(shù)據(jù)采集,數(shù)據(jù)集成,數(shù)據(jù)遷移,是大數(shù)據(jù)架構(gòu)中的最基礎(chǔ)也是最根本的一環(huán),從性質(zhì)上來(lái)講屬于ETL中的一部分操作,即把數(shù)據(jù)從一個(gè)地方遷移匯總到另外一個(gè)地方。數(shù)據(jù)上云解決了信息孤島問(wèn)題,解決了信息不對(duì)稱問(wèn)題,即”車同軌書(shū)同文“,同時(shí)把數(shù)據(jù)遷移到云計(jì)算平臺(tái),對(duì)后續(xù)數(shù)據(jù)的計(jì)算和應(yīng)用提供了第一步開(kāi)山之路

難點(diǎn):

  • 數(shù)據(jù)上云如何做到在數(shù)量上,質(zhì)量上保持無(wú)誤?
  • 數(shù)據(jù)上云如何解決不同平臺(tái)的網(wǎng)絡(luò),架構(gòu)等數(shù)據(jù)兼容性,影射性問(wèn)題?
  • 數(shù)據(jù)上云如何做到從云下到云上自動(dòng)調(diào)度,如何保證數(shù)據(jù)變更與云下保持一致?
  • 數(shù)據(jù)上云如何解決云下數(shù)據(jù)庫(kù)表結(jié)構(gòu)變化,云下數(shù)據(jù)變化,云上能及時(shí)獲取,能及時(shí)在平臺(tái)級(jí)做到變更?
  • 數(shù)據(jù)上云如何針對(duì)不同的業(yè)務(wù)需求做出不同的應(yīng)對(duì),如何面面俱到而不是過(guò)度擬合?
  • 數(shù)據(jù)上云如何解決后續(xù)運(yùn)維難題?
  • 上云工具:數(shù)據(jù)上云工具有很多,不僅有開(kāi)源的DataX,Kettle,Sqoop等,還有一些廠商自研的各種數(shù)據(jù)采集平臺(tái),我們可根據(jù)實(shí)際需求選擇最好的。由于很多數(shù)據(jù)采集平臺(tái)都是付費(fèi)或者與自己云平臺(tái)綁定在一塊的,買(mǎi)了服務(wù)才能用,而且這種平臺(tái)大多數(shù)是圖形化點(diǎn)擊操作,無(wú)需掌握采集技術(shù)原理,只需傻瓜式點(diǎn)點(diǎn)即可,所以這里我們講一下更具技術(shù)含量的開(kāi)源采集工具,以DataX為例,DataX知識(shí)

    篇幅有限,這里先講全量上云

    全量上云即在上云的那一剎那,把當(dāng)前數(shù)據(jù)庫(kù)形成一個(gè)全量快照,然后采集上云,所以在傳統(tǒng)全量上云中,云下數(shù)據(jù)庫(kù)新進(jìn)來(lái)的數(shù)據(jù)是無(wú)法采集到的,不過(guò)影響也不算大。畢竟我們選擇全量上云時(shí)一般都是在凌晨左右,業(yè)務(wù)量極低,而且本身全量上云就是離線操作,所以這些新進(jìn)來(lái)的數(shù)據(jù)第二次采集再進(jìn)來(lái)也不遲,如果業(yè)務(wù)有需求的,可以通過(guò)控制時(shí)間和采集頻率來(lái)解決?

    以oracle - 云 為例

    第一步:信息配置:由于實(shí)際業(yè)務(wù)表成千上萬(wàn),我們不可能一一進(jìn)行json的配置,所以需要采用配置文件和腳本結(jié)合的方法:即首先配置好數(shù)據(jù)庫(kù),表等配置文件,然后通過(guò)shell腳本建立并發(fā)開(kāi)始平臺(tái)建表,數(shù)據(jù)上云

    第二步:分區(qū)合并:可能某些oracle9i數(shù)據(jù)庫(kù)上云過(guò)程中提示快照過(guò)舊,這時(shí)候就不能再使用自定義分區(qū)來(lái)上云,只能夠用數(shù)據(jù)庫(kù)初始分區(qū)進(jìn)行,后續(xù)再在云平臺(tái)進(jìn)行數(shù)據(jù)合并,把一張表的不同分區(qū)合成一個(gè)分區(qū)

    第三步:數(shù)據(jù)檢測(cè):數(shù)據(jù)檢測(cè)主要針對(duì)兩方面:數(shù)據(jù)+質(zhì)量,數(shù)據(jù)可以通過(guò)腳本來(lái)一一實(shí)現(xiàn)檢測(cè),但是數(shù)據(jù)質(zhì)量,比如是否亂碼,是否跨行等只能通過(guò)自己手動(dòng)來(lái)查看

    第四步:后續(xù)運(yùn)維:有些業(yè)務(wù)數(shù)據(jù)全量上云只需要一次,有的可能數(shù)據(jù)庫(kù)較小,每天都可以全量,這些都要根據(jù)實(shí)際需求,在云平臺(tái)或者腳本里設(shè)置好自動(dòng)調(diào)度,還要考慮血緣,依賴,以及后續(xù)運(yùn)維的難易程度

    這里是數(shù)據(jù)全量上云的解決方案,如需要腳本或者工具等請(qǐng)參考我的Github :DTBoys

    感謝觀看

    總結(jié)

    以上是生活随笔為你收集整理的大数据之路之数据上云解决方案(全量)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。