生活随笔
收集整理的這篇文章主要介紹了
hdata datax交流总结
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
http://blog.csdn.net/zlm838687/article/details/74781522
?
hdata datax交流總結(jié)
今天和阿里云的同學(xué)就數(shù)據(jù)同步做了簡(jiǎn)要的交流,下面就交流的內(nèi)容做一個(gè)總結(jié)
分片相關(guān)
datax目前可以支持單機(jī)(standalone)和集群模式(cluster).目前開源的是單機(jī)版本。無論是單機(jī)版本還集群版本,分片都是通過datax進(jìn)行。集群模式會(huì)把分片包裝的taskGroup重新發(fā)給datax service, datax service會(huì)把新的taskGroup重新發(fā)給其他機(jī)器執(zhí)行根據(jù)算出的最大值、最小值和通道個(gè)數(shù)(相當(dāng)于hdata的線程個(gè)數(shù)),可以計(jì)算出步長(zhǎng)(step), 然后根據(jù)step,計(jì)算出各個(gè)分片的長(zhǎng)度。datax split目前僅支持單一主鍵,且主鍵類型是int或者varchar類型執(zhí)行reader和writer最細(xì)力度的切分。需要注意到是,writer的切分結(jié)果要參照readre的結(jié)果,要達(dá)到切分后的結(jié)果數(shù)目相等,才能滿足1:1的通道模型。所以這里可以將reader和writer的配置整合到一起。為了避免順序給讀寫帶來的長(zhǎng)尾效應(yīng),將整合的結(jié)果shuffle掉。?hbase的分片是通過region來實(shí)現(xiàn)的odps(他們的hadoop環(huán)境)是通過offset來實(shí)現(xiàn)的分庫分表直接在表的層面劃分,各個(gè)表之間沒有關(guān)系。我們交流的團(tuán)隊(duì)目前是沒有使用canal增量同步數(shù)據(jù)的datax沒有斷點(diǎn)續(xù)傳,分布式一個(gè)錯(cuò),其他都錯(cuò)。datax如果某一個(gè)task失敗會(huì)有重試,我們hdata目前還沒有。后面hdata可以改進(jìn)下,可以減少整個(gè)任務(wù)重試的成本。流控
datax的流控不會(huì)出現(xiàn)尖峰的情況。他們內(nèi)部會(huì)把每次sleep的時(shí)間調(diào)整的很短。具體sleep的時(shí)間他們是根據(jù)當(dāng)前流量,超出峰值的流量等因素,根據(jù)他們內(nèi)部算法實(shí)現(xiàn)的。我們自己的hdata早前都是固定sleep一秒的, 所以會(huì)出現(xiàn)峰值的情況。數(shù)據(jù)源的流控超過了就不再下發(fā)任務(wù)開發(fā)平臺(tái)相關(guān)
多租戶,主賬號(hào)和子賬號(hào),有多個(gè)角色(開發(fā),運(yùn)維,部署,方可,項(xiàng)目管理員),會(huì)有測(cè)試,預(yù)發(fā)等。SQL的補(bǔ)全是每個(gè)輸入會(huì)有ajax請(qǐng)求到后端(odps上)做語法分析. odps會(huì)根據(jù)語法樹找到和用戶最匹配的sql總結(jié)
我們做的好的地方
datax目前的進(jìn)度匯報(bào)是基于task級(jí)別的,但是task級(jí)別的進(jìn)度不能真正反映整個(gè)job的進(jìn)度。我們目前hdata是進(jìn)程級(jí)別的。可以真正的看到這個(gè)任務(wù)total read write completedPercent的情況datax的限流雖然把sleep的間隔調(diào)整為毫秒級(jí)別,但是個(gè)人覺得還是會(huì)出現(xiàn)短暫的分值情況。我們目前的限流首先會(huì)在數(shù)據(jù)庫級(jí)別做一下限流,降低數(shù)據(jù)庫的壓力,減少sql killer發(fā)送的頻率。還有我們目前限流的算法采用類似tcp擁堵的滑動(dòng)窗口算法,快速下降慢速恢復(fù)。可以將流量控制在一個(gè)平穩(wěn)的數(shù)值范圍內(nèi)。值的學(xué)習(xí)借鑒的地方
hdata的分布式。大概想法是分片還是由hdata完成,然后hdata把分片的結(jié)果告訴調(diào)度,由調(diào)度進(jìn)行二次分發(fā)到不同的hdata機(jī)器上進(jìn)行執(zhí)行hdata可以增加線程級(jí)別的重試。減少重跑出錯(cuò)任務(wù)的代價(jià)當(dāng)前hdata支持容忍錯(cuò)誤的條數(shù),不支持容忍錯(cuò)誤百分比。后期需要把這個(gè)功能坐上。hdata的智能分析還不夠強(qiáng)大。當(dāng)前正在做。數(shù)加的測(cè)試環(huán)境的數(shù)據(jù)都是讀取線上的數(shù)據(jù)的,只不過寫出的時(shí)候區(qū)分線上環(huán)境還是測(cè)試環(huán)境。我們后面做測(cè)試環(huán)境可以考慮下。
轉(zhuǎn)載于:https://www.cnblogs.com/0xcafedaddy/p/8182535.html
總結(jié)
以上是生活随笔為你收集整理的hdata datax交流总结的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。