當(dāng)前位置：首頁 >

hdata datax交流总结

發(fā)布時(shí)間：2025/3/15 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 hdata datax交流总结小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

http://blog.csdn.net/zlm838687/article/details/74781522

hdata datax交流總結(jié)

今天和阿里云的同學(xué)就數(shù)據(jù)同步做了簡(jiǎn)要的交流，下面就交流的內(nèi)容做一個(gè)總結(jié)

分片相關(guān)

datax目前可以支持單機(jī)(standalone)和集群模式(cluster).目前開源的是單機(jī)版本。無論是單機(jī)版本還集群版本，分片都是通過datax進(jìn)行。集群模式會(huì)把分片包裝的taskGroup重新發(fā)給datax service, datax service會(huì)把新的taskGroup重新發(fā)給其他機(jī)器執(zhí)行

根據(jù)算出的最大值、最小值和通道個(gè)數(shù)(相當(dāng)于hdata的線程個(gè)數(shù))，可以計(jì)算出步長(zhǎng)(step), 然后根據(jù)step，計(jì)算出各個(gè)分片的長(zhǎng)度。

datax split目前僅支持單一主鍵，且主鍵類型是int或者varchar類型

執(zhí)行reader和writer最細(xì)力度的切分。需要注意到是，writer的切分結(jié)果要參照readre的結(jié)果，要達(dá)到切分后的結(jié)果數(shù)目相等，才能滿足1：1的通道模型。所以這里可以將reader和writer的配置整合到一起。為了避免順序給讀寫帶來的長(zhǎng)尾效應(yīng)，將整合的結(jié)果shuffle掉。?

hbase的分片是通過region來實(shí)現(xiàn)的

odps(他們的hadoop環(huán)境)是通過offset來實(shí)現(xiàn)的

分庫分表直接在表的層面劃分，各個(gè)表之間沒有關(guān)系。我們交流的團(tuán)隊(duì)目前是沒有使用canal增量同步數(shù)據(jù)的

datax沒有斷點(diǎn)續(xù)傳，分布式一個(gè)錯(cuò)，其他都錯(cuò)。datax如果某一個(gè)task失敗會(huì)有重試，我們hdata目前還沒有。后面hdata可以改進(jìn)下，可以減少整個(gè)任務(wù)重試的成本。

流控

datax的流控不會(huì)出現(xiàn)尖峰的情況。他們內(nèi)部會(huì)把每次sleep的時(shí)間調(diào)整的很短。具體sleep的時(shí)間他們是根據(jù)當(dāng)前流量，超出峰值的流量等因素，根據(jù)他們內(nèi)部算法實(shí)現(xiàn)的。我們自己的hdata早前都是固定sleep一秒的, 所以會(huì)出現(xiàn)峰值的情況。

數(shù)據(jù)源的流控超過了就不再下發(fā)任務(wù)

開發(fā)平臺(tái)相關(guān)

多租戶，主賬號(hào)和子賬號(hào)，有多個(gè)角色（開發(fā)，運(yùn)維，部署，方可，項(xiàng)目管理員），會(huì)有測(cè)試，預(yù)發(fā)等。

SQL的補(bǔ)全是每個(gè)輸入會(huì)有ajax請(qǐng)求到后端(odps上)做語法分析. odps會(huì)根據(jù)語法樹找到和用戶最匹配的sql

總結(jié)

我們做的好的地方

datax目前的進(jìn)度匯報(bào)是基于task級(jí)別的，但是task級(jí)別的進(jìn)度不能真正反映整個(gè)job的進(jìn)度。我們目前hdata是進(jìn)程級(jí)別的。可以真正的看到這個(gè)任務(wù)total read write completedPercent的情況

datax的限流雖然把sleep的間隔調(diào)整為毫秒級(jí)別，但是個(gè)人覺得還是會(huì)出現(xiàn)短暫的分值情況。我們目前的限流首先會(huì)在數(shù)據(jù)庫級(jí)別做一下限流，降低數(shù)據(jù)庫的壓力，減少sql killer發(fā)送的頻率。還有我們目前限流的算法采用類似tcp擁堵的滑動(dòng)窗口算法，快速下降慢速恢復(fù)。可以將流量控制在一個(gè)平穩(wěn)的數(shù)值范圍內(nèi)。

值的學(xué)習(xí)借鑒的地方

hdata的分布式。大概想法是分片還是由hdata完成，然后hdata把分片的結(jié)果告訴調(diào)度，由調(diào)度進(jìn)行二次分發(fā)到不同的hdata機(jī)器上進(jìn)行執(zhí)行

hdata可以增加線程級(jí)別的重試。減少重跑出錯(cuò)任務(wù)的代價(jià)

當(dāng)前hdata支持容忍錯(cuò)誤的條數(shù)，不支持容忍錯(cuò)誤百分比。后期需要把這個(gè)功能坐上。

hdata的智能分析還不夠強(qiáng)大。當(dāng)前正在做。

數(shù)加的測(cè)試環(huán)境的數(shù)據(jù)都是讀取線上的數(shù)據(jù)的，只不過寫出的時(shí)候區(qū)分線上環(huán)境還是測(cè)試環(huán)境。我們后面做測(cè)試環(huán)境可以考慮下。

轉(zhuǎn)載于:https://www.cnblogs.com/0xcafedaddy/p/8182535.html

總結(jié)

以上是生活随笔為你收集整理的hdata datax交流总结的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

DataX
hdata

上一篇：【JAVA学习】09.创建Bootstr
下一篇：浅谈内存映射I/O(MMIO)与端口映射

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

hdata datax交流总结

hdata datax交流總結(jié)

分片相關(guān)

流控

開發(fā)平臺(tái)相關(guān)

總結(jié)

總結(jié)