BI工具升级动态增量新功能,让大数据量入集市更便捷
“動(dòng)態(tài)增量”是“增量導(dǎo)入數(shù)據(jù)”在9.1版本中新增的入集市的方式。
隨著數(shù)據(jù)量的增大,咱們?nèi)爰械姆绞綕u漸的從“同步數(shù)據(jù)”變成“增量導(dǎo)入數(shù)據(jù)”,“增量導(dǎo)入數(shù)據(jù)”的優(yōu)點(diǎn)大致有兩點(diǎn):
同時(shí),“增量導(dǎo)入數(shù)據(jù)”也并不能完全滿足咱們數(shù)據(jù)更新的需求。
一. 為什么要用“動(dòng)態(tài)增量”?
舉個(gè)例子,某部門分析的是訂單數(shù)據(jù),有歷史5年的訂單數(shù)據(jù)(2016年1月到2021年3月),歷史數(shù)據(jù)不會(huì)變化,只有最近3個(gè)月的數(shù)據(jù)會(huì)發(fā)生變化,每天想要查詢的歷史所有訂單數(shù)據(jù)(2016年1月到昨天的數(shù)據(jù)都可能會(huì)查詢)。
如果使用“增量導(dǎo)入數(shù)據(jù)”的“普通增量”,每天追加前一天的數(shù)據(jù)到集市中沒(méi)有問(wèn)題,但是無(wú)法滿足“最近3個(gè)月的數(shù)據(jù)會(huì)變化”的場(chǎng)景,比如:咱們?cè)?021年3月10號(hào),將2021年3月9號(hào)的數(shù)據(jù)追加到集市中,但是到了11號(hào)的時(shí)候,9號(hào)的數(shù)據(jù)發(fā)生了變化。”普通增量”是沒(méi)有辦法對(duì)集市中已經(jīng)變化的9號(hào)的數(shù)據(jù)進(jìn)行update,或者說(shuō)刪除9號(hào)的數(shù)據(jù),重新導(dǎo)入。
這種時(shí)候“動(dòng)態(tài)增量”就派上用場(chǎng)啦!
二. “動(dòng)態(tài)增量”如何上市?
A. 歷史數(shù)據(jù)按月全量入(2021-03-01日進(jìn)行)
(1) 需要一個(gè)sql數(shù)據(jù)集,查詢 表“某部門訂單數(shù)據(jù)”的全部數(shù)據(jù),且需要有日期字段。sql語(yǔ)句中不用加其他where條件用于限制取哪段時(shí)間的數(shù)據(jù)。
(2)新建一個(gè)“動(dòng)態(tài)增量”任務(wù)
文件夾:設(shè)置集市文件夾的名稱,需要有意義
更新依據(jù)列:需要是日期類型,如果不是日期類型,選擇旁邊的新建計(jì)算列,通過(guò)表達(dá)式的方式將非日期類型的日期列,轉(zhuǎn)換為日期類型。
咱們這里選擇“按時(shí)間范圍更新”,將歷史數(shù)據(jù)全部包含(比如咱們這里,在2021年3月1號(hào)的時(shí)候,歷史數(shù)據(jù)范圍是2020-01-01到2021-02-28),范圍選擇完成也可以看下面的提示更新范圍,更好理解,范圍是包含開(kāi)始時(shí)間,但不包含結(jié)束時(shí)間。
實(shí)現(xiàn)的效果是歷史數(shù)據(jù)按月分割,不同月份的數(shù)據(jù)存儲(chǔ)在不同的集市文件中,并自動(dòng)給集市數(shù)據(jù)加上meta,meta名為:Date_Range,meta值:數(shù)據(jù)對(duì)應(yīng)的月份。
具體邏輯:一個(gè)任務(wù),按照時(shí)間范圍(2020-01-01到本月(2021-03月)),按月進(jìn)行分割,任務(wù)實(shí)際執(zhí)行的時(shí)候,是按月入集市的,數(shù)據(jù)庫(kù)執(zhí)行的sql,不是一條(select * from 某部門訂單數(shù)據(jù)),而是每個(gè)月一條。
B.每天更新最近3個(gè)月數(shù)據(jù)
(1) 2021-03-02號(hào)以及之后每天更新最近3個(gè)月數(shù)據(jù)
文件夾:還是跟之前保持一致
按周期進(jìn)行更新,更新范圍:近2月到今天,也就是2021-01-01開(kāi)始到今天
更新的效果是按月進(jìn)行分割,刪除2021-01月到2021-02月的數(shù)據(jù),追加生成2021-01月到2021-03月的數(shù)據(jù)。
一個(gè)完整的動(dòng)態(tài)增量的實(shí)例就講完了,實(shí)際使用中咱們可以根據(jù)情況進(jìn)行調(diào)整,總的來(lái)說(shuō)動(dòng)態(tài)增量可以實(shí)現(xiàn)某段時(shí)間的數(shù)據(jù)按月(按年或按日)進(jìn)行分割入集市,并打上meta,同時(shí),可以實(shí)現(xiàn)對(duì)已經(jīng)入集市的數(shù)據(jù)進(jìn)行按月(按年或按日)更新,更新最近一段時(shí)間,或者某段固定的時(shí)間范圍,更新的邏輯是刪除對(duì)應(yīng)時(shí)間段的集市文件,然后生成新的。
最后咱們不得不提的是meta的使用,前面“動(dòng)態(tài)增量”已經(jīng)實(shí)現(xiàn)了分割入集市,并打上meta,咱們的目標(biāo)實(shí)現(xiàn)了一半(減少入集市的時(shí)間);還有另外一半(加快集市查詢),需要通過(guò)meta的使用,也就是文件過(guò)濾來(lái)實(shí)現(xiàn)。
總結(jié)
以上是生活随笔為你收集整理的BI工具升级动态增量新功能,让大数据量入集市更便捷的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 2021年网购大数据:哪些品类坑最多?什
- 下一篇: 全国各省“光棍”排名,数据揭秘哪里脱单最