日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数仓架构--之数据拉链表实操

發布時間:2023/12/20 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数仓架构--之数据拉链表实操 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數倉架構--之數據拉鏈表

  • 不登高山不知天之高也,不臨深溪不知地之厚也
    • 拉鏈表定義
    • 拉鏈表特征
    • 拉鏈表加工
      • 重跑機制
      • 邏輯加工
    • 全量拉鏈和增量拉鏈
    • 全增量問題
      • 全量拉鏈的全增量問題
      • 增量拉鏈的全增量問題
    • 結尾

不登高山不知天之高也,不臨深溪不知地之厚也

一句話道出求知的路勁,要想知道這個東西難不難只有去行動,去攀登。接下來在這里比較簡單的講講數倉中的拉鏈表

拉鏈表作為處理歷史數據的非常常用的表,掌握拉鏈表可以說掌握了數倉開發的核心,廢話不多說,直接進入正題。

拉鏈表定義

可參考百度不詳細說明,主要是記錄某些數據特征在某一段時間內持續的狀態

拉鏈表特征

  • 開始時間和結束時間兩個字段;
  • 需要生成1-2個標志全表字段的字段,根據該字段進行數據變化的判斷,如:MD5_FILED(存主鍵)和NON_MD5_FIELD(存主鍵以外的必要業務字段);
    MD5生成可以如下:select listagg(to_char(column_name)) from user_table_columns left join user_cons_columns on t2.position is not null where columnname not in (技術字段)
  • 主鍵 業務主鍵和開始時間;
  • 輔助字段,跑批時間、跑批字段、跑批批次等
  • 拉鏈表加工

    重跑機制

  • 刪除當前批次之后開鏈的數據
  • delete from 表 where start_date >=batch_date and jobname = '123'
  • 回退閉鏈的數據
  • update 表 set end_date = date'29991231',load_date = sysdate,del_flag = '未刪除狀態'where end_date>= batch_date and end_date <> date'29991231'and jobname = '123'

    邏輯加工

  • 增量數據插入臨時表(邏輯加工階段)
  • 更新臨時表加密字段(fn_md5()函數加密成32位,char類型)
  • update 表 set md5_field = fn_md5()
  • 刪除臨時表沒有變化的數據
  • delete from 臨時表 t where t.del_flag = '未刪除標示符' and exists(select 1from 表 tt where tt.md5 = t.md5 and tt.startdate <= batchdate and tt.enddate > batchdate)
  • 閉鏈刪除的數據
  • update 表 tt set enddate =batchdate,loaddate = sysdate,delflag=‘刪除’where exists(select 1 from 臨時表 t where delflag=‘刪除’ tt.主鍵= t.主鍵)and tt.startdate <= batchdate and tt.enddate > batchdate)
  • 閉鏈修改的數據
  • merge into 表 ttusing(select * from 臨時表 t delflag =‘未刪除’)ton(t.主鍵 = tt.主鍵)when matched then update set enddate =batchdate,loaddate = sysdate
  • 開鏈新增和修改的數據
  • insert into 表 select * from 臨時表 where delflag = ‘未刪除’

    全量拉鏈和增量拉鏈

  • 增量拉鏈的方式只在加工的時候限制當天數據即可
  • 全量拉鏈則不需要限制
  • 在這里需要注意全增量的問題
  • 全增量問題

    全量拉鏈的全增量問題

    當主表是全量,而關聯表用增量的時候,當有該表字段用來加工目標數據的時候是有問題的,需要注意
    解決方式*關聯表也用全量

    增量拉鏈的全增量問題

    當有多個關聯表,且使用關聯表加工目標表字段的時候,有些主表沒有變動,但是關聯表有變動,這種時候就需要注意保證變化的數據要是全量的。
    解決方式: 可以創建一個臨時表,多個表的主鍵union生成目標表的主鍵

    結尾

    本篇文章主要講以上內容,未盡事項評論區見

    總結

    以上是生活随笔為你收集整理的数仓架构--之数据拉链表实操的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。