数据生命周期管理的初步实现
這是學習筆記的第?2013?篇文章
? 最近幾天在整理數據生命周期的一些東東,也碼了幾篇文章。
開始的調研只是驗證了這個可行性,當然也是想的過于樂觀,導致在實現的時候翻車。
就好比我要榨果汁,本來是用火龍果和香蕉,最后實現的時候用的是草莓和香蕉,看上去顏色差別不大,但是口感差別很大。?
我們首先來說下生命周期能干嘛,其實對于DBA來說,最大的好處就是數據的周期管理都可以一目了然,一切都在掌握之中,言外之意就是哪些流程計劃外的變更我們都可以捕捉到,而數據也是在多維的交互中才產生了更豐富的業務含義,此外可以對整個數據環境的質量和變化可以做到整體的管理,比如我們可以通過這些數據分析得到有100張表,但是很長一段時間以來的數據變化之后20張,那么剩下的80張表就需要打個問號了。 哪些數據是冷數據,哪些是熱數據,哪些數據可能是已經不在維護的數據了,這些信息在沒有產生連鎖反應之前,是一種難以量化的狀態,但是能夠經過這種梳理和可視化的方式展示出來,從DBA的角度可以得到更加宏觀的信息,對于數據質量的改進是一種可以看得到的改進。
而對于業務同學來說,這個模塊的意義就在于可以得到一段時間以來的數據變化,我們設定一個場景,在數據流轉中,源頭是不需要關注目標端的數據消費情況的,那么如果上游的結構發生了變化,對于下游是很難以感知的,最直接的感知就是報錯,而如果更加平滑一下,我們可以通過訂閱或者指定的API來承接,讓這個變化能夠成為流程化的操作。?
如下是一個初步的頁面實現,我來簡單解釋一下,在這個基礎上,我也整理了10多個改進的方案和建議。
左上角的圖是DDL的次數,可以標識出整個實例的DDL變化情況,而接下來的那個圖是一個數據的熱度趨勢圖,比如數據庫中有100張表,我們每隔30分鐘抓取一個快照,如果有20張在快照抓取過程中始終出現,那么我們可以標記數據庫的熱度為20%。如果一個業務長期處于1%以下或者為0,我們可以基本斷定是一個僵尸業務。
中間的表格是熱度表的榜單,我們把熱度最高的表整理出來(基于DML的變化頻率),對熱度打上標識,這樣就可以明確的看到熱度的一個整體分布了。右邊的餅圖需要持續調整,目前的設想是出現一個數據庫畫像,即把數據庫的對象分布通過餅圖展示出來。
對于每一條數據變化,我們都可以下鉆,得到更加詳細有效的信息。比如表結構信息和軌跡變化等。
總結
以上是生活随笔為你收集整理的数据生命周期管理的初步实现的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: NRF51822开发笔记-5.nRF51
- 下一篇: 今天牛顿忌日:他留下了什么手稿 | 直播