数据分析 - 基础原理 之 第三章:数据质量管理 - 第二节:数据生命周期
前言
數據生命周期 網上有許多版本,各行各業的、各類應用場景的;下面是個人認為比較好的兩篇介紹,望匆噴,若有推薦請留言,不勝感激。
1.數據全生命周期管理模型
請參考原創:https://www.zhihu.com/question/393978073
特點是包含10多種數據生命周期模型,涉及多個行業或研究主題方向,以下給出其中一版 —?一般科學模型。
一般科學模型
通用科學模型由科學機構提供,用于管理科學數字數據。此模型可用于管理用于存檔或處理數據的數據收集方法。
通用科學數據模型將計劃、收集、集成和轉換、發布、發現和通知以及存檔或丟棄作為生命周期的六個階段。這個模型,如圖7所示,可以用數據管理計劃使用的特定技術來預測下一組數據采集。
研究結論:此模型不是整個數據生命周期的綜合模型,因為它是專門為數據存檔和處理而設計的。該模型不關心數據分析、數據安全和數據質量。
?
2.數據全周期管理
請參考原創:https://mp.weixin.qq.com/s/ovSa7Uhv5IyKzyb-l3PHaA
數據的生命周期從數據規劃開始,中間是一個包括設計、創建、處理、部署、應用、監控、存檔、銷毀這幾個階段并不斷循環的過程。企業的數據質量管理應貫穿數據生命周期的全過程,覆蓋數據標準的規劃設計、數據的建模、數據質量的監控、數據問題診斷、數據清洗、優化完善等方面。
(1)數據規劃。從企業戰略的角度不斷完善企業數據模型的規劃,把數據質量管理融入到企業戰略中,建立數據治理體系,并融入企業文化中。
(2)數據設計。推動數據標準化制定和貫徹執行,根據數據標準化要求統一建模管理,統一數據分類、數據編碼、數據存儲結構,為數據的集成、交換、共享、應用奠定基礎。
(3)數據創建。利用數據模型保證數據結構完整、一致,執行數據標準、規范數據維護過程,加入數據質量檢查,從源頭系統保證數據的正確性、完整性、唯一性。
(4)數據使用。利用元數據監控數據使用;利用數據標準保證數據正確;利用數據質量檢查加工正確。元數據提供各系統統一的數據模型進行使用,監控數據的來源去向,提供全息的數據地圖支持;企業從技術、管理、業務三個方面進行規范,嚴格執行數據標準,保證數據輸入端的正確性;數據質量提供了事前預防、事中預警、事后補救的三個方面措施,形成完整的數據治理體系。
3.個人版
由以上兩篇文章可見,數據生命周期包含的內容點繁多,以下 數據生命周期內容 是個人根據自身行業及經歷作出的總結,由于個人能力及所處行業的局限性,內容會有所偏差,也會持續優化。
(1)數據規劃設計(前期):數據源范圍(基于業務考慮)、數據質量標準(技術+業務)、數據存儲架構設計(工具平臺、存儲劃分、表及字表設計...)、應用場景考慮等
(2)數據存儲(中期):數據收集、數據清洗、數據入庫等ETL過程,還包括數據質量監控、數據庫的性能監控、日志管理、用戶管理、權限配置等
(3)數據應用(后期):即時查詢、常規報表、OLAP、數據分析、數據挖掘、BI等
(4)數據歸檔(退役):個人認為數據沒有消亡一說,更像退役,但個人更喜歡稱為數據歸檔。歸檔釋義:把文件、材料分類放進檔案保存起來。??
總結
以上是生活随笔為你收集整理的数据分析 - 基础原理 之 第三章:数据质量管理 - 第二节:数据生命周期的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: WiFi大师终极版,他来了
- 下一篇: 产品场景拆解之36氪