日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

浅谈数据治理

發布時間:2023/12/18 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 浅谈数据治理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

  • 01 引言
  • 02 為何需要數據治理?
    • 2.1 數據治理定義
    • 2.2 何為數據治理?
  • 03 數據治理設計
    • 3.1 數據規則
      • 3.1.1 標準
      • 3.1.2 模型
    • 3.2 數據處理中間層
      • 3.2.1 元數據
      • 3.2.2 主數據
    • 3.3 數據共享
  • 04 文末

01 引言

在之前的一篇博客《細談數據倉庫》我大致講解了為何需要數據倉庫?數據倉庫的概念以及分層等。與數據倉庫緊密相關聯的概念就是 “數據治理” 了,也就是本文要講的內容。

在講解數據治理前,需要了解一下相關的概念,這里先貼出來 (可以先跳過):

  • 元數據(Metadata ):描述數據的數據或關于數據的結構化數據,比如“年齡:18歲”,年齡是一種屬性,用來描述具體的“值”的,而這種屬性的信息就叫元數據;
  • 主數據(Master Data):企業內需要在多個部門、多個信息系統之間共享的數據,如客戶、供應商、組織、人員、項目、物料等;
  • 資源目錄:資源目錄指在數據庫表基礎上建立的,用于對內部系統或對外部應用共享的數據資源清單;
  • 數據模型:數據模型是通過對元數據表描述信息、字段描述信息等元數據的定義,來抽象建立元數據實體表邏輯和物理模型;
  • 血緣分析:是保證數據融合(聚合)的一個手段,通過血緣分析實現數據融合處理的可追溯;

02 為何需要數據治理?

2.1 數據治理定義

網上對數據治理的定義褒貶不一,而我理解的數據治理就是:“處理高質量的數據,以便于高層做正確的決策”!

2.2 何為數據治理?

首先我們需要明白為何數據需要治理?下面來舉個例子:

假設一家公司下有很多家子公司,每家子公司都有一個財務部門,每個財務部門都有一個財務系統,財務數據都存入他們的數據庫。何時有一個問題來了,年底了,總公司的高層需要知道每年的年度報表,需要知道公司的盈利情況,那么如何解決呢?

針對上述問題,我們會很自然的想到一個方案,那就設計一個類似于 “ 數據中臺 ” 的系統,也就是把每個子公司的財務系統數據庫里的數據,匯聚(即ETL)到我們數據中臺通過數據建模定義“數據倉庫表”里面去,這樣我們就能看到每個子公司財務系統里面的數據了,減少了多個子公司數據庫的連庫表查詢,可以看到,這是十分方便和高效的。但是,這會有一個問題,因為高層不熟悉我們的系統,他們往往希望看到他們期望的東西,例如盈利的趨勢,走向等,那該如何解決呢?其實這也就是我們講數據治理的核心,即“質量”。

考過 PMP的都知道有個鐵三角,即“成本、效率、質量”,這三者同時保障是很困難的,但是有了 “數據治理” 我們可以提高“效率”(如前面講的“數據中臺設計數據倉庫表”),再提高“質量”,進行了數據治理之后方便高層做出決策,進而減少“成本”。

如何保證質量?這個時候就需要我們設計一個高質量的模型了,這個模型需要我們結合財務高手一起來設計,設計的前提是我們財務的基礎數據(即每個子公司的財務系統數據),協同財務高手的主要目的是他們的經驗(因為技術不懂財務知識)。假如他們有一套財務公式可以預測盈利的走勢,那么,我們可以使用到我們的 “數據中臺” 系統通過模型設計把這套財務公式應用進來,進而保證了“質量”。

再回顧之前開頭說的一句話:“數據治理就是處理高質量的數據,以便于高層做正確的決策!”,通過上面的例子,是不是對“數據治理”這個概念有所理解了呢?如果還不是很清晰,可以繼續往下閱讀。

03 數據治理設計

先貼出一張設計圖:


這是我自己畫的一張關于“數據治理的設計圖”,可以看到我把它分為了三層,分別為:“數據規則層”、“數據處理中間層”、“數據共享層”。

3.1 數據規則

3.1.1 標準

在數據治理之前,我們必須定義“標準”,這些標準都是大家公認的,比如:“國家標準”、“行業標準”、“地區標準”等。這些標準我們可以在網站里看到:http://std.samr.gov.cn/gb/

所以我們定義標準前,必須是按照全國的標準才是最規范的,例如:1表示男,2表示女等。

3.1.2 模型

這里的模型主要指的是 “元模型” 的設計,比如我們期望的數據在我們的數據倉庫里面存儲的規則是怎樣的?例如:有哪些字段?每個字段能存什么類型?每個字段能存的值有哪些等等?

3.2 數據處理中間層

在前面,我們已經有了一個“標準”以及“模型”,那么我們可以設計數據屬性了,也就是數據處理中間層要做的事情。

3.2.1 元數據

元數據(Metadata ):描述數據的數據或關于數據的結構化數據,比如“年齡:18歲”,年齡是一種屬性,用來描述具體的“值”的,而這種屬性的信息就叫元數據;

可以說 “元數據” 是前面說的 “模型” 來定義的,這里定義的元數據,就是我們期望的 “未來存入數據定義” ,例如:這里定義了MySQL的某張表的數據(列字段,列信息、列長度等)。

還可以理解 “元數據”對應的 “實際數據” 就是ods層的數據。

數據從源表拉過來,進行etl,比如mysql映射到hive,那么到了hive里面就是ods層,但是,這一層面的數據卻不等同于原始數據,為我們定義表的數據。

3.2.2 主數據

主數據(Master Data):企業內需要在多個部門、多個信息系統之間共享的數據,如客戶、供應商、組織、人員、項目、物料等;

我理解的 “主數據”,就是“元數據”的一種抽取。我們都知道“元數據”都是為了方便高效的去整理和處理數據,只能說從程序中優化了來自各系統的數據,并把它們規范存儲起來,但是這些數據不能保證 “質量” 的,如果保證到了“質量”,這個數據就是“主數據”了。

主數據就是有價值的的數據,例如:這些數據可以跨部門共享的,如OA打卡數據,每個部門都需要用到。

3.3 數據共享

我把設計圖的最后一層定義為 “數據共享層”,根據意思,就是把上一層的數據共享出去,可以通過“開發API”等技術共享出去,當然這些數據共享是需要通過逐層審批的,不能隨意的共享出去,因為這些數據已經是 “有價值” 的了,具體怎么申請,是否需要充值,這個企業的業務需求了。

04 文末

其實最后還有一層是 “安全”,做任何的系統都是需要保障安全,具體的安全規則如何定義?這里就不再多說了。

本文通過個人的理解,使用淺顯的話來描述了“數據治理”,難免里面有不正確的看法,有疑問的童鞋歡迎留下評論。

總結

以上是生活随笔為你收集整理的浅谈数据治理的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。