當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

浅谈数据治理

發(fā)布時(shí)間：2023/12/18 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了浅谈数据治理小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

01 引言
02 為何需要數(shù)據(jù)治理？
- 2.1 數(shù)據(jù)治理定義
- 2.2 何為數(shù)據(jù)治理？
03 數(shù)據(jù)治理設(shè)計(jì)
- 3.1 數(shù)據(jù)規(guī)則
- - 3.1.1 標(biāo)準(zhǔn)
  - 3.1.2 模型
- 3.2 數(shù)據(jù)處理中間層
- - 3.2.1 元數(shù)據(jù)
  - 3.2.2 主數(shù)據(jù)
- 3.3 數(shù)據(jù)共享
04 文末

01 引言

在之前的一篇博客《細(xì)談數(shù)據(jù)倉(cāng)庫(kù)》我大致講解了為何需要數(shù)據(jù)倉(cāng)庫(kù)？數(shù)據(jù)倉(cāng)庫(kù)的概念以及分層等。與數(shù)據(jù)倉(cāng)庫(kù)緊密相關(guān)聯(lián)的概念就是 “數(shù)據(jù)治理” 了,也就是本文要講的內(nèi)容。

在講解數(shù)據(jù)治理前，需要了解一下相關(guān)的概念，這里先貼出來(lái) （可以先跳過(guò)）：

元數(shù)據(jù)（Metadata ）：描述數(shù)據(jù)的數(shù)據(jù)或關(guān)于數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù)，比如“年齡：18歲”，年齡是一種屬性，用來(lái)描述具體的“值”的，而這種屬性的信息就叫元數(shù)據(jù)；
主數(shù)據(jù)（Master Data）：企業(yè)內(nèi)需要在多個(gè)部門(mén)、多個(gè)信息系統(tǒng)之間共享的數(shù)據(jù)，如客戶、供應(yīng)商、組織、人員、項(xiàng)目、物料等；
資源目錄：資源目錄指在數(shù)據(jù)庫(kù)表基礎(chǔ)上建立的，用于對(duì)內(nèi)部系統(tǒng)或?qū)ν獠繎?yīng)用共享的數(shù)據(jù)資源清單；
數(shù)據(jù)模型：數(shù)據(jù)模型是通過(guò)對(duì)元數(shù)據(jù)表描述信息、字段描述信息等元數(shù)據(jù)的定義，來(lái)抽象建立元數(shù)據(jù)實(shí)體表邏輯和物理模型；
血緣分析：是保證數(shù)據(jù)融合（聚合）的一個(gè)手段，通過(guò)血緣分析實(shí)現(xiàn)數(shù)據(jù)融合處理的可追溯；

02 為何需要數(shù)據(jù)治理？

2.1 數(shù)據(jù)治理定義

網(wǎng)上對(duì)數(shù)據(jù)治理的定義褒貶不一，而我理解的數(shù)據(jù)治理就是：“處理高質(zhì)量的數(shù)據(jù)，以便于高層做正確的決策”！

2.2 何為數(shù)據(jù)治理？

首先我們需要明白為何數(shù)據(jù)需要治理？下面來(lái)舉個(gè)例子：

假設(shè)一家公司下有很多家子公司，每家子公司都有一個(gè)財(cái)務(wù)部門(mén)，每個(gè)財(cái)務(wù)部門(mén)都有一個(gè)財(cái)務(wù)系統(tǒng)，財(cái)務(wù)數(shù)據(jù)都存入他們的數(shù)據(jù)庫(kù)。何時(shí)有一個(gè)問(wèn)題來(lái)了，年底了，總公司的高層需要知道每年的年度報(bào)表，需要知道公司的盈利情況，那么如何解決呢？

針對(duì)上述問(wèn)題，我們會(huì)很自然的想到一個(gè)方案，那就設(shè)計(jì)一個(gè)類(lèi)似于 “ 數(shù)據(jù)中臺(tái) ” 的系統(tǒng)，也就是把每個(gè)子公司的財(cái)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)里的數(shù)據(jù)，匯聚（即ETL）到我們數(shù)據(jù)中臺(tái)通過(guò)數(shù)據(jù)建模定義“數(shù)據(jù)倉(cāng)庫(kù)表”里面去，這樣我們就能看到每個(gè)子公司財(cái)務(wù)系統(tǒng)里面的數(shù)據(jù)了，減少了多個(gè)子公司數(shù)據(jù)庫(kù)的連庫(kù)表查詢，可以看到，這是十分方便和高效的。但是，這會(huì)有一個(gè)問(wèn)題，因?yàn)楦邔硬皇煜の覀兊南到y(tǒng)，他們往往希望看到他們期望的東西，例如盈利的趨勢(shì)，走向等，那該如何解決呢？其實(shí)這也就是我們講數(shù)據(jù)治理的核心，即“質(zhì)量”。

考過(guò) PMP的都知道有個(gè)鐵三角，即“成本、效率、質(zhì)量”，這三者同時(shí)保障是很困難的，但是有了 “數(shù)據(jù)治理” 我們可以提高“效率”（如前面講的“數(shù)據(jù)中臺(tái)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)表”），再提高“質(zhì)量”，進(jìn)行了數(shù)據(jù)治理之后方便高層做出決策，進(jìn)而減少“成本”。

如何保證質(zhì)量？這個(gè)時(shí)候就需要我們?cè)O(shè)計(jì)一個(gè)高質(zhì)量的模型了，這個(gè)模型需要我們結(jié)合財(cái)務(wù)高手一起來(lái)設(shè)計(jì)，設(shè)計(jì)的前提是我們財(cái)務(wù)的基礎(chǔ)數(shù)據(jù)（即每個(gè)子公司的財(cái)務(wù)系統(tǒng)數(shù)據(jù)），協(xié)同財(cái)務(wù)高手的主要目的是他們的經(jīng)驗(yàn)（因?yàn)榧夹g(shù)不懂財(cái)務(wù)知識(shí)）。假如他們有一套財(cái)務(wù)公式可以預(yù)測(cè)盈利的走勢(shì)，那么，我們可以使用到我們的 “數(shù)據(jù)中臺(tái)” 系統(tǒng)通過(guò)模型設(shè)計(jì)把這套財(cái)務(wù)公式應(yīng)用進(jìn)來(lái)，進(jìn)而保證了“質(zhì)量”。

再回顧之前開(kāi)頭說(shuō)的一句話：“數(shù)據(jù)治理就是處理高質(zhì)量的數(shù)據(jù)，以便于高層做正確的決策！”，通過(guò)上面的例子，是不是對(duì)“數(shù)據(jù)治理”這個(gè)概念有所理解了呢？如果還不是很清晰，可以繼續(xù)往下閱讀。

03 數(shù)據(jù)治理設(shè)計(jì)

先貼出一張?jiān)O(shè)計(jì)圖：

這是我自己畫(huà)的一張關(guān)于“數(shù)據(jù)治理的設(shè)計(jì)圖”，可以看到我把它分為了三層，分別為：“數(shù)據(jù)規(guī)則層”、“數(shù)據(jù)處理中間層”、“數(shù)據(jù)共享層”。

3.1 數(shù)據(jù)規(guī)則

3.1.1 標(biāo)準(zhǔn)

在數(shù)據(jù)治理之前，我們必須定義“標(biāo)準(zhǔn)”，這些標(biāo)準(zhǔn)都是大家公認(rèn)的，比如：“國(guó)家標(biāo)準(zhǔn)”、“行業(yè)標(biāo)準(zhǔn)”、“地區(qū)標(biāo)準(zhǔn)”等。這些標(biāo)準(zhǔn)我們可以在網(wǎng)站里看到：http://std.samr.gov.cn/gb/

所以我們定義標(biāo)準(zhǔn)前，必須是按照全國(guó)的標(biāo)準(zhǔn)才是最規(guī)范的，例如：1表示男，2表示女等。

3.1.2 模型

這里的模型主要指的是 “元模型” 的設(shè)計(jì)，比如我們期望的數(shù)據(jù)在我們的數(shù)據(jù)倉(cāng)庫(kù)里面存儲(chǔ)的規(guī)則是怎樣的？例如：有哪些字段？每個(gè)字段能存什么類(lèi)型？每個(gè)字段能存的值有哪些等等？

3.2 數(shù)據(jù)處理中間層

在前面，我們已經(jīng)有了一個(gè)“標(biāo)準(zhǔn)”以及“模型”，那么我們可以設(shè)計(jì)數(shù)據(jù)屬性了，也就是數(shù)據(jù)處理中間層要做的事情。

3.2.1 元數(shù)據(jù)

元數(shù)據(jù)（Metadata ）：描述數(shù)據(jù)的數(shù)據(jù)或關(guān)于數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù)，比如“年齡：18歲”，年齡是一種屬性，用來(lái)描述具體的“值”的，而這種屬性的信息就叫元數(shù)據(jù)；

可以說(shuō) “元數(shù)據(jù)” 是前面說(shuō)的 “模型” 來(lái)定義的，這里定義的元數(shù)據(jù)，就是我們期望的 “未來(lái)存入數(shù)據(jù)定義” ，例如：這里定義了MySQL的某張表的數(shù)據(jù)（列字段，列信息、列長(zhǎng)度等）。

還可以理解 “元數(shù)據(jù)”對(duì)應(yīng)的 “實(shí)際數(shù)據(jù)” 就是ods層的數(shù)據(jù)。

數(shù)據(jù)從源表拉過(guò)來(lái)，進(jìn)行etl，比如mysql映射到hive，那么到了hive里面就是ods層，但是，這一層面的數(shù)據(jù)卻不等同于原始數(shù)據(jù)，為我們定義表的數(shù)據(jù)。

3.2.2 主數(shù)據(jù)

主數(shù)據(jù)（Master Data）：企業(yè)內(nèi)需要在多個(gè)部門(mén)、多個(gè)信息系統(tǒng)之間共享的數(shù)據(jù)，如客戶、供應(yīng)商、組織、人員、項(xiàng)目、物料等；

我理解的 “主數(shù)據(jù)”，就是“元數(shù)據(jù)”的一種抽取。我們都知道“元數(shù)據(jù)”都是為了方便高效的去整理和處理數(shù)據(jù)，只能說(shuō)從程序中優(yōu)化了來(lái)自各系統(tǒng)的數(shù)據(jù)，并把它們規(guī)范存儲(chǔ)起來(lái)，但是這些數(shù)據(jù)不能保證 “質(zhì)量” 的，如果保證到了“質(zhì)量”，這個(gè)數(shù)據(jù)就是“主數(shù)據(jù)”了。

主數(shù)據(jù)就是有價(jià)值的的數(shù)據(jù)，例如：這些數(shù)據(jù)可以跨部門(mén)共享的，如OA打卡數(shù)據(jù)，每個(gè)部門(mén)都需要用到。

3.3 數(shù)據(jù)共享

我把設(shè)計(jì)圖的最后一層定義為 “數(shù)據(jù)共享層”，根據(jù)意思，就是把上一層的數(shù)據(jù)共享出去，可以通過(guò)“開(kāi)發(fā)API”等技術(shù)共享出去，當(dāng)然這些數(shù)據(jù)共享是需要通過(guò)逐層審批的，不能隨意的共享出去，因?yàn)檫@些數(shù)據(jù)已經(jīng)是 “有價(jià)值” 的了，具體怎么申請(qǐng)，是否需要充值，這個(gè)企業(yè)的業(yè)務(wù)需求了。

04 文末

其實(shí)最后還有一層是 “安全”，做任何的系統(tǒng)都是需要保障安全，具體的安全規(guī)則如何定義？這里就不再多說(shuō)了。

本文通過(guò)個(gè)人的理解，使用淺顯的話來(lái)描述了“數(shù)據(jù)治理”，難免里面有不正確的看法，有疑問(wèn)的童鞋歡迎留下評(píng)論。

總結(jié)

以上是生活随笔為你收集整理的浅谈数据治理的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Topcoder EllysBottle
下一篇：百度迟到移动互联网：寻入口级产品文化成