浅谈数据治理
文章目錄
- 01 引言
- 02 為何需要數(shù)據(jù)治理?
- 2.1 數(shù)據(jù)治理定義
- 2.2 何為數(shù)據(jù)治理?
- 03 數(shù)據(jù)治理設(shè)計(jì)
- 3.1 數(shù)據(jù)規(guī)則
- 3.1.1 標(biāo)準(zhǔn)
- 3.1.2 模型
- 3.2 數(shù)據(jù)處理中間層
- 3.2.1 元數(shù)據(jù)
- 3.2.2 主數(shù)據(jù)
- 3.3 數(shù)據(jù)共享
- 04 文末
01 引言
在之前的一篇博客《細(xì)談數(shù)據(jù)倉(cāng)庫(kù)》我大致講解了為何需要數(shù)據(jù)倉(cāng)庫(kù)?數(shù)據(jù)倉(cāng)庫(kù)的概念以及分層等。與數(shù)據(jù)倉(cāng)庫(kù)緊密相關(guān)聯(lián)的概念就是 “數(shù)據(jù)治理” 了,也就是本文要講的內(nèi)容。
在講解數(shù)據(jù)治理前,需要了解一下相關(guān)的概念,這里先貼出來(lái) (可以先跳過(guò)):
- 元數(shù)據(jù)(Metadata ):描述數(shù)據(jù)的數(shù)據(jù)或關(guān)于數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù),比如“年齡:18歲”,年齡是一種屬性,用來(lái)描述具體的“值”的,而這種屬性的信息就叫元數(shù)據(jù);
- 主數(shù)據(jù)(Master Data):企業(yè)內(nèi)需要在多個(gè)部門(mén)、多個(gè)信息系統(tǒng)之間共享的數(shù)據(jù),如客戶、供應(yīng)商、組織、人員、項(xiàng)目、物料等;
- 資源目錄:資源目錄指在數(shù)據(jù)庫(kù)表基礎(chǔ)上建立的,用于對(duì)內(nèi)部系統(tǒng)或?qū)ν獠繎?yīng)用共享的數(shù)據(jù)資源清單;
- 數(shù)據(jù)模型:數(shù)據(jù)模型是通過(guò)對(duì)元數(shù)據(jù)表描述信息、字段描述信息等元數(shù)據(jù)的定義,來(lái)抽象建立元數(shù)據(jù)實(shí)體表邏輯和物理模型;
- 血緣分析:是保證數(shù)據(jù)融合(聚合)的一個(gè)手段,通過(guò)血緣分析實(shí)現(xiàn)數(shù)據(jù)融合處理的可追溯;
02 為何需要數(shù)據(jù)治理?
2.1 數(shù)據(jù)治理定義
網(wǎng)上對(duì)數(shù)據(jù)治理的定義褒貶不一,而我理解的數(shù)據(jù)治理就是:“處理高質(zhì)量的數(shù)據(jù),以便于高層做正確的決策”!
2.2 何為數(shù)據(jù)治理?
首先我們需要明白為何數(shù)據(jù)需要治理?下面來(lái)舉個(gè)例子:
假設(shè)一家公司下有很多家子公司,每家子公司都有一個(gè)財(cái)務(wù)部門(mén),每個(gè)財(cái)務(wù)部門(mén)都有一個(gè)財(cái)務(wù)系統(tǒng),財(cái)務(wù)數(shù)據(jù)都存入他們的數(shù)據(jù)庫(kù)。何時(shí)有一個(gè)問(wèn)題來(lái)了,年底了,總公司的高層需要知道每年的年度報(bào)表,需要知道公司的盈利情況,那么如何解決呢?
針對(duì)上述問(wèn)題,我們會(huì)很自然的想到一個(gè)方案,那就設(shè)計(jì)一個(gè)類(lèi)似于 “ 數(shù)據(jù)中臺(tái) ” 的系統(tǒng),也就是把每個(gè)子公司的財(cái)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)里的數(shù)據(jù),匯聚(即ETL)到我們數(shù)據(jù)中臺(tái)通過(guò)數(shù)據(jù)建模定義“數(shù)據(jù)倉(cāng)庫(kù)表”里面去,這樣我們就能看到每個(gè)子公司財(cái)務(wù)系統(tǒng)里面的數(shù)據(jù)了,減少了多個(gè)子公司數(shù)據(jù)庫(kù)的連庫(kù)表查詢,可以看到,這是十分方便和高效的。但是,這會(huì)有一個(gè)問(wèn)題,因?yàn)楦邔硬皇煜の覀兊南到y(tǒng),他們往往希望看到他們期望的東西,例如盈利的趨勢(shì),走向等,那該如何解決呢?其實(shí)這也就是我們講數(shù)據(jù)治理的核心,即“質(zhì)量”。
考過(guò) PMP的都知道有個(gè)鐵三角,即“成本、效率、質(zhì)量”,這三者同時(shí)保障是很困難的,但是有了 “數(shù)據(jù)治理” 我們可以提高“效率”(如前面講的“數(shù)據(jù)中臺(tái)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)表”),再提高“質(zhì)量”,進(jìn)行了數(shù)據(jù)治理之后方便高層做出決策,進(jìn)而減少“成本”。
如何保證質(zhì)量?這個(gè)時(shí)候就需要我們?cè)O(shè)計(jì)一個(gè)高質(zhì)量的模型了,這個(gè)模型需要我們結(jié)合財(cái)務(wù)高手一起來(lái)設(shè)計(jì),設(shè)計(jì)的前提是我們財(cái)務(wù)的基礎(chǔ)數(shù)據(jù)(即每個(gè)子公司的財(cái)務(wù)系統(tǒng)數(shù)據(jù)),協(xié)同財(cái)務(wù)高手的主要目的是他們的經(jīng)驗(yàn)(因?yàn)榧夹g(shù)不懂財(cái)務(wù)知識(shí))。假如他們有一套財(cái)務(wù)公式可以預(yù)測(cè)盈利的走勢(shì),那么,我們可以使用到我們的 “數(shù)據(jù)中臺(tái)” 系統(tǒng)通過(guò)模型設(shè)計(jì)把這套財(cái)務(wù)公式應(yīng)用進(jìn)來(lái),進(jìn)而保證了“質(zhì)量”。
再回顧之前開(kāi)頭說(shuō)的一句話:“數(shù)據(jù)治理就是處理高質(zhì)量的數(shù)據(jù),以便于高層做正確的決策!”,通過(guò)上面的例子,是不是對(duì)“數(shù)據(jù)治理”這個(gè)概念有所理解了呢?如果還不是很清晰,可以繼續(xù)往下閱讀。
03 數(shù)據(jù)治理設(shè)計(jì)
先貼出一張?jiān)O(shè)計(jì)圖:
這是我自己畫(huà)的一張關(guān)于“數(shù)據(jù)治理的設(shè)計(jì)圖”,可以看到我把它分為了三層,分別為:“數(shù)據(jù)規(guī)則層”、“數(shù)據(jù)處理中間層”、“數(shù)據(jù)共享層”。
3.1 數(shù)據(jù)規(guī)則
3.1.1 標(biāo)準(zhǔn)
在數(shù)據(jù)治理之前,我們必須定義“標(biāo)準(zhǔn)”,這些標(biāo)準(zhǔn)都是大家公認(rèn)的,比如:“國(guó)家標(biāo)準(zhǔn)”、“行業(yè)標(biāo)準(zhǔn)”、“地區(qū)標(biāo)準(zhǔn)”等。這些標(biāo)準(zhǔn)我們可以在網(wǎng)站里看到:http://std.samr.gov.cn/gb/
所以我們定義標(biāo)準(zhǔn)前,必須是按照全國(guó)的標(biāo)準(zhǔn)才是最規(guī)范的,例如:1表示男,2表示女等。
3.1.2 模型
這里的模型主要指的是 “元模型” 的設(shè)計(jì),比如我們期望的數(shù)據(jù)在我們的數(shù)據(jù)倉(cāng)庫(kù)里面存儲(chǔ)的規(guī)則是怎樣的?例如:有哪些字段?每個(gè)字段能存什么類(lèi)型?每個(gè)字段能存的值有哪些等等?
3.2 數(shù)據(jù)處理中間層
在前面,我們已經(jīng)有了一個(gè)“標(biāo)準(zhǔn)”以及“模型”,那么我們可以設(shè)計(jì)數(shù)據(jù)屬性了,也就是數(shù)據(jù)處理中間層要做的事情。
3.2.1 元數(shù)據(jù)
元數(shù)據(jù)(Metadata ):描述數(shù)據(jù)的數(shù)據(jù)或關(guān)于數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù),比如“年齡:18歲”,年齡是一種屬性,用來(lái)描述具體的“值”的,而這種屬性的信息就叫元數(shù)據(jù);
可以說(shuō) “元數(shù)據(jù)” 是前面說(shuō)的 “模型” 來(lái)定義的,這里定義的元數(shù)據(jù),就是我們期望的 “未來(lái)存入數(shù)據(jù)定義” ,例如:這里定義了MySQL的某張表的數(shù)據(jù)(列字段,列信息、列長(zhǎng)度等)。
還可以理解 “元數(shù)據(jù)”對(duì)應(yīng)的 “實(shí)際數(shù)據(jù)” 就是ods層的數(shù)據(jù)。
數(shù)據(jù)從源表拉過(guò)來(lái),進(jìn)行etl,比如mysql映射到hive,那么到了hive里面就是ods層,但是,這一層面的數(shù)據(jù)卻不等同于原始數(shù)據(jù),為我們定義表的數(shù)據(jù)。
3.2.2 主數(shù)據(jù)
主數(shù)據(jù)(Master Data):企業(yè)內(nèi)需要在多個(gè)部門(mén)、多個(gè)信息系統(tǒng)之間共享的數(shù)據(jù),如客戶、供應(yīng)商、組織、人員、項(xiàng)目、物料等;
我理解的 “主數(shù)據(jù)”,就是“元數(shù)據(jù)”的一種抽取。我們都知道“元數(shù)據(jù)”都是為了方便高效的去整理和處理數(shù)據(jù),只能說(shuō)從程序中優(yōu)化了來(lái)自各系統(tǒng)的數(shù)據(jù),并把它們規(guī)范存儲(chǔ)起來(lái),但是這些數(shù)據(jù)不能保證 “質(zhì)量” 的,如果保證到了“質(zhì)量”,這個(gè)數(shù)據(jù)就是“主數(shù)據(jù)”了。
主數(shù)據(jù)就是有價(jià)值的的數(shù)據(jù),例如:這些數(shù)據(jù)可以跨部門(mén)共享的,如OA打卡數(shù)據(jù),每個(gè)部門(mén)都需要用到。
3.3 數(shù)據(jù)共享
我把設(shè)計(jì)圖的最后一層定義為 “數(shù)據(jù)共享層”,根據(jù)意思,就是把上一層的數(shù)據(jù)共享出去,可以通過(guò)“開(kāi)發(fā)API”等技術(shù)共享出去,當(dāng)然這些數(shù)據(jù)共享是需要通過(guò)逐層審批的,不能隨意的共享出去,因?yàn)檫@些數(shù)據(jù)已經(jīng)是 “有價(jià)值” 的了,具體怎么申請(qǐng),是否需要充值,這個(gè)企業(yè)的業(yè)務(wù)需求了。
04 文末
其實(shí)最后還有一層是 “安全”,做任何的系統(tǒng)都是需要保障安全,具體的安全規(guī)則如何定義?這里就不再多說(shuō)了。
本文通過(guò)個(gè)人的理解,使用淺顯的話來(lái)描述了“數(shù)據(jù)治理”,難免里面有不正確的看法,有疑問(wèn)的童鞋歡迎留下評(píng)論。
總結(jié)
- 上一篇: Topcoder EllysBottle
- 下一篇: 百度迟到移动互联网:寻入口级产品 文化成