什么是数据、元数据、主数据和参考数据?
這是彭文華的第115篇原創(chuàng)
? ? 曾經(jīng)有段時間給甲方爸爸做項目的時候,他們看我長的顯小,喜歡挑戰(zhàn)一些問題,其中我遇到最多的就是“什么是元數(shù)據(jù)”。遇到這種問題既不能啰嗦,也不能太過于專業(yè),否則領(lǐng)導(dǎo)會不開熏。
????另外,元數(shù)據(jù)、主數(shù)據(jù)也都是數(shù)據(jù)治理的核心中的核心。今天就給大家把這幾個名詞給徹底解釋清楚。
為什么要取這么多名字?
我初入數(shù)據(jù)行業(yè)的時候也被一堆的名詞給繞暈了。什么元數(shù)據(jù)、技術(shù)元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù)、操作元數(shù)據(jù)、主數(shù)據(jù)、參考數(shù)據(jù)、事務(wù)數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、維度、度量、指標(biāo)等等等等,那時候簡直一腦門子的官司。
那時候就是劉姥姥進(jìn)大觀園,看啥都新鮮,看啥也都不懂,長期處于信息過載的狀態(tài)。那時候也沒有人幫我整理整理,自己也沒時間去系統(tǒng)性的學(xué)習(xí),只是硬著頭皮邊用邊學(xué),慢慢的加深理解。其實這些東西都是內(nèi)在關(guān)聯(lián)的。我梳理了一下,這樣看就能清楚很多了:
????我們知道,面對大量信息的時候,最好的辦法就是歸類、合并、分解,把它們用一個結(jié)構(gòu)組合起來,這樣就能很容易的理解。其實所有的數(shù)據(jù)也是一樣,我按照數(shù)據(jù)的記錄、管理和分析三個用途,對這些數(shù)據(jù)名詞進(jìn)行歸類,這樣是不是就清晰多了?
記錄類數(shù)據(jù)
什么是事務(wù)數(shù)據(jù)?
事務(wù)是數(shù)據(jù)庫的處理數(shù)據(jù)的一個單元,可以理解為一次數(shù)據(jù)庫CRUD的操作。事務(wù)數(shù)據(jù)就是記錄下數(shù)據(jù)庫操作的系統(tǒng)日志數(shù)據(jù),以及特定業(yè)務(wù)場景中,專門記錄的業(yè)務(wù)操作事務(wù)記錄的數(shù)據(jù),比如用于安全審計的系統(tǒng)登錄日志。
什么是業(yè)務(wù)數(shù)據(jù)?
業(yè)務(wù)數(shù)據(jù)就是為了完成業(yè)務(wù)流程而存儲的業(yè)務(wù)操作類數(shù)據(jù)。就是業(yè)務(wù)系統(tǒng)的絕大多數(shù)表和數(shù)據(jù)。
什么是日志數(shù)據(jù)?
早期的日志數(shù)據(jù)是屬于事務(wù)數(shù)據(jù)中的。現(xiàn)在大數(shù)據(jù)時代,用戶訪問數(shù)據(jù)變得越來越重要,所以單獨分離出來。
什么是元數(shù)據(jù)
元數(shù)據(jù)(Meta-data)是描述數(shù)據(jù)的數(shù)據(jù)。如何理解這句話?以小學(xué)課文《翠鳥》為例,?我告訴你這是一只翠鳥,如果你沒見過翠鳥,你肯定無法理解翠鳥是個什么東西。但是如果是這樣描述一下呢?
翠鳥喜歡停在水邊的葦稈上,一雙紅色的小爪子緊緊地抓住葦稈。它的顏色非常鮮艷。頭上的羽毛像橄欖色的頭巾,繡滿了翠綠色的花紋。背上的羽毛像淺綠色的外衣。腹部的羽毛像赤褐色的襯衫。它小巧玲瓏,一雙透亮靈活的眼睛下面,長著一張又尖又長的嘴。
????上文在描述翠鳥,怎么描述的呢?從這幾個方面:停在那兒、小爪子、顏色、頭上的羽毛、背上的羽毛、腹部的羽毛、體型、眼睛、嘴。
????同理,現(xiàn)在我告訴一個數(shù)字:175,你除了對175這個數(shù)字有比較確定的量化意義之外,也無法理解175具體代表了什么含義。但是如果是這樣描述一下呢?
? ? 這樣是不是就很清楚了?175的意思是:2020年統(tǒng)計的全國成年男性平均身高,該值的合理閾值是80-260cm,數(shù)據(jù)目前存在MySQL中,訪問連接是XXXX,由國家統(tǒng)計局的張三在2020年1月1日創(chuàng)建,數(shù)據(jù)目前是公開的,很安全,質(zhì)量經(jīng)過多重確認(rèn)無誤的。
????上表在描述175這個數(shù)據(jù),用了哪些描述項呢?單位、指標(biāo)、統(tǒng)計時間、統(tǒng)計范圍、合理閾值、數(shù)據(jù)庫、表、字段、接口、創(chuàng)建人、創(chuàng)建時間、數(shù)據(jù)權(quán)限、質(zhì)量等級等等。這些都是在描述175這個數(shù)據(jù)。我們把描述175這個數(shù)據(jù)的其他數(shù)據(jù)稱之為“元數(shù)據(jù)”。
????當(dāng)然,為了管理方便,我們同樣還能將上述元數(shù)據(jù)進(jìn)行歸類:
與業(yè)務(wù)規(guī)則、流程相關(guān)的描述性數(shù)據(jù),我們稱之為業(yè)務(wù)元數(shù)據(jù);
與存儲、訪問等技術(shù)底層的描述性數(shù)據(jù),我們稱之為技術(shù)元數(shù)據(jù);
與數(shù)據(jù)操作相關(guān)的描述性數(shù)據(jù),我們稱之為操作元數(shù)據(jù);
與數(shù)據(jù)管理相關(guān)的描述性數(shù)據(jù),我們稱之為管理元數(shù)據(jù)。
????元數(shù)據(jù)解決什么核心問題?
????如上所述,元數(shù)據(jù)就是為了準(zhǔn)確的描述我們擁有的所有數(shù)據(jù)。其核心的目的是降低人與數(shù)據(jù)之間的溝通成本。描述的越準(zhǔn)確,我們使用數(shù)據(jù)的成本就越低。
什么是主數(shù)據(jù)
????主數(shù)據(jù)(Master Data)就是關(guān)于業(yè)務(wù)實體的數(shù)據(jù)。主數(shù)據(jù)是關(guān)鍵業(yè)務(wù)實體的最權(quán)威、最準(zhǔn)確、價值最大的數(shù)據(jù),用于建立交易閉環(huán)。其實Master Data翻譯成“核心數(shù)據(jù)”可能會更合適,因此主數(shù)據(jù)也被成為“黃金數(shù)據(jù)”。這么說吧,其實阿里的One ID就是主數(shù)據(jù)理念的結(jié)果。
????對于CRM客戶管理系統(tǒng)來說,用戶就是主數(shù)據(jù);對于銀行來說,卡bin碼、開戶行、賬號、理財產(chǎn)品等都是主數(shù)據(jù);對于生產(chǎn)企業(yè),BOM表是主數(shù)據(jù);對于二手房平臺,房源信息是主數(shù)據(jù)。貝殼的樓盤字典就是典型的主數(shù)據(jù),他們從2008年開始建設(shè),持續(xù)了12年,投入了5、6億。
????所以我們總結(jié)一下,主數(shù)據(jù)一共有以下種類:
與人相關(guān)的:用戶、客戶、公民、病人、供應(yīng)商、學(xué)生等;
與物相關(guān)的:實體產(chǎn)品、虛擬產(chǎn)品(理財產(chǎn)品)、生產(chǎn)資料(BOM表)等;
與場相關(guān)的:地址庫、樓盤字典、POI信息等;
與規(guī)則相關(guān)的:財務(wù)的賬套等。
????在傳統(tǒng)IT企業(yè),甲方公司的主數(shù)據(jù)可以立一個千萬級的項目。國內(nèi)也有很多公司專門做主數(shù)據(jù)這個行當(dāng)。主數(shù)據(jù)的核心思想是全局唯一的標(biāo)準(zhǔn)數(shù)據(jù)。因此,主數(shù)據(jù)一般會完成以下工作:
確定核心業(yè)務(wù)環(huán)節(jié)
識別主數(shù)據(jù)
定義和維護(hù)主數(shù)據(jù)匹配規(guī)則(代碼規(guī)則、ID?Mapping)
建立及發(fā)布數(shù)據(jù)標(biāo)準(zhǔn)
主數(shù)據(jù)的后續(xù)維護(hù)及更新
什么是參考數(shù)據(jù)?
????參考數(shù)據(jù)就是碼表。
什么是維度、度量、指標(biāo)?
可以參考之前分享過的文章:
什么是全量、增量、流水、拉鏈、快照、維度、緩慢變化維、度量?
怎么理解數(shù)據(jù)分析、維度和指標(biāo)?
今天分享的就這些,擴(kuò)展閱讀:數(shù)據(jù)治理相關(guān)資料,公眾號“大數(shù)據(jù)架構(gòu)師”后臺回復(fù)“數(shù)據(jù)治理”即可下載。
配合以下文章享受更佳
下載 | 阿特拉斯聳聳肩,數(shù)據(jù)治理法力無邊~~
干貨 | 什么是數(shù)據(jù)地圖、血緣分析和數(shù)據(jù)資產(chǎn)?
干貨 | 數(shù)據(jù)資產(chǎn)化的前提-淺談數(shù)據(jù)治理體系的建設(shè)
干貨 | 樓盤字典為什么能成為貝殼的超級護(hù)城河?
下載 | 數(shù)據(jù)中臺建設(shè)方案全套資料來了~~~
我需要你的點贊,愛你喲
總結(jié)
以上是生活随笔為你收集整理的什么是数据、元数据、主数据和参考数据?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据治理--元数据--元数据的作用
- 下一篇: 数据仓库——元数据、主数据