日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

顶级公司在做数据挖掘,却忽略了数据管理平台,这个知识不得不看

發(fā)布時間:2025/3/15 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 顶级公司在做数据挖掘,却忽略了数据管理平台,这个知识不得不看 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

一、文章概述

隨著大數(shù)據(jù)業(yè)務(wù)的不斷開展,各大互聯(lián)網(wǎng)公司都非常重視數(shù)據(jù)價值的挖掘。

在公司的日常運行中,各種數(shù)據(jù)分析挖掘技術(shù),為公司發(fā)展決策和業(yè)務(wù)開展提供數(shù)據(jù)支持。作者所在的公司內(nèi)部也形成了一套完善的數(shù)據(jù)治理方案,核心就是由大數(shù)據(jù)平臺+數(shù)據(jù)倉庫+數(shù)據(jù)治理平臺+數(shù)據(jù)監(jiān)控平臺來實現(xiàn)數(shù)據(jù)治理。

?

  • 大數(shù)據(jù)平臺支撐整個大數(shù)據(jù)的運行環(huán)境
  • 數(shù)據(jù)倉庫整合各個業(yè)務(wù)線的數(shù)據(jù),消滅數(shù)據(jù)煙囪
  • 數(shù)據(jù)治理平臺提供統(tǒng)一指標(biāo)管理、統(tǒng)一維度管理、統(tǒng)一數(shù)據(jù)出口管理
  • 數(shù)據(jù)質(zhì)量負(fù)責(zé)監(jiān)控數(shù)據(jù)資產(chǎn)質(zhì)量狀態(tài)、持續(xù)推動數(shù)據(jù)質(zhì)量監(jiān)控優(yōu)化預(yù)警、實時監(jiān)控預(yù)警

二、問題

公司業(yè)務(wù)的不斷發(fā)展加快了數(shù)據(jù)膨脹的速度,數(shù)據(jù)不一致等問題也隨之而來。同時業(yè)務(wù)部門的頻繁增加和剝離也會對數(shù)據(jù)治理帶來挑戰(zhàn)。

例如:不同業(yè)務(wù)線之間沒有統(tǒng)一的數(shù)據(jù)入口記錄和加工業(yè)務(wù)的發(fā)展過程;不同業(yè)務(wù)線的數(shù)據(jù)分析人員、數(shù)據(jù)開發(fā)人員,不同產(chǎn)品線之間缺乏有效的溝通,人員的流動也會產(chǎn)生一系列對接問題。

  • 各個數(shù)據(jù)平臺和業(yè)務(wù)系統(tǒng)不同模塊的指標(biāo)定義不一致
  • 相同指標(biāo)名稱對應(yīng)計算口徑不一致
  • 指標(biāo)數(shù)據(jù)來源不一致

上述問題最終帶來的后果就是指標(biāo)數(shù)據(jù)可信度低,從而嚴(yán)重影響數(shù)據(jù)分析決策。

數(shù)據(jù)治理不僅需要完善的保障機制,還需要具體的治理內(nèi)容,比如我們的數(shù)據(jù)怎樣規(guī)范、元數(shù)據(jù)怎么來管理、每個過程都需要哪些系統(tǒng)或者工具來配合呢,這些都是數(shù)據(jù)治理過程中最實際的問題,今天我們將從數(shù)據(jù)治理的核心領(lǐng)域來解答這些問題。

?

如上圖所示,對于數(shù)據(jù)倉庫層,數(shù)據(jù)治理平臺綜合業(yè)務(wù)的組織形式、指標(biāo)數(shù)據(jù)來源、指標(biāo)定義規(guī)則、上層產(chǎn)品使用以及查詢的效率指導(dǎo)數(shù)據(jù)倉庫模型建設(shè);

對于數(shù)據(jù)服務(wù)層的產(chǎn)品,業(yè)務(wù)元數(shù)據(jù)以及數(shù)據(jù)元數(shù)據(jù)均由數(shù)據(jù)治理平臺提供,這樣能夠保障產(chǎn)品獲得信息的一致性,同時也減少了對底層數(shù)據(jù)的侵入。

三、數(shù)據(jù)治理的核心領(lǐng)域

數(shù)據(jù)治理平臺的核心是保障數(shù)據(jù)一致性,同時在保障數(shù)據(jù)安全和一致性的基礎(chǔ)上,盡力提供高可用的數(shù)據(jù)服務(wù)分發(fā)能力。保障數(shù)據(jù)一致性需要在建設(shè)的過程中不斷進行抽象,形成具有相對單一功能的模塊,合理組織模塊層級間的關(guān)系。

提高數(shù)據(jù)治理平臺的可用性主要包括如下領(lǐng)域的治理。

?

如上圖所示,數(shù)據(jù)治理平臺主要包括數(shù)據(jù)存儲、數(shù)據(jù)查詢、元數(shù)據(jù)管理、安全管理、數(shù)據(jù)標(biāo)準(zhǔn)管理和數(shù)據(jù)應(yīng)用管理等。

各領(lǐng)域之間需要有機結(jié)合,數(shù)據(jù)標(biāo)準(zhǔn)、元數(shù)據(jù)、數(shù)據(jù)質(zhì)量等幾個領(lǐng)域相互協(xié)同和依賴。例如數(shù)據(jù)標(biāo)準(zhǔn)管理可以提升數(shù)據(jù)合法性、合規(guī)性,進一步提高數(shù)據(jù)質(zhì)量,減少數(shù)據(jù)生產(chǎn)問題。

數(shù)據(jù)存儲

數(shù)據(jù)治理平臺的數(shù)據(jù)存儲主要包括:數(shù)據(jù)倉庫寬表/主題表層和數(shù)據(jù)應(yīng)用層,存儲方式包括:Hive、Kylin、ClickHouse、Druid、MySql。

?

上圖所示的數(shù)據(jù)存儲中的數(shù)據(jù)加工過程,均由數(shù)據(jù)開發(fā)工程師負(fù)責(zé);具體采用哪種存儲介質(zhì)由數(shù)據(jù)架構(gòu)師和數(shù)據(jù)開發(fā)工程師綜合所需的數(shù)據(jù)存儲空間、查詢效率、數(shù)據(jù)模型組織形式等因素共同決定。

但是后續(xù)的使用維護均由數(shù)據(jù)治理平臺來統(tǒng)一管理,主要是通過管理數(shù)據(jù)表元數(shù)據(jù)信息查詢實現(xiàn)。

數(shù)據(jù)存儲托管之后,數(shù)據(jù)表元數(shù)據(jù)信息變更監(jiān)控、表數(shù)據(jù)生產(chǎn)(存儲空間、生產(chǎn)狀態(tài)及完成時間)監(jiān)控、表數(shù)據(jù)波動(同環(huán)比)監(jiān)控以及表的使用(模型構(gòu)建及查詢效率等)監(jiān)控及評估,都由數(shù)據(jù)治理平臺自動完成,任何信息的變動都會自動通知對應(yīng)的負(fù)責(zé)人,以保障數(shù)據(jù)應(yīng)用的安全和穩(wěn)定。

(此處已添加小程序,請到今日頭條客戶端查看)

元數(shù)據(jù)管理

元數(shù)據(jù)分為業(yè)務(wù)元數(shù)據(jù)、數(shù)據(jù)元數(shù)據(jù)和操作元數(shù)據(jù),三者之間緊密相連。業(yè)務(wù)元數(shù)據(jù)指導(dǎo)數(shù)據(jù)元數(shù)據(jù),數(shù)據(jù)元數(shù)據(jù)以業(yè)務(wù)元數(shù)據(jù)為參考進行設(shè)計,操作元數(shù)據(jù)為兩者的管理提供支撐。

  • 業(yè)務(wù)元數(shù)據(jù):業(yè)務(wù)元數(shù)據(jù)是定義和業(yè)務(wù)相關(guān)數(shù)據(jù)的信息,用于輔助定位、理解和訪問業(yè)務(wù)信息。
  • 數(shù)據(jù)元數(shù)據(jù):數(shù)據(jù)元數(shù)據(jù)結(jié)構(gòu)性數(shù)據(jù)元數(shù)據(jù)和關(guān)聯(lián)性數(shù)據(jù)元數(shù)據(jù)。
  • 操作元數(shù)據(jù):操作元數(shù)據(jù)主要指與元數(shù)據(jù)管理相關(guān)的組織、崗位、職責(zé)、流程,以及系統(tǒng)日常運行產(chǎn)生的操作數(shù)據(jù)。

數(shù)據(jù)表模塊管理

數(shù)據(jù)表模塊管理涉及數(shù)據(jù)庫信息和數(shù)據(jù)表信息。其中數(shù)據(jù)庫信息包括數(shù)據(jù)庫鏈接信息,數(shù)據(jù)治理平臺可以自動獲取維護后的數(shù)據(jù)庫信息所對應(yīng)庫中的元數(shù)據(jù)信息。

數(shù)據(jù)表信息包括:表的元數(shù)據(jù)信息(引擎、字段、描述等)、表類型(事實表、維度表)、表的使用情況(是否被模型引用)、表對應(yīng)的ETL、負(fù)責(zé)人、監(jiān)控報警配置、樣例數(shù)據(jù)等。

上述信息為業(yè)務(wù)用戶提供指導(dǎo),為模型管理提供數(shù)據(jù)支持,也為數(shù)據(jù)表和數(shù)據(jù)的穩(wěn)定性提供監(jiān)控和預(yù)警。

數(shù)據(jù)模型模塊管理

模型模塊管理能夠還原業(yè)務(wù)落地后數(shù)據(jù)表的組織關(guān)系,包括:數(shù)據(jù)表的關(guān)聯(lián)方式(join、left outer join、semi join等)、數(shù)據(jù)表的關(guān)聯(lián)限制(where)、模型ER圖、模型包含字段、模型字段與維度的綁定關(guān)系、模型與指標(biāo)的綁定關(guān)系。

由于數(shù)據(jù)治理平臺主要是針對數(shù)據(jù)分析使用的,所以主要的模型包括維度模型中的星型模型和雪花型模型。

指標(biāo)模塊管理

指標(biāo)模塊管理包括基礎(chǔ)信息、衍生信息和技術(shù)信息管理。衍生信息包括關(guān)聯(lián)指標(biāo)、關(guān)聯(lián)應(yīng)用管理。基礎(chǔ)信息對應(yīng)的就是指標(biāo)對應(yīng)的業(yè)務(wù)過程信息,由業(yè)務(wù)人員編寫,主要包括指標(biāo)名稱、業(yè)務(wù)分類、統(tǒng)計頻率、精度、單位、指標(biāo)定義、計算邏輯、分析方法、分析維度等;

基礎(chǔ)信息中還有一個比較重要的部分是監(jiān)控配置,主要是配置指標(biāo)的有效波動范圍區(qū)間、同環(huán)比波動區(qū)間等,監(jiān)控指標(biāo)數(shù)據(jù)的正常運行。

技術(shù)信息主要包括數(shù)據(jù)類型、指標(biāo)代碼,其中核心部分是指標(biāo)與模型的綁定關(guān)系,通過配置對應(yīng)的計算公式,或者還包括一些額外的高級配置,如二次計算、模型過濾條件等。

數(shù)據(jù)存儲模塊管理

在數(shù)據(jù)資源管理過程中,作者經(jīng)過不斷地實踐慢慢摸索出一套適合大數(shù)據(jù)的存儲優(yōu)化方法,可在元數(shù)據(jù)的基礎(chǔ)上,診斷、加工成多個存儲治理項目。

目前已有的存儲治理優(yōu)化項有未管理表、空表、最近93天未訪問表、數(shù)據(jù)無更新無任務(wù)表、數(shù)據(jù)無更新有任務(wù)表、開發(fā)庫數(shù)據(jù)大于100GB且無訪問表、長周期表等。

?

生命周期管理的根本目的就是用最少的存儲成本來滿足最大的業(yè)務(wù)需求,使數(shù)據(jù)價值最大化。

  • 周期性刪除策略:所存儲的數(shù)據(jù)都有一定的有效期,從數(shù)據(jù)創(chuàng)建開始到過時,可以周期性刪除已過有效期的X天前的數(shù)據(jù)。如果某些歷史數(shù)據(jù)可能已經(jīng)沒有價值,且占用存儲成本,則可針對無效的歷史數(shù)據(jù)就可以進行定期清理。
  • 測底刪除策略:無用表數(shù)據(jù)或者ETL過程產(chǎn)生的臨時數(shù)據(jù),以及不需要保留的數(shù)據(jù),可以進行及時刪除,包括刪除元數(shù)據(jù)。
  • 永久保留數(shù)據(jù):重要且不可以恢復(fù)的底層數(shù)據(jù)和應(yīng)用數(shù)據(jù)需要永久保留,例如底層交易的增量數(shù)據(jù),出于存儲成本與數(shù)據(jù)價值相權(quán)衡的考慮,需要永久保留,以備用于歷史數(shù)據(jù)的恢復(fù)與核查。
  • 冷數(shù)據(jù)管理策略:冷數(shù)據(jù)策略是永久保留策略的擴展。永久保留的數(shù)據(jù)需要遷移到冷數(shù)據(jù)中心永久保存。

數(shù)據(jù)計算模塊管理

大型互聯(lián)網(wǎng)公司的集群上面有幾十萬甚至幾百萬的任務(wù),每天存儲資源、計算資源消耗都很大。如何降低計算資源的消耗,提高任務(wù)執(zhí)行的性能,提升任務(wù)產(chǎn)出的時間,是計算平臺和ETL開發(fā)工程師孜孜追求的目標(biāo),下面將重點介紹任務(wù)優(yōu)化。

SQL/MR作業(yè)一般會生成MapReduce任務(wù),在Hadoop中則會生成唯一一個job_id進行標(biāo)識。

  • Map傾斜:每個輸入分片會讓一個Map Instance來處理,默認(rèn)情況下,以系統(tǒng)中一個文件塊的大小(默認(rèn)為256MB)為一個分片。Map Instance輸出的結(jié)構(gòu)會暫時放在一個環(huán)形內(nèi)存緩沖區(qū)中,當(dāng)該緩沖區(qū)快要溢出時會在本地文件系統(tǒng)中創(chuàng)建一個溢出文件,即Write Dump。在Map讀數(shù)據(jù)階段,可以通過“SET odps.mapper.split.size=256”來調(diào)節(jié)Map Instance的個數(shù),提高數(shù)據(jù)讀入的效率,同時也可以通過“SET odps.mapper.merge.limit.size=64”來控制Map Instance讀取文件的個數(shù)。如果輸入數(shù)據(jù)的文件大小差異比較大,那么每個Map Instance讀取的數(shù)據(jù)量和讀取時間差異也會很大。
  • 在寫入磁盤之前,線程首先根據(jù)Reduce Instance的個數(shù)劃分分區(qū),數(shù)據(jù)會根據(jù)Key值Hash到不同的分區(qū)上,一個Reduce Instance對應(yīng)一個分區(qū)的數(shù)據(jù)。Map端也會做部分聚合操作,以減少輸入Reduce端的數(shù)據(jù)量。由于數(shù)據(jù)是根據(jù)Hash分配的,因此會導(dǎo)致有些Reduce Instance會分配到大量數(shù)據(jù)。

在Map端讀數(shù)據(jù)時,由于讀入數(shù)據(jù)的文件大小分布不均勻,因此會導(dǎo)致有些Map Instance讀取并且處理的數(shù)據(jù)特別多,而有些Map Instance處理的數(shù)據(jù)特別少,造成Map端長尾。以下兩種情況會造成Map端長尾:

  • 上游表文件的大小特別不均勻,并且小文件特別多,導(dǎo)致當(dāng)前表Map端讀取的數(shù)據(jù)分布不均勻,引起長尾。
  • Map端做聚合時,由于某些Map Instance讀取文件的某個值特別多而引起長尾,主要是指Count Distinct操作。
  • 第一種情況導(dǎo)致的Map長尾,可以對上游數(shù)據(jù)合并小文件,同時調(diào)節(jié)本節(jié)點的小文件的參數(shù)來進行優(yōu)化,即通過設(shè)置“SET odps.sql.mapper.merge.limit.size=64”和“SET odps.sql.mapper.split.size=256”兩個參數(shù)來調(diào)節(jié),其中第一個參數(shù)用于調(diào)節(jié)Map任務(wù)的Map Instance的個數(shù);

    第二個參數(shù)用于調(diào)節(jié)單個Map Instance讀取的小文件個數(shù),防止由于小文件過多導(dǎo)致Map Instance讀取的數(shù)據(jù)量很不均勻。

    第二種情況導(dǎo)致的Map長尾,可以通過distribute by rand()會將Map端分發(fā)后的數(shù)據(jù)重新按照隨機值再進行一次分發(fā),避免Map端長尾。

    數(shù)據(jù)安全管理

    數(shù)據(jù)安全管理是數(shù)據(jù)治理平臺的核心功能之一,分為平臺操作權(quán)限管理和接口調(diào)用權(quán)限管理。

    四、建設(shè)目標(biāo)

    • 保障提供數(shù)據(jù)指標(biāo)定義、計算口徑、數(shù)據(jù)來源一致性。
    • 保障維度定義、維度值一致性。
    • 保障維度和指標(biāo)元數(shù)據(jù)信息的唯一出口。
    • 提供維度和指標(biāo)數(shù)據(jù)統(tǒng)一監(jiān)控及預(yù)警能力。

    歡迎關(guān)注我的公眾號“商業(yè)智能研究”,私信回復(fù)“資料包”,即可領(lǐng)取大數(shù)據(jù)、數(shù)據(jù)中臺、商業(yè)智能、數(shù)據(jù)倉庫等6G精華資料!

    總結(jié)

    以上是生活随笔為你收集整理的顶级公司在做数据挖掘,却忽略了数据管理平台,这个知识不得不看的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。