机器学习从入门到精通50讲(一)-大数据平台下的数据质量管理
大數(shù)據(jù)平臺(tái)的核心理念是構(gòu)建于業(yè)務(wù)之上,用數(shù)據(jù)為業(yè)務(wù)創(chuàng)造價(jià)值。大數(shù)據(jù)平臺(tái)的搭建之初,優(yōu)先滿足業(yè)務(wù)的使用需求,數(shù)據(jù)質(zhì)量往往是被忽視的一環(huán)。但隨著業(yè)務(wù)的逐漸穩(wěn)定,數(shù)據(jù)質(zhì)量越來越被人們所重視。
千里之堤,潰于蟻穴,糟糕的數(shù)據(jù)質(zhì)量往往就會(huì)帶來低效的數(shù)據(jù)開發(fā),不準(zhǔn)確的數(shù)據(jù)分析,最終導(dǎo)致錯(cuò)誤的業(yè)務(wù)決策。而網(wǎng)易也在數(shù)據(jù)質(zhì)量方面不斷探索,本文將對(duì)網(wǎng)易有數(shù)大數(shù)據(jù)平臺(tái)的子產(chǎn)品,數(shù)據(jù)質(zhì)量中心的現(xiàn)狀及規(guī)劃方向進(jìn)行簡要介紹。
1
背景
網(wǎng)易有數(shù)大數(shù)據(jù)平臺(tái)對(duì)數(shù)據(jù)的全生命周期都進(jìn)行了管理,從數(shù)據(jù)規(guī)劃開始,到數(shù)據(jù)準(zhǔn)備、模型的設(shè)計(jì)、模型開發(fā)采取了全鏈路的質(zhì)量管理措施,數(shù)據(jù)質(zhì)量中心是其數(shù)據(jù)治理的重要一環(huán)。
追根溯源,導(dǎo)致數(shù)據(jù)出現(xiàn)質(zhì)量問題的原因有很多,總的來看,主要有業(yè)務(wù)、技術(shù)、管理、基礎(chǔ)設(shè)施四個(gè)方面:
-
業(yè)務(wù)端:業(yè)務(wù)源系統(tǒng)變更(源系統(tǒng)數(shù)據(jù)庫表結(jié)構(gòu)變更、源系統(tǒng)環(huán)境變更)、業(yè)務(wù)端數(shù)據(jù)輸入不規(guī)范等;
-
技術(shù)端:數(shù)據(jù)開發(fā)任務(wù)中各種任務(wù)的流程、參數(shù)、配置等出錯(cuò);
-
管理端 :認(rèn)知層面缺乏質(zhì)量意識(shí)、缺乏有效的數(shù)據(jù)質(zhì)量問題處理機(jī)制等;
-
基礎(chǔ)設(shè)施:物理資源不足、基礎(chǔ)設(shè)施不穩(wěn)定等。
總結(jié)
以上是生活随笔為你收集整理的机器学习从入门到精通50讲(一)-大数据平台下的数据质量管理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 技术前沿资讯-Apache Flink
- 下一篇: 数据分析工具篇——数据读写