日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

access对比数据_数据仓库系列之数据质量管理

發布時間:2023/12/4 编程问答 49 豆豆
生活随笔 收集整理的這篇文章主要介紹了 access对比数据_数据仓库系列之数据质量管理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數據質量一直是數據倉庫領域一個比較令人頭疼的問題,因為數據倉庫上層對接很多業務系統,業務系統的臟數據,業務系統變更,都會直接影響數據倉庫的數據質量。因此數據倉庫的數據質量建設是一些公司的重點工作。

一、數據質量

數據質量的高低代表了該數據滿足數據消費者期望的程度,這種程度基于他們對數據的使用預期。數據質量必須是可測量的,把測量的結果轉化為可以理解的和可重復的數字,使我們能夠在不同對象之間和跨越不同時間進行比較。數據質量管理是通過計劃、實施和控制活動,運用質量管理技術度量、評估、改進和保證數據的恰當使用。

二、數據質量維度

1、準確性:數據不正確或描述對象過期

2、合規性:數據是否以非標準格式存儲

3、完備性:數據不存在

4、及時性:關鍵數據是否能夠及時傳遞到目標位置

5、一致性:數據沖突

6、重復性:記錄了重復數據

三、數據質量分析

數據質量分析的主要任務就是檢查數據中是否存在臟數據,臟數據一般是指不符合要求以及不能直接進行相關分析的數據。臟數據包括以下內容:

1、缺省值

2、異常值

3、不一致的值

4、重復數據以及含有特殊符號(如#、¥、*)的數據

我們已經知道了臟數據有4個方面的內容,接下來我們逐一來看這些數據的產生原因,影響以及解決辦法。

第一、 缺省值分析

產生原因:

1、有些信息暫時無法獲取,或者獲取信息的代價太大

2、有些信息是被遺漏的,人為或者信息采集機器故障

3、屬性值不存在,比如一個未婚者配偶的姓名、一個兒童的固定收入

影響:

1、會丟失大量的有用信息

2、數據額挖掘模型表現出的不確定性更加顯著,模型中蘊含的規律更加難以把握

3、包含空值的數據會使得建模過程陷入混亂,導致不可靠輸出

解決辦法:

通過簡單的統計分析,可以得到含有缺失值的屬性個數,以及每個屬性的未缺失數、缺失數和缺失率。刪除含有缺失值的記錄、對可能值進行插補和不處理三種情況。

第二、 異常值分析

產生原因:業務系統檢查不充分,導致異常數據輸入數據庫

影響:不對異常值進行處理會導致整個分析過程的結果出現很大偏差

解決辦法:可以先對變量做一個描述性統計,進而查看哪些數據是不合理的。最常用的統計量是最大值和最小值,用力啊判斷這個變量是否超出了合理的范圍。如果數據是符合正態分布,在原則下,異常值被定義為一組測定值中與平均值的偏差超過3倍標準差的值,如果不符合正態分布,也可以用原理平均值的多少倍標準差來描述。

第三、 不一致值分析

產生原因:不一致的數據產生主要發生在數據集成過程中,這可能是由于被挖掘的數據是來自不同的數據源、對于重復性存放的數據未能進行一致性更新造成。例如,兩張表中都存儲了用戶的電話號碼,但在用戶的號碼發生改變時只更新了一張表中的數據,那么兩張表中就有了不一致的數據。

影響:直接對不一致的數據進行數據挖掘,可能會產生與實際相悖的數據挖掘結果。

解決辦法:注意數據抽取的規則,對于業務系統數據變動的控制應該保證數據倉庫中數據抽取最新數據

第四、 重復數據及特殊數據產生原因:

產生原因:業務系統中未進行檢查,用戶在錄入數據時多次保存。或者因為年度數據清理導致。特殊字符主要在輸入時攜帶進入數據庫系統。

影響:統計結果不準確,造成數據倉庫中無法統計數據

解決辦法:在ETL過程中過濾這一部分數據,特殊數據進行數據轉換。

四、數據質量管理

大多數企業都沒有一個很好的數據質量管理的機制,因為他們不理解其數據的價值,并且他們不認為數據是一個組織的資產,而把數據看作創建它的部門領域內的東西。缺乏數據質量管理將導致臟數據、冗余數據、不一致數據、無法整合、性能低下、可用性差、責任缺失、使用系統用戶日益不滿意IT的性能。

在做數據分析之前一般都應該初步對數據進行評估。初步數據評估通過數據報告來完成的,數據報告通常在準備把數據存入數據倉庫時做一次,它是全面跨數據集的,它描述了數據結構、內容、規則、和關系的概況。通過應用統計方法返回一組關于數據的標準特征,包括數據類型、字段長度、列基數、粒度、值域、格式模式、隱含的規則、跨列和跨表的數據關系,以及這些關系的基數。初步評估報告的目的是獲得對數據和環境的了解,并對數據的狀況進行描述。數據報告應該如下:

總結

以上是生活随笔為你收集整理的access对比数据_数据仓库系列之数据质量管理的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产婷婷 | 一级片在线免费观看视频 | 狠狠操你 | 国精品一区 | 星铁乱淫h侵犯h文 | 国产白浆一区二区 | 伊人青青久久 | 三上悠亚久久精品 | 欧美a级成人淫片免费看 | 国产老头和老头xxxx× | 国产字幕侵犯亲女 | 久久全国免费视频 | 国产麻豆剧传媒精品国产 | 韩国伦理av | 色婷婷婷婷色 | 五月精品| 亚洲视频在线免费播放 | 欧美骚少妇 | 精品一区二区人妻 | 爽好多水快深点欧美视频 | 亚色视频在线 | 久久午夜场 | 午夜特片网 | 主播福利在线 | 国产精品一卡二卡三卡 | 黄色网一级片 | 一级色网站 | 青青国产精品 | 毛片无码免费无码播放 | 成年女人色毛片 | 中文字幕在线视频免费观看 | 日本中文字幕第一页 | 日日好av | 人妻激情文学 | 青青久久av | 午夜寂寞福利 | 国产丝袜自拍 | 亚洲人成亚洲人成在线观看 | 日本高清精品 | 久久女人 | 性欢交69国产精品 | 久久靖品 | 日韩久久久久久久久久久 | 日本夫妻性生活视频 | 色婷婷中文 | 男人日女人逼 | 日本不卡一区在线 | 在线五月天 | 夜夜嗨一区| wwwxxx日本免费| 亚洲一区二区激情 | 亚洲桃色av | 欧美一区二区在线视频观看 | 男女xx网站| 国产成人av免费看 | 又黄又免费的视频 | 91成人国产 | 中文有码在线 | 成人在线小视频 | 国产第一区第二区 | 亚洲第一成年网 | 一区福利 | 亚洲熟妇无码一区二区三区导航 | av手机免费在线观看 | 丁香婷婷社区 | 国产高清视频免费在线观看 | 变态另类ts人妖一区二区 | 中文字幕亚洲乱码熟女1区2区 | 林雅儿欧洲留学恋爱日记在线 | 久久国产日韩 | 国产婷婷色一区二区三区 | 人妻aⅴ无码一区二区三区 阿v免费视频 | 欧美日韩不卡合集视频 | 亚洲综合精品国产一区二区三区 | 777av| 在线视频国产一区 | 亚洲免费观看视频 | www.brazzers.com| 日韩欧美一区二区三区四区五区 | 能看的黄色网址 | 久久久国产一区二区三区 | 国产精品国产三级国产播12软件 | 中文字幕日韩精品亚洲一区小树林 | 国产精品视频999 | 久久午夜无码鲁丝片午夜精品 | 午夜免费剧场 | 久91 | 日本xxx在线观看 | 日韩女优在线播放 | 国产成人精品一区二区 | 亚洲xxx视频| 免费网站成人 | 亚洲成人一区二区 | 香蕉视频二区 | 久久精品在线观看 | 人妻在客厅被c的呻吟 | 成人国产精品免费观看动漫 | 欧美污视频在线观看 | 欧美变态另类刺激 |