日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘-数据预处理的必要性及主要任务

發(fā)布時間:2025/3/15 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据挖掘-数据预处理的必要性及主要任务 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

數(shù)據(jù)預處理的必要性及主要任務


1、數(shù)據(jù)預處理的必要性

數(shù)據(jù)庫極易受噪聲、缺失值和不一致數(shù)據(jù)的侵擾,因為數(shù)據(jù)庫太大,并且多半來自多個異構數(shù)據(jù)源。低質量的數(shù)據(jù)導致低質量的數(shù)據(jù)挖掘。

2、數(shù)據(jù)預處理技術

(1)數(shù)據(jù)清理:可以用來清除數(shù)據(jù)中的噪聲,糾正不一致。
(2)數(shù)據(jù)集成:將數(shù)據(jù)由多個數(shù)據(jù)源合并成一個一致的數(shù)據(jù)存儲,如數(shù)據(jù)倉庫。
(3)數(shù)據(jù)歸約:可以通過如狙擊、刪除冗余特征或聚類來降低數(shù)據(jù)的規(guī)模。
(4)數(shù)據(jù)變換:可以用來把數(shù)據(jù)壓縮到較小的區(qū)間,如0.0到1.0。這可以提高設計距離度量的挖掘算法的準確率和效率。
這些技術不是互相排斥的,可以一起使用。

3.為什么要對數(shù)據(jù)預處理

數(shù)據(jù)如果能滿足其應用要求,那么它肯定是高質量的。數(shù)據(jù)質量涉及許多因素,包括準確性、完整性、一致性、時效性、可信性和可解釋性
數(shù)據(jù)質量的三個要素:準確性、完整性和一致性。
不正確、不完整和不一致的數(shù)據(jù)是現(xiàn)實世界的大型數(shù)據(jù)庫和數(shù)據(jù)倉庫的共同特點。
導致不正確的數(shù)據(jù)(具有不正確的屬性值)可能有多種原因:收集數(shù)據(jù)的設備可能出現(xiàn)故障;人或計算機的錯誤可能在數(shù)據(jù)輸入時出現(xiàn);當用戶不希望提交個人信息時,可能故意向強制輸入字段輸入不正確的值。這成為被掩蓋的缺失數(shù)據(jù)。錯誤也可能在數(shù)據(jù)傳輸中出現(xiàn)。也可能是由命名約定或所用的數(shù)據(jù)代碼不一致,或輸入字段的格式不一致而導致的。重復元組也需要數(shù)據(jù)清理。
不完整數(shù)據(jù)的出現(xiàn)可能有多種原因。有些感興趣的屬性,如銷售事務數(shù)據(jù)中顧客的信息,并非總是可以得到的。其他數(shù)據(jù)沒有包含在內(nèi),可能只是因為輸入時認為是不重要的。相關數(shù)據(jù)沒有記錄可能是由于理解錯誤,或者因為設備故障。與其他記錄不一致的數(shù)據(jù)可能已經(jīng)被刪除。此外,歷史或修改的數(shù)據(jù)可能被忽略。缺失的數(shù)據(jù),特別是某些屬性上缺失值的元組,可能需要推導出來。
時效性(timeliness)也影響數(shù)據(jù)的質量。
影響數(shù)據(jù)質量的另外兩個因素是可信性和可解釋性。可信性(believability)反映有多少數(shù)據(jù)是用戶信賴的,而可解釋性(interpretability)反映數(shù)據(jù)是否容易理解。

4.數(shù)據(jù)預處理的主要任務

數(shù)據(jù)清理(data cleaning)例程通過填寫缺失的值,光滑噪聲數(shù)據(jù),識別或刪除利群點,并解決不一致性來清理數(shù)據(jù)。如果用戶認為數(shù)據(jù)是臟的,則他們可能不會相信這些數(shù)據(jù)上的挖掘結果。此外,臟數(shù)據(jù)可能使挖掘過程陷入混亂,導致不可靠的輸出。盡管大部分挖掘例程都有一些過程用來處理不完整數(shù)據(jù)或噪聲數(shù)據(jù),但是他們并非總是魯棒的(Robust,系統(tǒng)的健壯性)。相反,他們更致力于避免被建模的函數(shù)過分擬合數(shù)據(jù)。因此,一個有用的預處理步驟旨在使用數(shù)據(jù)清理例程處理你的數(shù)據(jù)。

分析使用來自多個數(shù)據(jù)源的數(shù)據(jù),涉及集成多個數(shù)據(jù)庫、數(shù)據(jù)立方體或文件,即數(shù)據(jù)集成(data integration)。代表同一概念的屬性在不同的數(shù)據(jù)庫中可能具有不同的名字,導致不一致性和冗余。命名的不一致還可能出現(xiàn)在屬性值中。包含大量冗余數(shù)據(jù)可能降低知識發(fā)現(xiàn)過程的性能或使之陷入混亂。顯然,除了數(shù)據(jù)清理之外,必須采取措施避免數(shù)據(jù)集成時的冗余。通常,在為數(shù)據(jù)倉庫準備數(shù)據(jù)時,數(shù)據(jù)清理和集成將作為預處理步驟進行。還可以再次進行數(shù)據(jù)清理,檢測和刪去可能由集成導致的冗余。

在為分析而選取的數(shù)據(jù)集是巨大的,這肯定會降低數(shù)據(jù)挖掘過程的速度。數(shù)據(jù)歸約可以降低數(shù)據(jù)集的規(guī)模,而又不損害數(shù)據(jù)挖掘的結果。數(shù)據(jù)歸約(data reduction)得到數(shù)據(jù)集的簡化表示,它小得多,但能夠產(chǎn)生同樣的(或幾乎同樣的)分析結果。數(shù)據(jù)歸約策略包括維歸約和數(shù)值歸約。
在維歸約中,使用數(shù)據(jù)編碼方案,以便得到原始數(shù)據(jù)的簡化或“壓縮”表示。例子包括數(shù)據(jù)壓縮技術(例如,小波變換和主成分分析),以及屬性子集選擇(例如,去掉不相關的屬性)和屬性構造(例如,從原來的屬性集導出更有用的小屬性集)。
在數(shù)值歸約中,使用參數(shù)模型(例如,回歸和對數(shù)線性模型)或非參數(shù)模型(例如,直方圖、聚類、抽樣或數(shù)據(jù)聚集),用較小的表示取代數(shù)據(jù)。

對于數(shù)據(jù)挖掘而言,離散化與概念分層產(chǎn)生是強有力的工具,因為它們使得數(shù)據(jù)的挖掘可以在多個抽象層上進行。規(guī)范化、數(shù)據(jù)離散化和概念分層產(chǎn)生都是某種形式的數(shù)據(jù)變換(data transformation)。數(shù)據(jù)變換操作是引導挖掘過程成功的附加的預處理過程。

總之,數(shù)據(jù)一般是臟的、不完整的和不一致的。數(shù)據(jù)預處理技術可以改進數(shù)據(jù)的質量,從而有助于提高其后的挖掘過程的準確率和效率。由于高質量的決策必然依賴于高質量的數(shù)據(jù),因此數(shù)據(jù)預處理是知識發(fā)現(xiàn)過程的重要步驟。檢測數(shù)據(jù)異常,盡早的調(diào)整數(shù)據(jù),并歸約待分析的數(shù)據(jù),將為決策帶來高回報。

轉載于:https://www.cnblogs.com/EnzoDin/p/10713908.html

總結

以上是生活随笔為你收集整理的数据挖掘-数据预处理的必要性及主要任务的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。