数据挖掘之数据预处理
生活随笔
收集整理的這篇文章主要介紹了
数据挖掘之数据预处理
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
- 為什么要進行數(shù)據(jù)預(yù)處理?
現(xiàn)實情況中,你的數(shù)據(jù)可能是不完整的(缺少屬性值或某些感興趣的屬性或僅包含聚類數(shù)據(jù))、含噪聲的(包含錯誤或存在偏離期望的離群值)、并且是不一致的。
數(shù)據(jù)清理:填寫缺失的值、光滑噪聲數(shù)據(jù)、識別或刪除離群點并解決不一致性
數(shù)據(jù)集成:當數(shù)據(jù)來自多個數(shù)據(jù)源時,而同一個屬性在不同數(shù)據(jù)源不同,合成時存在冗余
數(shù)據(jù)規(guī)約:數(shù)據(jù)集的簡化
- 描述性數(shù)據(jù)匯總
?1 度量數(shù)據(jù)的中心趨勢
均值、中位數(shù)、眾數(shù)、中列數(shù)(最大值和最小值的平均值)
?2 度量數(shù)據(jù)的離散程度
四分位數(shù)、四分位數(shù)極差、方差
五數(shù)概況:最小值、第一個四分位數(shù)、中位數(shù)、第三個四分位數(shù)、最大值
?3 圖形顯示
直方圖、分位數(shù)圖、q-q圖
- 數(shù)據(jù)清理
?
- 數(shù)據(jù)集成和變換
?
- 數(shù)據(jù)規(guī)約
?
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的数据挖掘之数据预处理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 谷歌员工:谷歌已沦为普通大公司 那种感觉
- 下一篇: excel一些操作技巧