数据分析与挖掘理论-数据预处理
生活随笔
收集整理的這篇文章主要介紹了
数据分析与挖掘理论-数据预处理
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
數據預處理
- 一般而言,數據分析和數據挖掘領域的處理的數據都是海量的數據,這樣的數據難免會出現問題。
- 數據預處理占到數據挖掘工作的60%,這是最重要也是最核心的領域,
- 分為數據清洗、數據集成、數據變換和數據規約。
數據清洗
- 刪除無關數據、重復數據、平滑噪聲數據、處理缺失值和異常值。
- 缺失值處理
- 插補
- 刪除
- 在數據量很少的情況下,這是利用數據為代價換取完備,是不合理的。
- 插值模型
- 拉格朗日插值法(scipy實現)
- 牛頓插值法(scipy未實現)
- 異常值處理
- 刪除
- 視作缺失值
- 平均值處理
- 不處理
- 缺失值處理
數據集成
- 多數據源數據倉庫化。
- 實體識別
- 同名異義
- 異名同義
- 單位不統一
- 冗余屬性識別
- 同一屬性多次出現
- 同一屬性命名不一致導致重復
- 實體識別
數據變換
- 規范化處理數據,便于使用。
- 簡單函數變換
- 常用來將不具有正態分布的數據變換成具有正態分布的數據。
- 規范化
- 最小-最大規范化
- 零-均值規范化(使用最多)
- 小數定標規范化
- 連續屬性離散化
- 等寬法
- 等頻法
- 聚類
- 屬性構造
- 推導屬性
- 小波變換
- 新型數據分析工具
- 簡單函數變換
數據規約
- 降低錯誤數據對建模的影響,減少存儲成本
- 屬性規約
- 數值規約
- 直方圖
- 聚類
- 抽樣
- 參數回歸
相關庫函數的使用,可以查看我的博客
- 我的博客
總結
以上是生活随笔為你收集整理的数据分析与挖掘理论-数据预处理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 排序算法-05简单选择排序(python
- 下一篇: 数据分析与挖掘实战-基于水色图像的水质评