日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据分析与挖掘理论-数据预处理

發布時間:2024/4/11 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据分析与挖掘理论-数据预处理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數據預處理

  • 一般而言,數據分析和數據挖掘領域的處理的數據都是海量的數據,這樣的數據難免會出現問題。
  • 數據預處理占到數據挖掘工作的60%,這是最重要也是最核心的領域,
  • 分為數據清洗、數據集成、數據變換和數據規約。

數據清洗

  • 刪除無關數據、重復數據、平滑噪聲數據、處理缺失值和異常值。
    • 缺失值處理
      • 插補
      • 刪除
        • 在數據量很少的情況下,這是利用數據為代價換取完備,是不合理的。
      • 插值模型
        • 拉格朗日插值法(scipy實現)
        • 牛頓插值法(scipy未實現)
    • 異常值處理
      • 刪除
      • 視作缺失值
      • 平均值處理
      • 不處理

數據集成

  • 多數據源數據倉庫化。
    • 實體識別
      • 同名異義
      • 異名同義
      • 單位不統一
    • 冗余屬性識別
      • 同一屬性多次出現
      • 同一屬性命名不一致導致重復

數據變換

  • 規范化處理數據,便于使用。
    • 簡單函數變換
      • 常用來將不具有正態分布的數據變換成具有正態分布的數據。
    • 規范化
      • 最小-最大規范化
      • 零-均值規范化(使用最多)
      • 小數定標規范化
    • 連續屬性離散化
      • 等寬法
      • 等頻法
      • 聚類
    • 屬性構造
      • 推導屬性
    • 小波變換
      • 新型數據分析工具

數據規約

  • 降低錯誤數據對建模的影響,減少存儲成本
    • 屬性規約
    • 數值規約
      • 直方圖
      • 聚類
      • 抽樣
      • 參數回歸

相關庫函數的使用,可以查看我的博客

  • 我的博客

總結

以上是生活随笔為你收集整理的数据分析与挖掘理论-数据预处理的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。