當前位置：首頁 >

BigData预处理(完整步骤)

發布時間：2025/3/21 27 豆豆

生活随笔收集整理的這篇文章主要介紹了 BigData预处理(完整步骤) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

BigData預處理(完整步驟)

雖然題目是完整步驟,實際上并不完整,以下是原文內容

一：為什么要預處理數據？

（1）現實世界的數據是骯臟的（不完整，含噪聲，不一致）
（2）沒有高質量的數據，就沒有高質量的挖掘結果（高質量的決策必須依賴于高質量的數據；數據倉庫需要對高質量的數據進行一致地集成）
（3）原始數據中存在的問題：
不一致 —— 數據內含出現不一致情況
重復
不完整 —— 感興趣的屬性沒有
含噪聲 —— 數據中存在著錯誤、或異常（偏離期望值）的數據
高維度
二：數據預處理的方法
（1）數據清洗 —— 去噪聲和無關數據
（2）數據集成 —— 將多個數據源中的數據結合起來存放在一個一致的數據存儲中
（3）數據變換 —— 把原始數據轉換成為適合數據挖掘的形式
（4）數據規約 —— 主要方法包括：數據立方體聚集，維度歸約，數據壓縮，數值歸約，離散化和概念分層等。
（5）圖說事實
三：數據選取參考原則
（1）盡可能富余屬性名和屬性值明確的含義
（2）統一多數據源的屬性編碼
（3）去除唯一屬性
（4）去除重復屬性
（5）去除可忽略字段
（6）合理選擇關聯字段
（7）進一步處理：
通過填補遺漏數據、消除異常數據、平滑噪聲數據，以及糾正不一致數據，去掉數據中的噪音、填充空值、丟失值和處理不一致數據
四：用圖說話，（我還是習慣用統計圖說話）
?
數據清洗的路子：剛拿到的數據 —-> 和數據提供者討論咨詢 —–> 數據分析（借助可視化工具）發現臟數據 —->清洗臟數據（借助MATLAB或者Java/C++語言） —–>再次統計分析（Excel的data analysis不錯的，最大小值，中位數，眾數，平均值，方差等等，以及散點圖） —–> 再次發現臟數據或者與實驗無關的數據（去除） —–>最后實驗分析 —-> 社會實例驗證 —->結束。

總結

以上是生活随笔為你收集整理的BigData预处理(完整步骤)的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：关于我的CSDN博客的一些要说的话
下一篇：封装汉语自然语言处理中的常用方法(附代码

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

BigData预处理(完整步骤)

總結