日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

BigData预处理(完整步骤)

發布時間:2025/3/21 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 BigData预处理(完整步骤) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

BigData預處理(完整步驟)

雖然題目是完整步驟,實際上并不完整,以下是原文內容

一:為什么要預處理數據?

(1)現實世界的數據是骯臟的(不完整,含噪聲,不一致)
(2)沒有高質量的數據,就沒有高質量的挖掘結果(高質量的決策必須依賴于高質量的數據;數據倉庫需要對高質量的數據進行一致地集成)
(3)原始數據中存在的問題:
不一致 —— 數據內含出現不一致情況
重復
不完整 —— 感興趣的屬性沒有
含噪聲 —— 數據中存在著錯誤、或異常(偏離期望值)的數據
高維度
二:數據預處理的方法
(1)數據清洗 —— 去噪聲和無關數據
(2)數據集成 —— 將多個數據源中的數據結合起來存放在一個一致的數據存儲中
(3)數據變換 —— 把原始數據轉換成為適合數據挖掘的形式
(4)數據規約 —— 主要方法包括:數據立方體聚集,維度歸約,數據壓縮,數值歸約,離散化和概念分層等。
(5)圖說事實
三:數據選取參考原則
(1)盡可能富余屬性名和屬性值明確的含義
(2)統一多數據源的屬性編碼
(3)去除唯一屬性
(4)去除重復屬性
(5)去除可忽略字段
(6)合理選擇關聯字段
(7)進一步處理:
通過填補遺漏數據、消除異常數據、平滑噪聲數據,以及糾正不一致數據,去掉數據中的噪音、填充空值、丟失值和處理不一致數據
四:用圖說話,(我還是習慣用統計圖說話)
?
數據清洗的路子:剛拿到的數據 —-> 和數據提供者討論咨詢 —–> 數據分析(借助可視化工具)發現臟數據 —->清洗臟數據(借助MATLAB或者Java/C++語言) —–>再次統計分析(Excel的data analysis不錯的,最大小值,中位數,眾數,平均值,方差等等,以及散點圖) —–> 再次發現臟數據或者與實驗無關的數據(去除) —–>最后實驗分析 —-> 社會實例驗證 —->結束。

總結

以上是生活随笔為你收集整理的BigData预处理(完整步骤)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。