数据分析与挖掘理论-数据探索
生活随笔
收集整理的這篇文章主要介紹了
数据分析与挖掘理论-数据探索
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
數(shù)據(jù)探索
- 一般而言,數(shù)據(jù)探索是樣本數(shù)據(jù)集采集到后的第一步。
- 指的是通過檢驗(yàn)數(shù)據(jù)集的數(shù)據(jù)質(zhì)量、圖表繪制、特征量計(jì)算等常見手段,對樣本數(shù)據(jù)集的結(jié)構(gòu)和規(guī)律進(jìn)行分析的過程。
- 常見的數(shù)據(jù)探索角度分為數(shù)據(jù)質(zhì)量分析和數(shù)據(jù)特征分析。
數(shù)據(jù)質(zhì)量分析
- 數(shù)據(jù)挖掘的重要組成,數(shù)據(jù)預(yù)處理的前提,數(shù)據(jù)挖掘分析結(jié)論的有效性和準(zhǔn)確性的基礎(chǔ)。
- 主要任務(wù):分析臟數(shù)據(jù)。(缺失值,異常值,不一致值,重復(fù)值)
- 缺失值
- 出現(xiàn)原因
- 無法獲取信息
- 遺漏信息
- 屬性值不存在
- 分析方法
- 統(tǒng)計(jì)分析
- 解決方法
- 刪除缺失值記錄
- 可能值插補(bǔ)
- 不做處理
- 出現(xiàn)原因
- 異常值
- 出現(xiàn)原因
- 獲取的數(shù)據(jù)問題
- 分析方法
- 統(tǒng)計(jì)量分析(最大值最小值圈定范圍)
- 正態(tài)分布分析
- 箱型圖分析
- 出現(xiàn)原因
- 一致性分析
- 出現(xiàn)原因
- 數(shù)據(jù)來源問題
- 分析方法
- 比對
- 出現(xiàn)原因
- 缺失值
數(shù)據(jù)特征分析
- 質(zhì)量分析的下一步。
- 通過圖表、特征量進(jìn)行特征分析。
- 分布分析
- 揭示數(shù)據(jù)的分布特征和分布類型
- 定量數(shù)據(jù)分布分析
- 分組合理
- 直方圖
- 定性數(shù)據(jù)分布分析
- 餅圖
- 條形圖
- 對比分析
- 絕對數(shù)比較
- 相對數(shù)比較
- 統(tǒng)計(jì)量分析
- 集中趨勢度量
- 離中趨勢度量
- 周期性分析
- 周期性時(shí)序圖
- 貢獻(xiàn)度分析
- 80比例提升
- 相關(guān)性分析
- 散點(diǎn)圖
- 散點(diǎn)圖矩陣
- 相關(guān)系數(shù)
- Pearson相關(guān)系數(shù)
- Spearman秩相關(guān)系數(shù)
- 判定系數(shù)
- 分布分析
- 通過圖表、特征量進(jìn)行特征分析。
關(guān)于數(shù)據(jù)探索庫函數(shù)的使用,可以參考我的博客
- 我的博客
關(guān)于數(shù)據(jù)探索測試腳本的使用,可以參考我的Github
- 我的GitHub
總結(jié)
以上是生活随笔為你收集整理的数据分析与挖掘理论-数据探索的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据分析与挖掘理论-概述
- 下一篇: 数据分析与挖掘理论-数据预处理