探索性数据分析EDA及数据分析图表的选择
文章目錄
- 一、探索性數(shù)據(jù)分析EDA
- 二、數(shù)據(jù)分析圖表的選擇
一、探索性數(shù)據(jù)分析EDA
探索性數(shù)據(jù)分析(Exploratory Data Analysis,簡稱EDA),指對數(shù)據(jù)分析的過程中盡量不加入先驗假設(shè),而是通過作圖表和統(tǒng)計等方式來探索數(shù)據(jù)結(jié)構(gòu)和規(guī)律。
在EDA中你可以構(gòu)思各種各樣的假設(shè),并通過數(shù)據(jù)分析去尋找相應(yīng)的反饋,以此迭代來尋找到數(shù)據(jù)集中分布的規(guī)律。在探索的過程中會隨著不斷的深入對數(shù)據(jù)理解更加深刻。
EDA的流程如下:提出問題;篩選、清洗數(shù)據(jù);分析數(shù)據(jù);構(gòu)建模型;得出結(jié)論。
EDA的過程與數(shù)據(jù)挖掘的流程不謀而合,特征是否起作用需要具體的分析和驗證。從數(shù)據(jù)本身出發(fā)去尋找合適的特征。
在數(shù)據(jù)競賽中,使用EDA完成數(shù)據(jù)分析的過程如下:
變量是什么類型;
變量是否有缺失值;
變量是否有異常值;
變量是否有重復(fù)值;
變量是否均勻;
變量是否需要轉(zhuǎn)換;
變量與標(biāo)簽是否存在相關(guān)性;
變量與標(biāo)簽是否存在業(yè)務(wù)邏輯;
1)連續(xù)型變量與連續(xù)型變量;
可視化:散點(diǎn)圖、相關(guān)性熱力圖;皮爾遜系數(shù);互信息;
2)離散變量與離散變量;
可視化:柱狀圖、餅圖、分組表;卡方檢驗;
3)檢查變量之間的正態(tài)性;直方圖;箱線圖;Quantile-Quantile (QQ圖);
根據(jù)EDA我們可以得出以下結(jié)論:變量是否需要篩選、替換和清洗;變量是否需要轉(zhuǎn)換;變量之間是否需要交叉;變量是否需要采樣;
二、數(shù)據(jù)分析圖表的選擇
可視化目的:比較/趨勢/組成/聯(lián)系/分布;
可視化變量類型:數(shù)值/日期/類別/經(jīng)緯度;
可視化維度:分布/趨勢;
總結(jié)
以上是生活随笔為你收集整理的探索性数据分析EDA及数据分析图表的选择的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PowerBI,自定义编辑同一页面中不同
- 下一篇: linux python命令无反应_Py