日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

探索性数据分析EDA及数据分析图表的选择

發(fā)布時間:2024/7/5 65 豆豆
生活随笔 收集整理的這篇文章主要介紹了 探索性数据分析EDA及数据分析图表的选择 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

  • 一、探索性數據分析EDA
  • 二、數據分析圖表的選擇

一、探索性數據分析EDA

探索性數據分析(Exploratory Data Analysis,簡稱EDA),指對數據分析的過程中盡量不加入先驗假設,而是通過作圖表和統(tǒng)計等方式來探索數據結構和規(guī)律。
在EDA中你可以構思各種各樣的假設,并通過數據分析去尋找相應的反饋,以此迭代來尋找到數據集中分布的規(guī)律。在探索的過程中會隨著不斷的深入對數據理解更加深刻。
EDA的流程如下:提出問題;篩選、清洗數據;分析數據;構建模型;得出結論。
EDA的過程與數據挖掘的流程不謀而合,特征是否起作用需要具體的分析和驗證。從數據本身出發(fā)去尋找合適的特征。
在數據競賽中,使用EDA完成數據分析的過程如下:

  • 讀取并分析數據質量;
  • 探索性分析每個變量:
    變量是什么類型;
    變量是否有缺失值;
    變量是否有異常值;
    變量是否有重復值;
    變量是否均勻;
    變量是否需要轉換;
  • 探索性分析變量與target標簽的關系:
    變量與標簽是否存在相關性;
    變量與標簽是否存在業(yè)務邏輯;
  • 探索性分析變量之間的關系:
    1)連續(xù)型變量與連續(xù)型變量;
    可視化:散點圖、相關性熱力圖;皮爾遜系數;互信息;
    2)離散變量與離散變量;
    可視化:柱狀圖、餅圖、分組表;卡方檢驗;
    3)檢查變量之間的正態(tài)性;直方圖;箱線圖;Quantile-Quantile (QQ圖);
  • 根據EDA我們可以得出以下結論:變量是否需要篩選、替換和清洗;變量是否需要轉換;變量之間是否需要交叉;變量是否需要采樣;

    二、數據分析圖表的選擇

    可視化目的:比較/趨勢/組成/聯(lián)系/分布;
    可視化變量類型:數值/日期/類別/經緯度;
    可視化維度:分布/趨勢;

    總結

    以上是生活随笔為你收集整理的探索性数据分析EDA及数据分析图表的选择的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。