日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

第2章 数据认知与预处理

發布時間:2023/12/4 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 第2章 数据认知与预处理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

《大數據挖掘及應用》學習筆記。

第2章 數據認知與預處理

2.1 數據分析的定義和流程
數據分析(data analysis)是指用適當的統計分析方法對收集來的大量數據進行分析和解釋,提取出有用的信息形成結論,從而對數據加以詳細研究和概括總結的過程。

2.1.1 如何理解和描述數據分析的問題
理解和抽象出一個待分析的數據分析問題模型步驟:

  • 理解待分析的問題。
  • 考察待分析問題的當前形勢。
  • 確定待分析問題的數據分析模型。
  • 制定實施該問題的數據分析步驟。
  • 2.1.2 數據獲取與準備
    獲取數據的主要途徑:

  • 數據庫
  • 數據倉庫
  • 文件
  • 2.1.3 數據質量評估

  • 準確性
  • 完整性
  • 一致性
  • 時效性
  • 2.2 數據類型
    我們獲取的數據集都由一個一個數據對象組成,每一個對象都代表一個實例。

    2.2.1 屬性的定義
    屬性(attribute)是一個字段,表示數據對象的一個特征。對象與屬性是不可分的,沒有屬性的對象是不存在的,因為對象不用屬性來進行描述就不能稱之為對象了,而屬性如果不用來描述對象,也就沒有意義。
    屬性的取值范圍決定了屬性的類型:

    2.2.2 標稱屬性(nominal attribute)
    指一些不同的符號或事物的名稱,每個值提供了足夠的信息以區分對象。
    例如:描述水果類的數據對象,名稱值可能是梨、蘋果、桃子等,種類值可能是漿果類、核果類、柑橘類等,而顏色的值可能是紅色、青色、黃色等。
    如(蘋果、核果類、紅色)表明了其所描述的對象蘋果的屬性。
    當然也可以用數字來表示標稱屬性,如定義1表示蘋果,2表示梨等,一般情況下,不能求這些值的均值、中位數,但可以求出該屬性下最常出現的值,這個值稱為眾數(mode),是一種中心趨勢度量。

    2.2.3 二元屬性(binary attribute)
    只有兩個可選值的屬性,只有0和1或值True和False兩個狀態。

    2.2.4 序值屬性(ordinal attribute)
    提供足夠的信息確定數據對象之間的序,但是值之間的差是未知的。序值屬性可以定義眾數、中位數或百分位數,但不能定義均值。

    2.2.5 數值屬性(numeric attribute)
    最常用的一種數據類型,它是可度量的,用整數或實數值表示,它定量地描述對象。

    2.3 數據的統計描述方法
    在對數據進行分析之前,把握數據的全貌是至關重要的。基本的統計描述方法不僅可以用來識別整個數據集的性質和特點,發現數據集中的噪聲或離群點,還能夠對缺失的數據值進行補全。

    基本統計描述:

    …持續修改完善中

    總結

    以上是生活随笔為你收集整理的第2章 数据认知与预处理的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。