第2章 数据认知与预处理
《大數據挖掘及應用》學習筆記。
第2章 數據認知與預處理
2.1 數據分析的定義和流程
數據分析(data analysis)是指用適當的統計分析方法對收集來的大量數據進行分析和解釋,提取出有用的信息形成結論,從而對數據加以詳細研究和概括總結的過程。
2.1.1 如何理解和描述數據分析的問題
理解和抽象出一個待分析的數據分析問題模型步驟:
2.1.2 數據獲取與準備
獲取數據的主要途徑:
2.1.3 數據質量評估
2.2 數據類型
我們獲取的數據集都由一個一個數據對象組成,每一個對象都代表一個實例。
2.2.1 屬性的定義
屬性(attribute)是一個字段,表示數據對象的一個特征。對象與屬性是不可分的,沒有屬性的對象是不存在的,因為對象不用屬性來進行描述就不能稱之為對象了,而屬性如果不用來描述對象,也就沒有意義。
屬性的取值范圍決定了屬性的類型:
2.2.2 標稱屬性(nominal attribute)
指一些不同的符號或事物的名稱,每個值提供了足夠的信息以區分對象。
例如:描述水果類的數據對象,名稱值可能是梨、蘋果、桃子等,種類值可能是漿果類、核果類、柑橘類等,而顏色的值可能是紅色、青色、黃色等。
如(蘋果、核果類、紅色)表明了其所描述的對象蘋果的屬性。
當然也可以用數字來表示標稱屬性,如定義1表示蘋果,2表示梨等,一般情況下,不能求這些值的均值、中位數,但可以求出該屬性下最常出現的值,這個值稱為眾數(mode),是一種中心趨勢度量。
2.2.3 二元屬性(binary attribute)
只有兩個可選值的屬性,只有0和1或值True和False兩個狀態。
2.2.4 序值屬性(ordinal attribute)
提供足夠的信息確定數據對象之間的序,但是值之間的差是未知的。序值屬性可以定義眾數、中位數或百分位數,但不能定義均值。
2.2.5 數值屬性(numeric attribute)
最常用的一種數據類型,它是可度量的,用整數或實數值表示,它定量地描述對象。
2.3 數據的統計描述方法
在對數據進行分析之前,把握數據的全貌是至關重要的。基本的統計描述方法不僅可以用來識別整個數據集的性質和特點,發現數據集中的噪聲或離群點,還能夠對缺失的數據值進行補全。
基本統計描述:
…持續修改完善中
總結
以上是生活随笔為你收集整理的第2章 数据认知与预处理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第1章 绪论
- 下一篇: 第1章 数据分析概述