八、探索性数据分析——数字化探索
生活随笔
收集整理的這篇文章主要介紹了
八、探索性数据分析——数字化探索
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1.數字化探索
數字化探索又稱為數字化描述,它主要通過函數,得到數據集的一些數字指標值,來對數據的整體結構、變量情況、分布指標、缺失值等方面進行探索。主要包含以下幾方面的內容:
- 變量的概況和詳情
- 分布指標
- 稀疏性和缺失值
數字化的探索結果或許沒有圖形看起來直觀,但是卻給出了各項統計指標的確切取值,這對于制作和觀察圖形、設定算法參數提供了依據。
2 變量的概況和詳情
- 2.1 變量的描述統計量
1.離散型隨機變量:平均值,中位數,眾數,最小值,最大值,四分位數,標準差等
2.查看數據的信息:包括每個字段的名稱、非空數量、字段的數據類型 : data.info()
3.統計學指標快速描述數據的概要: data.describe()
4.查看的數據大小:data.shape
5.查看數據的前5行:data.head()
6.查看數據的后5行:data.tail()
7.查看數據類型:data.dtypes - 2.2 變量的描述統計量——距離
1、查看數據的前5行
3、查看數據統計信息
3 分布指標
- 所謂“分布”,通俗來說即是指數據集中某變量各水平的取值情況。在統計學中,對于離散變量,主要有二項分布、泊松分布、幾何分布等概率;而對于連續性變量,則有均勻分布、指數分布,以及最為熟知的正態分布等。
1.檢查數據(SAT數據的數學成績)是否服從正太分布?
2.檢查數據是否服從t分布?
4 稀疏性和缺失值
4.1 問題
- 4.2.1 稀疏性的基本概念
數據的稀疏性是對高維數據而言,即數據集中的變量個數成百上千,而其中的大部分變量僅對小部分樣本有取值,高維數據的稀疏性在推薦系統等領域頻繁出現。 - 4.2.2 數據缺失值
數據集含有缺失值是很常見的,尤其對于一些需要一個個人工收集匯總起來的數據集,很難保證每一條樣本的每一個變量都有取值。 - 4.2.3 缺失值的發現方法
1.元素級別的判斷:dataframe.isnull()
2.列表級別的判斷:dataframe.isnull().any()
5 完整代碼
# *-* coding:utf-8 *-*# 導入工具庫 import numpy as np import pandas as pd from scipy import stats# 讀取數據集 sat_17 = pd.read_csv('data/sat_2017.csv')# 1. 數字化的描述 def num_describe():print(sat_17.head()) # 前5行print(sat_17.tail()) # 后5行print(sat_17.info()) # 數據集信息print(sat_17.shape) # 數據的大小print(sat_17.describe()) # 統計信息# 2. 檢驗數學成績是否服從正態分布 def check_norm():print("+++++++++++++")stat = stats.kstest(sat_17['Math'], 'norm')res = stats.shapiro(sat_17['Math'])rest = stats.normaltest(sat_17['Math'], axis=0)print(stat)print(res)print(rest)# 3. 檢驗數學成績是否服從t分布 def check_t():print("============")np.random.seed(1)ks = stats.t.fit(sat_17['Math'])df = ks[0]loc = ks[1]scale = ks[2]t_estm = stats.t.rvs(df=df, loc=loc, scale=scale, size=len(sat_17['Math']))res2 = stats.ks_2samp(sat_17['Math'], t_estm)print('res2', res2)# 4 缺失值的發現 def check_isnull():print(sat_17.isnull().head()) # 元素級別print(sat_17.isnull().any()) # 列級別def main():print("--------------")num_describe()check_norm()check_t()check_isnull()if __name__ == '__main__':main()總結
以上是生活随笔為你收集整理的八、探索性数据分析——数字化探索的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 七、度量数据的相似性和想异性
- 下一篇: 九、探索性数据分析的应用