日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

八、探索性数据分析——数字化探索

發布時間:2024/9/16 编程问答 49 豆豆
生活随笔 收集整理的這篇文章主要介紹了 八、探索性数据分析——数字化探索 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.數字化探索

數字化探索又稱為數字化描述,它主要通過函數,得到數據集的一些數字指標值,來對數據的整體結構、變量情況、分布指標、缺失值等方面進行探索。主要包含以下幾方面的內容:

  • 變量的概況和詳情
  • 分布指標
  • 稀疏性和缺失值
    數字化的探索結果或許沒有圖形看起來直觀,但是卻給出了各項統計指標的確切取值,這對于制作和觀察圖形、設定算法參數提供了依據。

2 變量的概況和詳情

  • 2.1 變量的描述統計量
    1.離散型隨機變量:平均值,中位數,眾數,最小值,最大值,四分位數,標準差等
    2.查看數據的信息:包括每個字段的名稱、非空數量、字段的數據類型 : data.info()
    3.統計學指標快速描述數據的概要: data.describe()
    4.查看的數據大小:data.shape
    5.查看數據的前5行:data.head()
    6.查看數據的后5行:data.tail()
    7.查看數據類型:data.dtypes
  • 2.2 變量的描述統計量——距離
    1、查看數據的前5行

    3、查看數據統計信息

3 分布指標

  • 所謂“分布”,通俗來說即是指數據集中某變量各水平的取值情況。在統計學中,對于離散變量,主要有二項分布、泊松分布、幾何分布等概率;而對于連續性變量,則有均勻分布、指數分布,以及最為熟知的正態分布等。
    1.檢查數據(SAT數據的數學成績)是否服從正太分布?

    2.檢查數據是否服從t分布?

4 稀疏性和缺失值

4.1 問題

  • 4.2.1 稀疏性的基本概念
    數據的稀疏性是對高維數據而言,即數據集中的變量個數成百上千,而其中的大部分變量僅對小部分樣本有取值,高維數據的稀疏性在推薦系統等領域頻繁出現。
  • 4.2.2 數據缺失值
    數據集含有缺失值是很常見的,尤其對于一些需要一個個人工收集匯總起來的數據集,很難保證每一條樣本的每一個變量都有取值。
  • 4.2.3 缺失值的發現方法
    1.元素級別的判斷:dataframe.isnull()
    2.列表級別的判斷:dataframe.isnull().any()

5 完整代碼

# *-* coding:utf-8 *-*# 導入工具庫 import numpy as np import pandas as pd from scipy import stats# 讀取數據集 sat_17 = pd.read_csv('data/sat_2017.csv')# 1. 數字化的描述 def num_describe():print(sat_17.head()) # 前5行print(sat_17.tail()) # 后5行print(sat_17.info()) # 數據集信息print(sat_17.shape) # 數據的大小print(sat_17.describe()) # 統計信息# 2. 檢驗數學成績是否服從正態分布 def check_norm():print("+++++++++++++")stat = stats.kstest(sat_17['Math'], 'norm')res = stats.shapiro(sat_17['Math'])rest = stats.normaltest(sat_17['Math'], axis=0)print(stat)print(res)print(rest)# 3. 檢驗數學成績是否服從t分布 def check_t():print("============")np.random.seed(1)ks = stats.t.fit(sat_17['Math'])df = ks[0]loc = ks[1]scale = ks[2]t_estm = stats.t.rvs(df=df, loc=loc, scale=scale, size=len(sat_17['Math']))res2 = stats.ks_2samp(sat_17['Math'], t_estm)print('res2', res2)# 4 缺失值的發現 def check_isnull():print(sat_17.isnull().head()) # 元素級別print(sat_17.isnull().any()) # 列級別def main():print("--------------")num_describe()check_norm()check_t()check_isnull()if __name__ == '__main__':main()

總結

以上是生活随笔為你收集整理的八、探索性数据分析——数字化探索的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。