日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

六、数据的基本统计描述

發布時間:2024/9/16 编程问答 48 豆豆
生活随笔 收集整理的這篇文章主要介紹了 六、数据的基本统计描述 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.數據的基本統計描述

基本統計描述可以用來識別數據的性質,凸顯哪些數據值應該視為噪聲或離群點。

  • 中心趨勢度量 :均值、中位數、眾數和中列數;
  • 度量數據散步:極差、四分位數、方差、標準差和四分位數極差;
  • 數據的基本統計描述的圖形顯示:分為數圖、直方圖、散點圖。

2 中心趨勢度量

  • 均值
    也就是度量數據分布的中部或中心位置。(給定一種屬性,它的值大部分落在何處)
  • 數據集“中心”的最常用、最有效的數值度量是均值。
  • 均值對應于關系數據庫系統提供的內置聚集函數 average(SQL 的 avg() )
    • 例子
      假設我們有salary的如下值(以千美元為單位),安遞增次序顯示:30,31,47,50,52,52,56,60,63,70,70,110。則工資的平均值為:
    • 中位數
      中位數(Median)又稱中值,統計學中的專有名詞,是按順序排列的一組數據中居于中間位置的數,代表一個樣本、種群或概率分布中的一個數值,其可將數值集合劃分為相等的上下兩部分。
    • 例子
      對于上面的例子,有12個觀測數據,因此中位數不唯一。它可以是最中間兩個值52和56中的任意值。根據約定,我們指定這兩個最中間的值的平均值為中位數。
    • 眾數
      眾數(Mode)是指在統計分布上具有明顯集中趨勢點的數值,代表數據的一般水平。 也是一組數據中出現次數最多的數值,有時眾數在一組數中有好幾個。用M表示。
    • 例子
      對于上面例子中我們有兩個眾數,分別為52000美元和70000美元。
    • 中列數
      中列數是指數據集的最大和最小值的平均值。
    • 例子

    3 度量數據的散步

    • 極差、四分數和四分位數極差
  • 極差指的是最大值(max)與最小值(min)之差。
  • 分位數是取自數據分布的每隔一定間隔上的點,把數據劃分成基本上大小相等的連貫集合。四分位數是3個數據點,它們把數據分布劃分成4個相等的部分,使得每部分表示數據分布的四分之一。
  • 四分位數極差(IQR)指的是第3個四分位數和第1個四分位數兩者之間的差:定義為:
    • 例子
      假設salary的如下值(以千美元為單位),安遞增次序顯示:30,31,47,50,52,52,56,60,63,70,70,110。則工資的平均值為:
  • 極差=110000-30000=80000(美元)。
  • 四分位數:Q1=47000美元,Q2=52000美元,Q3=63000美元。
  • 四分位數極差:IQR=Q3-Q1=63000-47000=16000美元。
    • 方差與標準差
      方差和標準差都是數據散步度量,它們指出數據分布的散步程度。標準差越小,就表明數據觀測與平均值越越接近。
      數值屬性X的N個觀測值x1,x2,…,xn的方差是:
    • 計算方法

    4 圖像顯示

    • 盒圖
      箱形圖(英文:Box plot),又稱為盒須圖、盒式圖、盒狀圖或箱線圖,是一種用作顯示一組數據分散情況資料的統計圖。因型狀如箱子而得名。
    • 分位數圖
      分位數圖(quantile plot)是一種觀察單變量數據分布的簡單有效方法。
    • 分位數-分位數圖(qq圖)
      分位數-分位數圖或q-q圖對著另一個對應的分位數,繪制一個單變量分布的分位數
    • 直方圖或頻率直方圖
      直方圖是一種概況給定屬性X的分布的圖形方法。
    • 散點圖
  • 數據的相關性:正相關和負相關
  • 散點圖是確定兩個數值變量之間看上去是否存在聯系、模式或趨勢的最有效的圖形方法之一。
    在這里插入圖片描述
  • 5 代碼實戰

    5.1 用Numpy實現基本的統計函數

    # *-* coding:utf-8 *-* import numpy as np ex1 = np.random.randint(0, 10, size=(1, 10)) print("ex1:", ex1) # 求元素和 print("sum:", np.sum(ex1)) # 求元素的最小值 print("min:", np.min(ex1)) # 求最小值索引 print("min index:", np.argmin(ex1)) # 求最大值 print("max:", np.max(ex1)) # 求最大值 # 求最大值索引 print("max index:", np.argmax(ex1)) # 求最大值索引 # 求平均值 print("avg:", np.mean(ex1)) # 求平均值 print("avg:", ex1.mean()) # 求中位數 print("中位數:", np.median(ex1)) # 求中位數 # 求方差 print("方差:", np.var(ex1)) # 求標準差 print("標準差:", np.std(ex1)) # 求極差,最大值與最小值的差 print("全距:", np.ptp(ex1)) print("方差:", np.var(ex1)) # 求標準差 print("標準差:", np.std(ex1)) # 求極差,最大值與最小值的差 print("全距:", np.ptp(ex1))

    總結

    以上是生活随笔為你收集整理的六、数据的基本统计描述的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。