六、数据的基本统计描述
生活随笔
收集整理的這篇文章主要介紹了
六、数据的基本统计描述
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1.數據的基本統計描述
基本統計描述可以用來識別數據的性質,凸顯哪些數據值應該視為噪聲或離群點。
- 中心趨勢度量 :均值、中位數、眾數和中列數;
- 度量數據散步:極差、四分位數、方差、標準差和四分位數極差;
- 數據的基本統計描述的圖形顯示:分為數圖、直方圖、散點圖。
2 中心趨勢度量
- 均值
也就是度量數據分布的中部或中心位置。(給定一種屬性,它的值大部分落在何處)
- 例子
假設我們有salary的如下值(以千美元為單位),安遞增次序顯示:30,31,47,50,52,52,56,60,63,70,70,110。則工資的平均值為:
- 中位數
中位數(Median)又稱中值,統計學中的專有名詞,是按順序排列的一組數據中居于中間位置的數,代表一個樣本、種群或概率分布中的一個數值,其可將數值集合劃分為相等的上下兩部分。 - 例子
對于上面的例子,有12個觀測數據,因此中位數不唯一。它可以是最中間兩個值52和56中的任意值。根據約定,我們指定這兩個最中間的值的平均值為中位數。
- 眾數
眾數(Mode)是指在統計分布上具有明顯集中趨勢點的數值,代表數據的一般水平。 也是一組數據中出現次數最多的數值,有時眾數在一組數中有好幾個。用M表示。 - 例子
對于上面例子中我們有兩個眾數,分別為52000美元和70000美元。 - 中列數
中列數是指數據集的最大和最小值的平均值。 - 例子
3 度量數據的散步
- 極差、四分數和四分位數極差
- 例子
假設salary的如下值(以千美元為單位),安遞增次序顯示:30,31,47,50,52,52,56,60,63,70,70,110。則工資的平均值為:
- 方差與標準差
方差和標準差都是數據散步度量,它們指出數據分布的散步程度。標準差越小,就表明數據觀測與平均值越越接近。
數值屬性X的N個觀測值x1,x2,…,xn的方差是:
- 計算方法
4 圖像顯示
- 盒圖
箱形圖(英文:Box plot),又稱為盒須圖、盒式圖、盒狀圖或箱線圖,是一種用作顯示一組數據分散情況資料的統計圖。因型狀如箱子而得名。
- 分位數圖
分位數圖(quantile plot)是一種觀察單變量數據分布的簡單有效方法。
- 分位數-分位數圖(qq圖)
分位數-分位數圖或q-q圖對著另一個對應的分位數,繪制一個單變量分布的分位數
- 直方圖或頻率直方圖
直方圖是一種概況給定屬性X的分布的圖形方法。
- 散點圖
在這里插入圖片描述
5 代碼實戰
5.1 用Numpy實現基本的統計函數
# *-* coding:utf-8 *-* import numpy as np ex1 = np.random.randint(0, 10, size=(1, 10)) print("ex1:", ex1) # 求元素和 print("sum:", np.sum(ex1)) # 求元素的最小值 print("min:", np.min(ex1)) # 求最小值索引 print("min index:", np.argmin(ex1)) # 求最大值 print("max:", np.max(ex1)) # 求最大值 # 求最大值索引 print("max index:", np.argmax(ex1)) # 求最大值索引 # 求平均值 print("avg:", np.mean(ex1)) # 求平均值 print("avg:", ex1.mean()) # 求中位數 print("中位數:", np.median(ex1)) # 求中位數 # 求方差 print("方差:", np.var(ex1)) # 求標準差 print("標準差:", np.std(ex1)) # 求極差,最大值與最小值的差 print("全距:", np.ptp(ex1)) print("方差:", np.var(ex1)) # 求標準差 print("標準差:", np.std(ex1)) # 求極差,最大值與最小值的差 print("全距:", np.ptp(ex1))總結
以上是生活随笔為你收集整理的六、数据的基本统计描述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 五、数据对象和属性类型
- 下一篇: 七、度量数据的相似性和想异性