當前位置：首頁 > 编程语言 > python >内容正文

python

简单数据分布分析及python实现

發布時間：2025/3/21 python 29 豆豆

生活随笔收集整理的這篇文章主要介紹了简单数据分布分析及python实现小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

簡單數據分布分析及python實現

數據集中趨勢分析
- 平均值
- 中位數
- 眾數
- 分位數
數據離中趨勢分析
- 標準差
- 方差
數據的分布分析
- 正態分布
- 卡方分布（x^2^分布）
- t分布
- f分布

數據集中趨勢分析

數據集中趨勢分析是為了衡量數據的集中程度，常用的集中趨勢衡量指標包括數據的平均值、中位數、眾數和分位數。平均值和中位數多作為連續數據的衡量指標，眾數多作為離散數據的衡量指標。

平均值

python實現。

import pandas as pd import numpy as np df = pd.DataFrame(np.random.randint(1,100,100).reshape((25,4))) df.mean(axis = 0) #計算每列的平均值 df.mean(axis = 1) # 計算每行的平均值

中位數

中位數是按順序排列的一組數據中位于中間位置的那個數，當數據個數為奇數時，中位數即為正中間的那個數，當數據個數為偶數時，中位數即為中間兩個數的平均值，python實現如下：

import pandas as pd import numpy as np df = pd.DataFrame(np.random.randint(1,100,100).reshape((25,4))) df.median(axis = 0) # 計算每列的中位數 df.median(axis = 1) # 計算每行的中位數

眾數

眾數是一組數據中出現次數最多的數值，代表該組數據的集中趨勢點，一組數據中的眾數可能有多個。python實現如下：

import pandas as pd import numpy as np df = pd.DataFrame(np.random.randint(1,100,100).reshape((25,4))) df.mode(axis = 0) # 計算每列的眾數 df.mode(axis = 1) # 計算每行的眾數

分位數

分位數也稱為分位點，即對一組數據進行從到大小排列后，按照該組數據的分布范圍進行等分，一般最常用的是進行四等分，處于25%位置的數字稱為下四分位數，處于50%位置的數字稱為中位數，處于75%位置的數字稱為上四分位數。python實現如下：

import pandas as pd import numpy as np df = pd.DataFrame(np.random.randint(1,100,100).reshape((25,4))) df.quantile(axis = 0,q = 0.25) # 計算每列的下四分位數 df.quantile(axis = 1,q = 0.25) # 計算每行的下四分位數

數據離中趨勢分析

數據的離中趨勢用來衡量數據的離散程度，常用的衡量指標有標準差和方差。

標準差

式中： μ為算術平均值，σ為標準差。
python實現如下：

df = pd.DataFrame(np.random.randint(1,100,100).reshape((25,4))) df.std(axis = 0) # 計算每列的標準差 df.std(axis = 1) # 計算每行的標準差

方差

式中：s²為方差，μ為算術平均值。
python實現如下：

df = pd.DataFrame(np.random.randint(1,100,100).reshape((25,4))) df.var(axis = 0) # 計算每列的方差 df.var(axis = 1) # 計算每行的方差

數據的分布分析

正態分布

式中：μ為算術平均值，σ為標準差

python實現如下：

import scipy.stats as ss norm_sample = ss.norm(0,1) #建立均值為0，標準差為1的正態分布 norm_sample.pdf([0,2,-2]) # 概率密度計算函數 norm_sample.cdf([0,2,-2]) # 累積分布概率計算函數 norm_sample.ppf([0.9,0.95,0.98]) # 累積分布概率計算反函數

卡方分布（x²分布）

式中：n為自由度，Γ(x)表示伽馬函數。
python實現如下：

import scipy.stats as ss norm_sample = ss.chi2(3) #建立自由度為3的卡方分布 norm_sample.pdf([0,2,10]) # 概率密度計算函數 norm_sample.cdf([0,2,10e5]) # 累積分布概率計算函數 norm_sample.ppf([0.9,0.95,0.98]) # 累積分布概率計算反函數

t分布

式中：n為自由度，Γ(x)表示伽馬函數。
python實現如下：

import scipy.stats as ss norm_sample = ss.t(3) #建立自由度為3的t分布 norm_sample.pdf([0,2,-2]) # 概率密度計算函數 norm_sample.cdf([0,2,-2]) # 累積分布概率計算函數 norm_sample.ppf([0.9,0.95,0.98]) # 累積分布概率計算反函數

f分布

式中：m和n為自由度，Γ(x)表示伽馬函數。
python實現如下：

import scipy.stats as ss norm_sample = ss.f(4,3) #建立自由度,4和3的f分布 norm_sample.pdf([0.1,2,10]) # 概率密度計算函數 norm_sample.cdf([0.1,2,10e5]) # 累積分布概率計算函數 norm_sample.ppf([0.9,0.95,0.98]) # 累積分布概率計算反函數

by CyrusMay 2020 04 07
“你問我全世界是哪里最美，答案是你身邊”
——————五月天——————

總結

以上是生活随笔為你收集整理的简单数据分布分析及python实现的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：神经网络入门-MLP, RNN, BiR
下一篇：最优化算法python实现篇（2）—无约