當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

用Python学分析 - 单因素方差分析

發(fā)布時(shí)間：2025/3/20 python 34 豆豆

生活随笔收集整理的這篇文章主要介紹了用Python学分析 - 单因素方差分析小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

單因素方差分析(One-Way Analysis of Variance)
判斷控制變量是否對(duì)觀測(cè)變量產(chǎn)生了顯著影響

分析步驟

建立檢驗(yàn)假設(shè)

- H0：不同因子水平間的均值無(wú)差異
　　- H1：不同因子水平間的均值有顯著差異
　　- 【注意】有差異，有可能是所有因子水平間都存在差異，也有可能只有兩個(gè)因子水平間的均值存在差異

計(jì)算檢驗(yàn)統(tǒng)計(jì)量F值

F = MSA / MSE
　　MSA = SSA / ( k - 1 ) MSA：組間均方, 對(duì)總體方差的一個(gè)估計(jì)
　　MSE = SSE / ( n - k ) MSE：組內(nèi)均方,不論H0是否為真，MSE都是總體方差的一個(gè)無(wú)偏估計(jì)
　　SST = SSA + SSE SST：總誤差平方和，反映全部觀測(cè)值的離散情況
SSA:組間誤差平方和，也稱水平項(xiàng)誤差平方和，反映各因子水平（總體）的樣本均值之間的差異程度
SSE: 組內(nèi)誤差平方和

確定P值

方差分析表

根據(jù)給定的顯著性水平，并作出決策

根據(jù)F值進(jìn)行假設(shè)檢驗(yàn)
　　根據(jù)選定的顯著性水平，F值大于臨界值時(shí)，將拒絕原假設(shè)
　　根據(jù)P值進(jìn)行假設(shè)檢驗(yàn)

進(jìn)一步分析

方差齊性檢驗(yàn)

多重比較檢驗(yàn)

- 確定控制變量的不同水平對(duì)觀測(cè)變量的影響程度
　　- 哪個(gè)水平的作用明顯區(qū)別于其他水平
　　- 哪個(gè)水平的作用是不顯著
　　- 等等

【python分析：用ols模塊進(jìn)行計(jì)算】

# 引入數(shù)據(jù) import pandas as pd data_value = { '無(wú)促銷':[23,19,17,26,28,23,24,30],'被動(dòng)促銷':[26,22,20,30,36,28,30,32],'主動(dòng)促銷':[30,23,25,32,48,40,41,46]}# 因變量 da = pd.DataFrame( data_value ).stack() da.columns = ['水平','觀測(cè)值']# ols模塊進(jìn)行分析from statsmodels.formula.api import ols from statsmodels.stats.anova import anova_lm formula = '{} ~ {}'.format(da.columns[1], da.columns[0]) model = ols( formula, da ).fit() anovat = anova_lm(model) print(anovat)

輸出結(jié)果：

【python分析：用自定義函數(shù)進(jìn)行計(jì)算】

''' 遇到問(wèn)題沒(méi)人解答？小編創(chuàng)建了一個(gè)Python學(xué)習(xí)交流QQ群：857662006 尋找有志同道合的小伙伴，互幫互助, 群里還有不錯(cuò)的視頻學(xué)習(xí)教程和PDF電子書(shū)！ ''' def ANOVA_oneway( df, a = 0.05 ):from scipy.stats import f'''進(jìn)行單因素方差分析輸入值：df - pd.DataFrame，第一列為水平，第二列為觀測(cè)值；a - 顯著性水平，默認(rèn)為0.05返回類型：字典返回值：方差分析相關(guān)數(shù)據(jù)'''res = { 'SSA':0, 'SST':0 }mu = df[df.columns[1]].mean()da = df.groupby( df.columns[0] ).agg( {df.columns[1]:['mean','count']})da.columns = ['mean','count']res['df_A'] = len(list(da.index)) - 1 # 自由度# 組間誤差平方和for row in da.index:res['SSA'] += (da.loc[row,'mean'] - mu )**2 * da.loc[row,'count']# 總誤差平方和for e in df[df.columns[1]].values:res['SST'] += (e - mu )**2 res['SSE'] = res['SST'] - res['SSA'] # 組內(nèi)誤差平方和res['df_E'] = len(df) - res['df_A'] - 1 # 殘差自由度res['df_T'] = len(df) - 1 # 總和自由度res['MSA'] = res['SSA'] / res['df_A'] # 組間均方res['MSE'] = res['SSE'] / res['df_E'] # 組內(nèi)均方res['F'] = res['MSA'] / res['MSE'] # F值res['p_value'] = 1 - f(res['df_A'],res['df_E'] ).cdf( res['F']) #p值res['a'] = ares['F_alpha'] = f(res['df_A'],res['df_E'] ).ppf( 1-a ) # 基于顯著性水平a的F臨界值 return resdef print_ANOVA_oneway( d, maxedg = 90 ):'''打印單因素方差分析表輸入值：d - dict字典，包含分析表所需要的數(shù)據(jù); maxedg - 打印輸出時(shí)裝飾分隔符的最大長(zhǎng)度'''title = '【單因素方差分析表】'print( title.center( maxedg ))print( '=' * maxedg )print( '{:^12s}|{:^16s}|{:^6s}|{:^16s}|{:^12s}|{:^10s}|'.format('誤差來(lái)源','平方和','自由度','均方和','F','p值'))print( '-' * maxedg )print( '{:8s}|{:>18,.4f} |{:>8d} |{:>18,.4f} |{:>11.6f} |{:>10.3%} |'.format( '組間（因子影響）',d['SSA'],d['df_A'],d['MSA'],d['F'],d['p_value']))print( '{:10s}|{:>18,.4f} |{:>8d} |{:>18,.4f} |'.format( '組內(nèi)（誤差）',d['SSE'],d['df_E'],d['MSE']))print( '{:14s}|{:>18,.4f} |{:>8d} |'.format( '總和',d['SST'],d['df_T']))print( '-' * maxedg )print('備注：顯著性水平為 {:.2%} 時(shí)，F的臨界值是 {:.6f}。'.format(d['a'],d['F_alpha']))p = 0.95 # 設(shè)定置信度水平 maxedg = 93 # 設(shè)定輸出時(shí)裝飾分隔符的最大長(zhǎng)度 # 計(jì)算并輸出單因素方差分析表 res = ANOVA_oneway( da, a = 1-p ) print_ANOVA_oneway( res, maxedg = maxedg )

總結(jié)

以上是生活随笔為你收集整理的用Python学分析 - 单因素方差分析的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

用Python学分析 - 单因素方差分析

總結(jié)