假设检验(Hypothesis Testing)
假設(shè)檢驗的定義
假設(shè)檢驗:先對總體參數(shù)提出某種假設(shè),然后利用樣本數(shù)據(jù)判斷假設(shè)是否成立。在邏輯上,假設(shè)檢驗采用了反證法,即先提出假設(shè),再通過適當(dāng)?shù)慕y(tǒng)計學(xué)方法證明這個假設(shè)基本不可能是真的。(說“基本”是因為統(tǒng)計得出的結(jié)果來自于隨機樣本,結(jié)論不可能是絕對的,所以我們只能根據(jù)概率上的一些依據(jù)進行相關(guān)的判斷。)
假設(shè)檢驗依據(jù)的是小概率思想,即小概率事件在一次試驗中基本上不會發(fā)生。
如果樣本數(shù)據(jù)拒絕該假設(shè),那么我們說該假設(shè)檢驗結(jié)果具有統(tǒng)計顯著性。一項檢驗結(jié)果在統(tǒng)計上是“顯著的”,意思是指樣本和總體之間的差別不是由于抽樣誤差或偶然而造成的。
假設(shè)檢驗的術(shù)語
零假設(shè)(null hypothesis):是試驗者想收集證據(jù)予以反對的假設(shè),也稱為原假設(shè),通常記為H0。
例如:零假設(shè)是測試版本的指標均值小于等于原始版本的指標均值。
備擇假設(shè)(alternative hypothesis):是試驗者想收集證據(jù)予以支持的假設(shè),通常記為H1或 Ha。
例如:備擇假設(shè)是測試版本的指標均值大于原始版本的指標均值。
雙尾檢驗(two-tailed test):如果備擇假設(shè)沒有特定的方向性,并含有符號“=?”,這樣的檢驗稱為雙尾檢驗。
例如:零假設(shè)是測試版本的指標均值等于原始版本的指標均值,備擇假設(shè)是測試版本的指標均值不等于原始版本的指標均值。
單尾檢驗(one-tailed test):如果備擇假設(shè)具有特定的方向性,并含有符號 “>” 或 “<” ,這樣的檢驗稱為單尾檢驗。單尾檢驗分為左尾(lowertail)和右尾(uppertail)。
例如:零假設(shè)是測試版本的指標均值小于等于原始版本的指標均值,備擇假設(shè)是測試版本的指標均值大于原始版本的指標均值。
檢驗統(tǒng)計量(test statistic):用于假設(shè)檢驗計算的統(tǒng)計量。
例如:Z值、t值、F值、卡方值。
顯著性水平(level of significance):當(dāng)零假設(shè)為真時,錯誤拒絕零假設(shè)的臨界概率,即犯第一類錯誤的最大概率,用α表示。
例如:在5%的顯著性水平下,樣本數(shù)據(jù)拒絕原假設(shè)。
置信度(confidence level):置信區(qū)間包含總體參數(shù)的確信程度,即1-α。
例如:95%的置信度表明有95%的確信度相信置信區(qū)間包含總體參數(shù)(假設(shè)進行100次抽樣,有95次計算出的置信區(qū)間包含總體參數(shù))。
置信區(qū)間(confidence interval):包含總體參數(shù)的隨機區(qū)間。
功效(power):正確拒絕零假設(shè)的概率,即1-β。當(dāng)檢驗結(jié)果是不能拒絕零假設(shè),人們又需要進行決策時,需要關(guān)注功效。功效越大,犯第二類錯誤的可能性越小。
臨界值(critical value):與檢驗統(tǒng)計量的具體值進行比較的值。是在概率密度分布圖上的分位數(shù)。這個分位數(shù)在實際計算中比較麻煩,它需要對數(shù)據(jù)分布的密度函數(shù)積分來獲得。
臨界區(qū)域(critical region):拒絕原假設(shè)的檢驗統(tǒng)計量的取值范圍,也稱為拒絕域(rejection region),是由一組臨界值組成的區(qū)域。如果檢驗統(tǒng)計量在拒絕域內(nèi),那么我們拒絕原假設(shè)。
p值(p-value):在零假設(shè)為真時所得到的樣本觀察結(jié)果或獲得更極端結(jié)果的概率。也可以說,p值是當(dāng)原假設(shè)為真時,錯誤拒絕原假設(shè)的實際概率。
左尾檢驗的P值為檢驗統(tǒng)計量x小于樣本統(tǒng)計值C的概率,即:p = P( x < C)
右尾檢驗的P值為檢驗統(tǒng)計量x大于樣本統(tǒng)計值C的概率,即:p = P( x > C)
雙尾檢驗的P值為檢驗統(tǒng)計量x落在樣本統(tǒng)計值C為端點的尾部區(qū)域內(nèi)的概率的2倍,即:p = 2P( x > C) (當(dāng)C位于分布曲線的右端時) 或p = 2P( X< C) (當(dāng)C 位于分布曲線的左端時) 。
效應(yīng)量(effect size):樣本間差異或相關(guān)程度的量化指標。效應(yīng)量越大,兩組平均數(shù)離得越遠,差異越大。如果結(jié)果具有統(tǒng)計顯著性,那么有必要報告效應(yīng)量的大小。效應(yīng)量太小,意味著即使結(jié)果有統(tǒng)計顯著性,也缺乏實用價值。
假設(shè)檢驗的兩類錯誤
第 I 類錯誤(棄真錯誤):零假設(shè)為真時錯誤地拒絕了零假設(shè)。犯第 I 類錯誤的最大概率記為 α(alpha)。
第 II 類錯誤(取偽錯誤):零假設(shè)為假時錯誤地接受了零假設(shè)。犯第 II 類錯誤的最大概率記為 β(beta)。
在假設(shè)檢驗中,我們可能在決策上犯這兩類錯誤。一般來說,在樣本量確定的情況下,任何決策無法同時避免這兩類錯誤的發(fā)生,即在減少第一類錯誤發(fā)生的同時,會增大第二類錯誤發(fā)生的幾率,或者在減少第二類錯誤發(fā)生的同時,會增大第一類錯誤發(fā)生的幾率。
在大多數(shù)情況下,人們會控制第一類錯誤發(fā)生的概率。在進行假設(shè)檢驗時,人們通過事先給定顯著性水平α的值來控制第一類錯誤發(fā)生的概率,常用的 α 值有 0.01,0.05,0.1。如果犯第一類錯誤的成本不高,那么可以選擇較大的α值;如果犯第一類錯誤的成本很高,則選擇較小的α值。
注:人們將只控制第一類錯誤的假設(shè)檢驗稱為顯著性檢驗,許多假設(shè)檢驗的應(yīng)用都屬于這一類型。
假設(shè)檢驗的步驟
1,定義總體
2,確定原假設(shè)和備擇假設(shè)
3,選擇檢驗統(tǒng)計量(確定假設(shè)檢驗的種類)
4,選擇顯著性水平
5,從總體進行抽樣,得到一定的數(shù)據(jù)
6,根據(jù)樣本數(shù)據(jù)計算檢驗統(tǒng)計量的具體值
7,依據(jù)所構(gòu)造的檢驗統(tǒng)計量的抽樣分布和顯著性水平,確定臨界值和拒絕域
8,比較檢驗統(tǒng)計量的值與臨界值,如果檢驗統(tǒng)計量的值在拒絕域內(nèi),則拒絕原假設(shè)
假設(shè)檢驗的決策標準
由于檢驗是利用事先給定顯著性水平的方法來控制犯錯概率的,所以對于兩個數(shù)據(jù)比較相近的假設(shè)檢驗,我們無法知道哪一個假設(shè)更容易犯錯,即我們通過這種方法只能知道根據(jù)這次抽樣而犯第一類錯誤的最大概率,而無法知道具體在多大概率水平上犯錯。計算P值有效的解決了這個問題,P值其實就是按照抽樣分布計算的一個概率值,這個值是根據(jù)檢驗統(tǒng)計量計算出來的。通過直接比較P值與給定的顯著性水平α的大小就可以知道是否拒絕原假設(shè),顯然這就可以代替比較檢驗統(tǒng)計量的具體值與臨界值的大小的方法。而且通過這種方法,我們還可以知道在P值小于α的情況下犯第一類錯誤的實際概率是多少。假如P=0.03<α(0.05),那么拒絕假設(shè),這一決策可能犯錯的概率就是0.03。
因此假設(shè)檢驗的第7,8步可以改成:7,利用檢驗統(tǒng)計量的具體值計算p值;8,將給定的顯著性水平α與p值比較,作出結(jié)論:如果p值<=α,則拒絕原假設(shè)。
附:用于解讀p值的指導(dǎo)意見:p值小于0.01---強有力的證據(jù)判定備擇假設(shè)為真;
p值介于0.01~0.05---有力的證據(jù)判定備擇假設(shè)為真;
p值介于0.05~0.1---較弱的證據(jù)判定備擇假設(shè)為真;
p值大于0.1---沒有足夠的證據(jù)判定備擇假設(shè)為真。
需要指出的是,如果p>α,那么原假設(shè)不被拒絕,在這種情況下,實際上是無法做出決策的。如果我們需要做出決策,那么此時就需要關(guān)注犯第二類錯誤的概率。當(dāng)同時控制第一類錯誤和第二類錯誤發(fā)生的概率時,假設(shè)檢驗的結(jié)論就是:拒絕原假設(shè)或接受原假設(shè)。
假設(shè)檢驗的種類
主要包括:Z檢驗,t檢驗,卡方檢驗,F(xiàn)檢驗。
下面分別來看一下這四種假設(shè)檢驗:
Z檢驗(Z test):需要事先知道總體方差,另外,如果總體不服從正態(tài)分布,那么樣本量要大于等于30,如果總體服從正態(tài)分布,那么對樣本量沒有要求。
Z檢驗用于比較樣本和總體的均值是否不同或者兩個樣本的均值是否不同。檢驗統(tǒng)計量z值的分布服從正態(tài)分布。
由于總體方差一般都是未知的,并且Z檢驗只適合大樣本的情況,而t檢驗同時適用于大樣本和小樣本的情況(至于為什么,請看:https://www.cnblogs.com/HuZihu/p/9442316.html),因此用t檢驗比較多。
t檢驗(t test):事先不知道總體方差,另外,如果總體不服從正態(tài)分布,那么樣本量要大于等于30,如果總體服從正態(tài)分布,那么對樣本量沒有要求。
t檢驗分為單樣本t檢驗,配對t檢驗和獨立樣本t檢驗。
單樣本t檢驗(One Sample T-Test):用樣本均值和總體均值進行比較,來檢驗樣本與總體之間的差異性。
(是隨機樣本均值,μ0是總體均值,s是樣本標準差,n是樣本中的觀察值數(shù)量,自由度為n-1)
配對t檢驗(Paired Sample T-Test):用兩個配對樣本中各對觀測值的差值均數(shù)和假設(shè)的差值進行比較,來檢驗以下幾種情形: 1,同一受試對象或兩個同質(zhì)受試對象接受兩種不同處理后的差異;2,同一受試對象接受處理前后的差異。
配對t檢驗的本質(zhì)是先計算成對觀測值之間的差異的均值,之后執(zhí)行單樣本t檢驗。
(d為每對數(shù)據(jù)的差值,d¯為樣本差值的均數(shù),Sd¯為樣本差值均數(shù)的標準差,即樣本差值的標準誤差,Sd為樣本差值的標準差,n為成對觀測值的對數(shù),自由度為n-1)
獨立樣本t檢驗(Independent Samples T-Test):用從兩個不同總體抽取出的樣本的均值進行比較,來檢驗兩個總體之間的差異性。其又分為方差相等和方差不相等這兩種情況。
方差相等(Equal Variance or pooled T-Test):每組數(shù)據(jù)的樣本數(shù)量相同,或者兩組數(shù)據(jù)的方差相差不大。
方差不相等(Unequal Variance T-Test):每組數(shù)據(jù)的樣本數(shù)量不同,并且兩組數(shù)據(jù)的方差相差較大。此假設(shè)檢驗亦稱為Welch's t-test。
卡方檢驗(chi-square test):卡方檢驗屬于非參數(shù)檢驗,不存在具體參數(shù),且不需要有總體服從正態(tài)分布的假設(shè)。
卡方檢驗分為擬合優(yōu)度檢驗和獨立性檢驗。
擬合優(yōu)度檢驗(Goodness-of-Fit Test):用樣本中各個變量的觀察頻數(shù)與期望頻數(shù)進行比較,來檢驗總體的概率分布是否服從理論概率分布。
擬合優(yōu)度檢驗的H0是:總體服從某個概率分布。
建立四格表,表里填寫相應(yīng)的觀察頻數(shù)和期望頻數(shù)。
計算χ2值:(O代表觀察頻數(shù),E代表期望頻數(shù))。如果統(tǒng)計量(χ2)的值很小,說明觀察頻數(shù)和期望頻數(shù)之間的差別不顯著,統(tǒng)計量越大,差別越顯著。
根據(jù)χ2分布及自由度可以確定在H0假設(shè)成立的情況下獲得當(dāng)前檢驗統(tǒng)計量的值及更極端情況的概率P。如果P值很小,說明觀察值與理論值偏離程度太大,應(yīng)當(dāng)拒絕原假設(shè);否則不能拒絕原假設(shè)。
獨立性檢驗(IndependenceTest):用樣本中兩個類別型變量的觀察頻數(shù)與期望頻數(shù)進行比較,來檢驗樣本中兩個類別型變量是否相互獨立。
獨立性檢驗的H0是:兩個類別型變量相互獨立。
建立列聯(lián)表,一個變量作為行,另一個變量作為列。例如:
| 貓 | 狗 | 合計 | |
| 男 | 207 | 282 | 489 |
| 女 | 231 | 242 | 473 |
| 合計 | 438 | 524 | 962 |
(表里填寫的是分別喜歡貓或狗的男女人數(shù))
計算出期望頻數(shù),期望頻數(shù)=第i行合計數(shù)*第j列合計數(shù)/樣本量。(比如,喜歡貓的男性期望頻數(shù)就是489*438/962=222.6。)
計算χ2值:(O代表觀察頻數(shù),E代表期望頻數(shù)),df=(行數(shù) − 1)*(列數(shù) − 1)
根據(jù)χ2分布及自由度可以確定在H0假設(shè)成立的情況下獲得當(dāng)前統(tǒng)計量及更極端情況的概率P。如果P值很小,說明兩個類別變量之間有關(guān)聯(lián),應(yīng)當(dāng)拒絕原假設(shè)。
F檢驗(F test)
F檢驗分為方差齊性檢驗和方差分析。
方差齊性檢驗(F-Test for Equality of Variances):用從兩個不同總體抽取出的樣本的方差進行比較,來檢驗兩個總體的方差是否相同。
(s2是樣本方差:)
如果這兩個樣本來自于方差差不多大的總體,那么F值就會接近于1;相反,如果F值非常大,那就說明兩個總體差異較大。
方差齊性檢驗的前提:兩組樣本均取自正態(tài)分布的總體。(注:由于F檢驗對于數(shù)據(jù)的正態(tài)性非常敏感,因此在檢驗方差齊性的時候,Levene檢驗的穩(wěn)健性要優(yōu)于F檢驗。Levene檢驗也可用于多個樣本方差的比較。)
方差分析(Analysis of Variance,ANOVA):用從兩個或兩個以上不同總體(各個總體的方差差不多大 )抽取出的樣本的組內(nèi)方差和組間方差進行比較,來檢驗多個總體均值的差異性。其又分為單因素方差分析和多因素方差分析。
這里主要說一下單因素方差分析:,即將多個樣本之間的均方差(組間均方差)除以樣本內(nèi)部的均方差(組內(nèi)均方差)。(其中是總均值,,k是樣本數(shù)量,N是k個樣本的總觀察值的數(shù)量)
方差分析的前提:總體需要滿足正態(tài)性和方差齊性。如果總體方差不齊,可以用Welch's ANOVA,具體請見:http://www.real-statistics.com/one-way-analysis-of-variance-anova/welchs-procedure/。
總結(jié)
以上是生活随笔為你收集整理的假设检验(Hypothesis Testing)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 设置小米路由器的步骤小米的路由器如何设置
- 下一篇: 淘宝店铺装修代码大全