统计学基本知识三
聲明:文中的圖來自于可汗學(xué)院公開課,若有侵權(quán),聯(lián)系我刪除。
假設(shè)檢驗(yàn):
先看一個z分布的例子:
注意:零假設(shè)一般傾向于保守的。
在上圖中:
1、先假設(shè)零假設(shè)成立,即藥物無效,總體均值仍為1.2s;
2、在此前提下,實(shí)驗(yàn)得出了1.05s的樣本均值,0.5的樣本標(biāo)準(zhǔn)差(可求出抽樣分布的標(biāo)準(zhǔn)差σx為0.5/10=0.05),我們要考慮的就是,在藥物無效的前提下,得到這樣的結(jié)果是多大的概率?
3、(1.2-1.05)/0.05=3,也就是說,1.05這個樣本均值落在距離總體均值3個抽樣分布標(biāo)準(zhǔn)差σx的地方;而查表可知,落在距離“總體均值”3個標(biāo)準(zhǔn)差內(nèi)的區(qū)間的可能性高達(dá)99.7%,換言之,落在該區(qū)間之外的可能性只有0.3%;
4、所以在零假設(shè)成立的前提下,出現(xiàn)這樣的樣本結(jié)果只有0.3%的可能性,幾乎不可能,從而我們應(yīng)該拒絕零假設(shè),選擇備擇假設(shè)。?
第一型錯誤:拒絕了正確的零假設(shè)。如果某個假設(shè)的概率低于某門檻,我們會拒絕該零假設(shè)。而在這種極小的概率下事件是可能發(fā)生的,犯錯概率是存在的,這就是第一型錯誤。
如下圖所示:
t分布的一個例子:
當(dāng)樣本容量n<30時,我們采用t統(tǒng)計(jì)量。在本例子中,n=10,所以我們采用的是t 統(tǒng)計(jì)量;
而t統(tǒng)計(jì)量的計(jì)算方式跟z統(tǒng)計(jì)量是一樣的,都是通過用樣本均值x減去總體均值u再除以標(biāo)準(zhǔn)差(也是s/根號n);
不同的在于,求出的值,查的表不一樣:表中分出了單側(cè)檢驗(yàn)和雙側(cè)檢驗(yàn),本例中是單側(cè)檢驗(yàn);
n=10所以自由度是9;查到的99%對應(yīng)的2.82意味著,大于u+2.82(s/根號n)的樣本均值出現(xiàn)的可能性為1%,根據(jù)對稱性可知,小于u-2.81(s/根號n)的樣本均值出現(xiàn)的概率也為1%(所占面積為0.01),而-3<-2.81,所以本例中,在零假設(shè)成立的前提下,出現(xiàn)該樣本的可能性低于1%,所以拒絕零假設(shè)。
求95%的置信區(qū)間:
通過上述表雙側(cè),自由度為9,知道兩側(cè)點(diǎn)如下圖所示:
?離散分布的例子:
比例的分布為二項(xiàng)分布。當(dāng)np≥5或者n(1-p)≥5時,樣本比例的分布為漸近正態(tài)分布。
查表:?
而2.14>1.6更加極端,小于5% 故拒絕零假設(shè)。
獨(dú)立變量之間的期望和方差關(guān)系:
Var(X±Y)=Var(X)+Var(Y)?
E(X-Y)=E(X)-E(Y)?
E(X+Y)=E(X)+E(Y)
均值之差的假設(shè)檢驗(yàn):
總體占比的比較:
男女各1000投票,溫是否有差異,求95%的置信區(qū)間。
由上可看出95%的幾率,男女之差是落在這個范圍之內(nèi),該范圍內(nèi)男性比女性占比大。
總體占比比較的假設(shè)檢驗(yàn):
?
?
?
?
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)