商务与经济统计学习 --多个比率的比较、独立性及拟合优度检验
多個(gè)比率的比較、獨(dú)立性及擬合優(yōu)度檢驗(yàn)
前面介紹了關(guān)于一個(gè)和兩個(gè)總體的總體均值、比率和方差的假設(shè)檢驗(yàn)的統(tǒng)計(jì)推斷方法
本章進(jìn)行的假設(shè)檢驗(yàn)所使用的檢驗(yàn)統(tǒng)計(jì)量都基于χ2χ2分布,在所有情形中數(shù)據(jù)都是分類型的 這些χ2χ2檢驗(yàn)是多用途的,并由檢驗(yàn)下列的應(yīng)用擴(kuò)充了假設(shè)
P1:檢驗(yàn)三個(gè)或多個(gè)總體比率的相等性
P2:檢驗(yàn)兩個(gè)分類變量的獨(dú)立性
P3:檢驗(yàn)一個(gè)總體的概率分布是否服從一個(gè)特殊的歷史或理論的概率分布
三個(gè)或多個(gè)總體比率來(lái)的相等性的檢驗(yàn)
兩個(gè)總體比率的統(tǒng)計(jì)推斷方法,其假設(shè)檢驗(yàn)的結(jié)論基于標(biāo)準(zhǔn)正態(tài)檢驗(yàn)統(tǒng)計(jì)量zz。
這里使用檢驗(yàn)統(tǒng)計(jì)量χ2χ2,對(duì)三個(gè)或多個(gè)總體比率的相等性進(jìn)行統(tǒng)計(jì)推斷
p1p1——總體11的總體比率
p2p2——總體22的總體比率
pkpk——總體kk的總體比率
關(guān)于kk個(gè)總體比率相等性的假設(shè)陳述如下:
H0:p1=p2=...=pkH0:p1=p2=...=pk
Ha:Ha: 所有總體比率不全相等
如果樣本數(shù)據(jù)和χ2χ2檢驗(yàn)計(jì)算結(jié)果表明H0H0沒(méi)有拒絕,不能斷定kk個(gè)總體比率有差異。然而,如果樣本數(shù)據(jù)和χ2χ2檢驗(yàn)計(jì)算結(jié)果表明H0H0被拒絕,有統(tǒng)計(jì)證據(jù)得出kk個(gè)總體比率不全相等的結(jié)論 也就是說(shuō) 一個(gè)或多個(gè)總體比率與其他總體比率不相等,可以進(jìn)一步分析,以得出哪個(gè)或哪些總體比率與其他總體比率有顯著差異
假設(shè):H0:p1=p2=...=p3H0:p1=p2=...=p3 Ha:Ha:所有總體比例不全相等
#觀察頻數(shù)——樣本結(jié)果# 樣本1 樣本2 樣本3 合計(jì)# p 69 120 123 312# 1-p 56 80 52 188# 合計(jì) 125 200 175 500根據(jù)原假設(shè)H0:p1=p2=p3=312500=0.624H0:p1=p2=p3=312500=0.624為每一類總體比例的總體最佳估計(jì)量
在假定H0H0為真時(shí)的期望頻數(shù):
eij=第i行合計(jì)數(shù)×第j列合計(jì)數(shù)總樣本容量eij=第i行合計(jì)數(shù)×第j列合計(jì)數(shù)總樣本容量
# 原假設(shè)為真時(shí):期望頻數(shù) # 總體1 總體2 總體3 合計(jì) # p 125x0.624=78 124.8 109.2 312 # 1-p 47 75.2 65.8 188 # 合計(jì) 125 200 175 500檢驗(yàn)統(tǒng)計(jì)量χ2χ2
χ2=∑i∑j(fij?eij)2eijχ2=∑i∑j(fij?eij)2eij
式中:fijfij為第ii行和第jj列的單元格的觀察頻數(shù),eijeij代表在假定H0H0為真時(shí)第ii行和第jj列的單元格的期望頻數(shù)
注意:在涉及kk個(gè)總體比率相等性的χ2χ2檢驗(yàn)中, 上述檢驗(yàn)統(tǒng)計(jì)量服從自由度為k?1k?1的χ2χ2分布,其中每個(gè)單元格的期望頻數(shù)都大于或等于5
檢驗(yàn)總體比率相等性的檢驗(yàn)統(tǒng)計(jì)量χ2χ2的計(jì)算
# 總體 觀察頻數(shù)(f_ij) 期望頻數(shù)(e_ij) 差(f_ij - e_ij) 差的平方 差的平方除以期望頻數(shù) # p1 1 69 78 -9 81 1.04 # p2 2 120 124.8 -4.8 23.04 0.18 # p3 3 123 109.2 13.8 190.44 1.74 # 1-p1 1 56 47 9 81 1.72 # 1-p2 2 80 75.2 4.8 23.04 0.31 # 1-p3 3 52 65.8 13.8 190.44 2.89χ2χ2=7.89 自由度為3-1=2 根據(jù)p值法, p?≤0.05p?≤0.05,因此拒絕H0H0
多重比較方法
使用χ2χ2檢驗(yàn)得到三個(gè)總體的總體比率不全相等(H0H0被拒絕),因此有些總體比率之間存在差異 為了研究總體比率之間存在的差異 先計(jì)算三個(gè)總體的比率
# 品牌忠誠(chéng)度的樣本比率 # p1=69/125=0.552 # p2=120/200=0.600 # p3=123/175=0.7029由于χ2χ2檢驗(yàn)表明總體比率不全相等 因此 進(jìn)行嘗試性確定哪些總體比率之間存在差異是合理的 ——采用Marascuilo方法
# 首先計(jì)算每對(duì)總體的樣本比率之差的絕對(duì)值 # 總體1和總體2 |p1 - p2|=0.048 # 總體1和總體3 |p1 - p3|=0.1509 # 總體2和總體3 |p2 - p3|=0.1029kk個(gè)總體比率的Marascuilo成對(duì)比較方法的臨界值
CVij=χ2α??√pˉi(1?pˉi)ni+pˉj(1?pˉj)nj??????????????√CVij=χα2pˉi(1?pˉi)ni+pˉj(1?pˉj)nj
式中,χ2αχα2為顯著性水平為αα且自由度為k?1k?1的χ2χ2值, pˉipˉi和pˉjpˉj為總體ii和jj的樣本比率,nini和njnj為總體ii和總體jj的樣本容量
利用χ2χ2分布表 k?1=3?1=2k?1=3?1=2的自由度和顯著性水平0.05,我們有χ20.05=5.991χ02.05=5.991
CV12=5.991????√0.552(1?0.552)125+0.6(1?0.6)200??????????????????√=0.138CV12=5.9910.552(1?0.552)125+0.6(1?0.6)200=0.138
CV13=0.1379CV13=0.1379
CV23=0.1198CV23=0.1198
# |pi-pj| CV_ij 如果|pi - pj|>CV_ij,則顯著 # 0.048 0.1380 不顯著 # 0.1509 0.1379 顯著 # 0.1029 0.1198 不顯著# 得出 總體1與總體3之間呈現(xiàn)顯著差異 總體3比總體1具有優(yōu)勢(shì)獨(dú)立性檢驗(yàn)
χ2χ2檢驗(yàn)的一個(gè)重要應(yīng)用是利用樣本數(shù)據(jù)檢驗(yàn)兩個(gè)分類變量的獨(dú)立性
從一個(gè)總體中抽取樣本 并記錄兩個(gè)分類變量的觀測(cè)值 通過(guò)對(duì)分類變量kk的每一對(duì)組合統(tǒng)計(jì)回答的個(gè)數(shù)來(lái)匯總數(shù)據(jù)
檢驗(yàn)的原假設(shè)是兩個(gè)分類變量獨(dú)立,因此這種檢驗(yàn)被稱為獨(dú)立性檢驗(yàn)
兩個(gè)分類變量獨(dú)立性的χ2χ2檢驗(yàn)
H0:兩個(gè)分類變量獨(dú)立H0:兩個(gè)分類變量獨(dú)立 (例子:啤酒偏好與性別獨(dú)立)
Hα:兩個(gè)分類變量不獨(dú)立Hα:兩個(gè)分類變量不獨(dú)立 (例子:啤酒偏好與性別不獨(dú)立)
χ2=∑i∑j(fij?eij)2eijχ2=∑i∑j(fij?eij)2eij
p?p?值法:如果p?p?值 ≤α≤α,則拒絕H0H0
臨界值法:如果χ2≥χ2αχ2≥χα2,則拒絕H0H0
χ2χ2分布的自由度為(r?1)(c?1),α(r?1)(c?1),α為檢驗(yàn)的顯著性水平
擬合優(yōu)度檢驗(yàn)
使用χ2χ2檢驗(yàn)來(lái)確定一個(gè)被抽樣的總體是否服從某個(gè)特殊的概率分布
首先考慮總體服從一個(gè)歷史的多項(xiàng)概率分布情形 并使用擬合優(yōu)度檢驗(yàn)來(lái)確定新的樣本數(shù)據(jù)的總體分布在與歷史的分布中相比較 是否顯示存在改變
然后考慮假設(shè)總體服從正態(tài)概率分布的情形 理由擬合優(yōu)度檢驗(yàn)來(lái)確定樣本數(shù)據(jù)是否顯示正態(tài)概率分布的假設(shè)是適當(dāng)還是不適當(dāng)
以上兩個(gè)檢驗(yàn)都被稱為擬合優(yōu)度檢驗(yàn)
多項(xiàng)概率分布
多項(xiàng)概率分布式二項(xiàng)概率分布每次試驗(yàn)有三個(gè)或多個(gè)結(jié)果情形的推廣
多項(xiàng)概率分布的概率之和等于1
對(duì)于多項(xiàng)概率分布,總體中的每一個(gè)個(gè)體被分配到三個(gè)或多個(gè)類中的一個(gè)或多個(gè)類中的一個(gè)且僅一個(gè)
擬合優(yōu)度的檢驗(yàn)統(tǒng)計(jì)量
χ2=∑i=1k(fi?ei)2eiχ2=∑i=1k(fi?ei)2ei
式中,fifi為第ii類的觀察頻數(shù),eiei為第ii類的期望頻數(shù),kk為類別個(gè)數(shù)
注意:當(dāng)所有類別的期望頻數(shù)都是大于或等于5時(shí),檢驗(yàn)統(tǒng)計(jì)量服從自由度為k?1k?1的χ2χ2分布
多項(xiàng)概率分布的擬合優(yōu)度檢驗(yàn)
P1:建立原假設(shè)和備選假設(shè)
H0:H0:總體服從kk類中每類都有指定的概率的多項(xiàng)概率分布
Hα:Hα:總體不服從kk類中每類都有指定的概率的多項(xiàng)概率分布
P2:選擇一個(gè)隨機(jī)樣本,并記錄美衣類別的觀察頻數(shù)fifi
P3:假定原假設(shè)為真,由此確定每一類別的期望頻數(shù)eiei,eiei等于樣本容量與各類概率的乘積
P4:如果每一類的期望頻數(shù)eiei都大于或等于55,計(jì)算檢驗(yàn)統(tǒng)計(jì)量
χ2=∑i=1k(fi?ei)2eiχ2=∑i=1k(fi?ei)2ei
P5:拒絕法則:
p?p?值法:如果p?p?值 ≤α≤α,則拒絕H0H0
臨界值法:如果χ2≥χ2αχ2≥χα2,則拒絕H0H0
式中,αα為檢驗(yàn)的顯著性水平,k?1k?1為自由度
正態(tài)分布擬合優(yōu)度檢驗(yàn)
正態(tài)分布擬合優(yōu)度檢驗(yàn)也是基于χ2χ2分布的應(yīng)用。在總體服從正態(tài)分布的假設(shè)下,將樣本數(shù)據(jù)的若干類別的觀察頻數(shù)同時(shí)期望頻數(shù)進(jìn)行比較。
正態(tài)分布的擬合優(yōu)度檢驗(yàn)
P1:建立原假設(shè)和備選假設(shè)
H0:總體服從正態(tài)概率分布H0:總體服從正態(tài)概率分布
Hα:總體不服從正態(tài)概率分布Hα:總體不服從正態(tài)概率分布
P2:抽取一個(gè)隨機(jī)樣本,并且
a.計(jì)算樣本均值和樣本標(biāo)準(zhǔn)差
b.定義kk個(gè)取值區(qū)間使得每個(gè)區(qū)間中的期望頻數(shù)至少為5——使用等概率區(qū)間是很好的方法
c.記錄每個(gè)確定好的區(qū)間的數(shù)據(jù)值的觀察頻數(shù)
P3:對(duì)于步驟2(b)中確定每個(gè)區(qū)間,計(jì)算發(fā)生次數(shù)的期望頻數(shù)eiei,即樣本容量與正態(tài)隨機(jī)變量落入每個(gè)區(qū)間的概率的乘積
P4:計(jì)算檢驗(yàn)統(tǒng)計(jì)量
χ2=∑i=1k(fi?ei)2eiχ2=∑i=1k(fi?ei)2ei
P5:拒絕法則:
p?p?值法:如果p?p?值 ≤α≤α,則拒絕H0H0
臨界值法:如果χ2≥χ2αχ2≥χα2,則拒絕H0H0
式中,αα為檢驗(yàn)的顯著性水平,自由度為k?p?1k?p?1,其中pp是有樣本估計(jì)的分布參數(shù)的個(gè)數(shù) 在步驟2(a)中利用樣本估計(jì)了均值和標(biāo)準(zhǔn)差 因此 p=2 自由度為k?2?1=k?3k?2?1=k?3
總結(jié)
以上是生活随笔為你收集整理的商务与经济统计学习 --多个比率的比较、独立性及拟合优度检验的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 最全的PHP后台管理系统源码
- 下一篇: IOUtils使用介绍