分类数据的分析-卡方检验运用
概念
分類數(shù)據(jù)
觀測(cè)值只能被分為幾個(gè)類別中的某一類,如某個(gè)公民的國(guó)籍,也稱定性數(shù)據(jù)。
多項(xiàng)試驗(yàn)
當(dāng)分類數(shù)據(jù)只涉及到兩個(gè)響應(yīng)結(jié)果(是或不是,成功或失敗等等),就是一個(gè)二項(xiàng)分布。如果分類數(shù)據(jù)涉及到兩個(gè)以上的響應(yīng)結(jié)果,則是一個(gè)多項(xiàng)試驗(yàn)。
多項(xiàng)試驗(yàn)的特點(diǎn):
1. 這種試驗(yàn)有n個(gè)同質(zhì)的試驗(yàn)構(gòu)成(進(jìn)行了樣本為n次試驗(yàn))
2.每次試驗(yàn)都有k種可能都結(jié)果,這些結(jié)果被稱為類
3.對(duì)于每次試驗(yàn),這k中結(jié)果發(fā)生都概率用p1,p2,...,pk表示,并且在每次試驗(yàn)中都相同,其中p1+p2+...+pk=1
4.每次試驗(yàn)相互獨(dú)立
5.感興趣的隨機(jī)變量是格子計(jì)數(shù)(cell counts):n1,n2,...,nk,即落入k個(gè)類中每一類的觀測(cè)值數(shù)目。
分類概率的檢驗(yàn)
單向表
只有一個(gè)變量被分類,試驗(yàn)的結(jié)果可以匯總在一個(gè)單向表(one-way table)內(nèi)
舉例:
一家大型連鎖超市想根據(jù)消費(fèi)者在店內(nèi)購(gòu)買的面包的品牌,來(lái)了解消費(fèi)者偏好。假設(shè)這家超市銷售三個(gè)品牌的面包——兩個(gè)市場(chǎng)上的大品牌A和B,以及這家連鎖店自由品牌。為進(jìn)行這次調(diào)查,隨機(jī)抽取來(lái)150個(gè)消費(fèi)者作為觀測(cè)對(duì)象,將每中品牌的皮娜好數(shù)量記錄下來(lái),如下表:
消費(fèi)者面包品牌偏好調(diào)查的結(jié)果
| 品牌A | 品牌B | 自由品牌 |
| 61 | 53 | 36 |
試分析消費(fèi)者對(duì)各個(gè)品牌對(duì)偏好比例是否有差異。
分析:
首先,這個(gè)試驗(yàn)符合多項(xiàng)試驗(yàn)對(duì)條件。我們將p1,p2,p3分別表示為消費(fèi)者偏好品牌A,B和自由品牌對(duì)比例,這個(gè)比例的真實(shí)數(shù)值未知。
為了判斷消費(fèi)者是否對(duì)這些品牌存在特殊偏好,我們將原假設(shè)確定為消費(fèi)者對(duì)面包品牌存在相同對(duì)偏好(即p1=p2=p3=1/3),備選假設(shè)是消費(fèi)者至少對(duì)一個(gè)品牌對(duì)偏好較大(即p1,p2,p3至少有一個(gè)超過(guò)1/3)。
1. 因此我們的假設(shè)是:
H0:p1=p2=p3=1/3
Ha:至少存在一個(gè)概率大于1/3
2. 計(jì)算統(tǒng)計(jì)量卡方
如果H0為真,則各面包品牌消費(fèi)者人數(shù)E1=E2=E3=n*p1=50人,計(jì)數(shù)卡方統(tǒng)計(jì)量χ2:
3. 做出判斷
當(dāng)H0為真時(shí),此問(wèn)題的χ2近似符合卡方分布,對(duì)這個(gè)簡(jiǎn)單對(duì)分類,自由度為3-1=2,取α=0.05, 則χ2(α=0.05)=5.99,拒絕域?yàn)棣?>χ2(α=0.05)
由于χ2=6.52>5.99,因此拒絕原假設(shè),即在顯著性水平α=0.05下,我們有理由相信,消費(fèi)者總體對(duì)三個(gè)品牌中至少一個(gè)存在較大對(duì)偏好
單向表卡方檢驗(yàn)方法
單向表卡方檢驗(yàn)需要滿足對(duì)條件
1.進(jìn)行了一次多項(xiàng)試驗(yàn)
2.樣本量n足夠大,要求每個(gè)類都要滿足期望計(jì)數(shù)Ei大于等于5
雙向(列聯(lián))表
有兩個(gè)變量被分類,試驗(yàn)的結(jié)果可以匯總在一個(gè)雙向表(two-way table)內(nèi)。
舉例
研究人員調(diào)查觀眾都性別和品牌意識(shí)之間都關(guān)系,結(jié)果如下表:
could Identify Product為能夠識(shí)別品牌產(chǎn)品,試分析品牌意識(shí)都男女觀眾是否有現(xiàn)在差異
1. 原假設(shè)和備選假設(shè)
H0:男女對(duì)品牌識(shí)別沒(méi)有差別
Ha:男女對(duì)品牌識(shí)別有差別
2. 計(jì)算統(tǒng)計(jì)量卡方
為了表示方便,表10.3的觀察頻數(shù)和概率分別為n11,n12,n13,n14,p11,p12,p13,p14,
如下圖:
其中pr1,pr2,pc1,pc2稱為行和列的邊際概率(marginal probability)
先計(jì)算各單元格的頻次的期望,假設(shè)H0為真(即男女沒(méi)有差別),則
E11=n*p11=n*pr1*pc1(樣本總數(shù)*識(shí)別出品牌的觀眾的概率*男生占總?cè)巳旱母怕?#xff09;
由于真實(shí)概率未知,用(R1/n)估計(jì)pr1,(C1/n)估計(jì)pc1,則
E11=R1*C1/n=136X145/300=65.73
同理,可以計(jì)算
E12=R1*C2/n=70.27,E21=R2*C1/n=79.27,E22=R2*C2/n=84.73
計(jì)算卡方值為:
3. 做出判斷
在一個(gè)雙向列聯(lián)表中檢驗(yàn)獨(dú)立假設(shè)時(shí),自由度為(r-1)*(c-1)=(2-1)X(2-1)=1,取α=0.05, 則χ2(α=0.05)=3.814,拒絕域?yàn)棣?>χ2(α=0.05)
由于χ2=46。14>χ2(α=0.05)=3.814,因此拒絕原假設(shè),即男女在識(shí)別品牌上有差異。
兩個(gè)變量的依賴關(guān)系在將觀測(cè)值轉(zhuǎn)化為比例后看得更清楚,在這個(gè)例子中,選擇觀眾的性別作為基礎(chǔ)變量,然后將第二各變量(這里是觀眾的品牌意識(shí))的每個(gè)水平的響應(yīng)值表示為基礎(chǔ)變量分類匯總的百分比,如男性識(shí)別品牌的比例為95/145=65.5%。如果觀眾的性別和品牌意識(shí)是獨(dú)立的,則表中每個(gè)單元格的百分比應(yīng)該近似等于行百分比。此例中,男女百分比明顯有差異:
雙向表卡方檢驗(yàn)方法
雙向表卡方檢驗(yàn)需要滿足對(duì)條件
1.n各觀測(cè)到的計(jì)數(shù)是從總體中舟曲的隨機(jī)樣本,我們可以將此視為一個(gè)具有rXc中可行結(jié)果的多項(xiàng)試驗(yàn)
2.樣本量n足夠大,要求每個(gè)單元格都要滿足期望計(jì)數(shù)Eij大于等于5
使用卡方檢驗(yàn)需要注意的地方
1.如果期望計(jì)數(shù)很小時(shí),應(yīng)該避免使用卡方概率分布作為卡方統(tǒng)計(jì)量的抽樣分布的近似,這種近似會(huì)非常弱,真實(shí)的α水平將與制表值有很大的差異。作為經(jīng)驗(yàn)法則,單元格的期望計(jì)數(shù)至少包含5個(gè)。
2.如果卡方值沒(méi)有超過(guò)已經(jīng)確定的卡方臨界值,只能說(shuō)不能拒絕原假設(shè),而不能說(shuō)接受原假設(shè),否則可能會(huì)犯第二類錯(cuò)誤,且犯這種錯(cuò)誤的概率是未知的。
3.如果卡方值確實(shí)超過(guò)已經(jīng)確定的卡方臨界值,我們要謹(jǐn)慎,避免推斷兩種分類變量存在因果關(guān)系,只能說(shuō)這兩種變量在統(tǒng)計(jì)意義上是相互依賴的。
總結(jié)
以上是生活随笔為你收集整理的分类数据的分析-卡方检验运用的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 基于单样本单统计推断-假设检验
- 下一篇: 简单线性回归