當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

分类数据的分析-卡方检验运用

發(fā)布時(shí)間：2023/12/19 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了分类数据的分析-卡方检验运用小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

概念

分類(lèi)數(shù)據(jù)

觀測(cè)值只能被分為幾個(gè)類(lèi)別中的某一類(lèi)，如某個(gè)公民的國(guó)籍，也稱(chēng)定性數(shù)據(jù)。

多項(xiàng)試驗(yàn)

當(dāng)分類(lèi)數(shù)據(jù)只涉及到兩個(gè)響應(yīng)結(jié)果（是或不是，成功或失敗等等），就是一個(gè)二項(xiàng)分布。如果分類(lèi)數(shù)據(jù)涉及到兩個(gè)以上的響應(yīng)結(jié)果，則是一個(gè)多項(xiàng)試驗(yàn)。

多項(xiàng)試驗(yàn)的特點(diǎn)：

1. 這種試驗(yàn)有n個(gè)同質(zhì)的試驗(yàn)構(gòu)成（進(jìn)行了樣本為n次試驗(yàn)）

2.每次試驗(yàn)都有k種可能都結(jié)果，這些結(jié)果被稱(chēng)為類(lèi)

3.對(duì)于每次試驗(yàn)，這k中結(jié)果發(fā)生都概率用p1，p2，...，pk表示，并且在每次試驗(yàn)中都相同，其中p1+p2+...+pk=1

4.每次試驗(yàn)相互獨(dú)立

5.感興趣的隨機(jī)變量是格子計(jì)數(shù)（cell counts）：n1，n2，...，nk，即落入k個(gè)類(lèi)中每一類(lèi)的觀測(cè)值數(shù)目。

分類(lèi)概率的檢驗(yàn)

單向表

只有一個(gè)變量被分類(lèi)，試驗(yàn)的結(jié)果可以匯總在一個(gè)單向表（one-way table）內(nèi)

舉例：

一家大型連鎖超市想根據(jù)消費(fèi)者在店內(nèi)購(gòu)買(mǎi)的面包的品牌，來(lái)了解消費(fèi)者偏好。假設(shè)這家超市銷(xiāo)售三個(gè)品牌的面包——兩個(gè)市場(chǎng)上的大品牌A和B，以及這家連鎖店自由品牌。為進(jìn)行這次調(diào)查，隨機(jī)抽取來(lái)150個(gè)消費(fèi)者作為觀測(cè)對(duì)象，將每中品牌的皮娜好數(shù)量記錄下來(lái)，如下表：

消費(fèi)者面包品牌偏好調(diào)查的結(jié)果

品牌A	品牌B	自由品牌
61	53	36

試分析消費(fèi)者對(duì)各個(gè)品牌對(duì)偏好比例是否有差異。

分析：

首先，這個(gè)試驗(yàn)符合多項(xiàng)試驗(yàn)對(duì)條件。我們將p1，p2，p3分別表示為消費(fèi)者偏好品牌A，B和自由品牌對(duì)比例，這個(gè)比例的真實(shí)數(shù)值未知。

為了判斷消費(fèi)者是否對(duì)這些品牌存在特殊偏好，我們將原假設(shè)確定為消費(fèi)者對(duì)面包品牌存在相同對(duì)偏好（即p1=p2=p3=1/3），備選假設(shè)是消費(fèi)者至少對(duì)一個(gè)品牌對(duì)偏好較大（即p1，p2，p3至少有一個(gè)超過(guò)1/3）。

1. 因此我們的假設(shè)是：

H0：p1=p2=p3=1/3

Ha：至少存在一個(gè)概率大于1/3

2. 計(jì)算統(tǒng)計(jì)量卡方

如果H0為真，則各面包品牌消費(fèi)者人數(shù)E1=E2=E3=n*p1=50人，計(jì)數(shù)卡方統(tǒng)計(jì)量χ2：

3. 做出判斷

當(dāng)H0為真時(shí)，此問(wèn)題的χ2近似符合卡方分布，對(duì)這個(gè)簡(jiǎn)單對(duì)分類(lèi)，自由度為3-1=2，取α=0.05, 則χ2(α=0.05)=5.99，拒絕域?yàn)棣?>χ2(α=0.05)

由于χ2=6.52>5.99，因此拒絕原假設(shè)，即在顯著性水平α=0.05下，我們有理由相信，消費(fèi)者總體對(duì)三個(gè)品牌中至少一個(gè)存在較大對(duì)偏好

單向表卡方檢驗(yàn)方法

單向表卡方檢驗(yàn)需要滿(mǎn)足對(duì)條件

1.進(jìn)行了一次多項(xiàng)試驗(yàn)

2.樣本量n足夠大，要求每個(gè)類(lèi)都要滿(mǎn)足期望計(jì)數(shù)Ei大于等于5

雙向（列聯(lián)）表

有兩個(gè)變量被分類(lèi)，試驗(yàn)的結(jié)果可以匯總在一個(gè)雙向表（two-way table）內(nèi)。

舉例

研究人員調(diào)查觀眾都性別和品牌意識(shí)之間都關(guān)系，結(jié)果如下表：

could Identify Product為能夠識(shí)別品牌產(chǎn)品，試分析品牌意識(shí)都男女觀眾是否有現(xiàn)在差異

1. 原假設(shè)和備選假設(shè)

H0：男女對(duì)品牌識(shí)別沒(méi)有差別

Ha：男女對(duì)品牌識(shí)別有差別

2. 計(jì)算統(tǒng)計(jì)量卡方

為了表示方便，表10.3的觀察頻數(shù)和概率分別為n11，n12，n13，n14，p11，p12，p13，p14，

如下圖：

其中pr1，pr2，pc1，pc2稱(chēng)為行和列的邊際概率（marginal probability）

先計(jì)算各單元格的頻次的期望，假設(shè)H0為真（即男女沒(méi)有差別），則

E11=n*p11=n*pr1*pc1（樣本總數(shù)*識(shí)別出品牌的觀眾的概率*男生占總?cè)巳旱母怕?#xff09;

由于真實(shí)概率未知，用（R1/n）估計(jì)pr1，（C1/n）估計(jì)pc1，則

E11=R1*C1/n=136X145/300=65.73

同理，可以計(jì)算

E12=R1*C2/n=70.27，E21=R2*C1/n=79.27，E22=R2*C2/n=84.73

計(jì)算卡方值為：

3. 做出判斷

在一個(gè)雙向列聯(lián)表中檢驗(yàn)獨(dú)立假設(shè)時(shí)，自由度為（r-1）*（c-1）=（2-1）X（2-1）=1，取α=0.05, 則χ2(α=0.05)=3.814，拒絕域?yàn)棣?>χ2(α=0.05)

由于χ2=46。14>χ2(α=0.05)=3.814，因此拒絕原假設(shè)，即男女在識(shí)別品牌上有差異。

兩個(gè)變量的依賴(lài)關(guān)系在將觀測(cè)值轉(zhuǎn)化為比例后看得更清楚，在這個(gè)例子中，選擇觀眾的性別作為基礎(chǔ)變量，然后將第二各變量（這里是觀眾的品牌意識(shí)）的每個(gè)水平的響應(yīng)值表示為基礎(chǔ)變量分類(lèi)匯總的百分比，如男性識(shí)別品牌的比例為95/145=65.5%。如果觀眾的性別和品牌意識(shí)是獨(dú)立的，則表中每個(gè)單元格的百分比應(yīng)該近似等于行百分比。此例中，男女百分比明顯有差異：

雙向表卡方檢驗(yàn)方法

雙向表卡方檢驗(yàn)需要滿(mǎn)足對(duì)條件

1.n各觀測(cè)到的計(jì)數(shù)是從總體中舟曲的隨機(jī)樣本，我們可以將此視為一個(gè)具有rXc中可行結(jié)果的多項(xiàng)試驗(yàn)

2.樣本量n足夠大，要求每個(gè)單元格都要滿(mǎn)足期望計(jì)數(shù)Eij大于等于5

使用卡方檢驗(yàn)需要注意的地方

1.如果期望計(jì)數(shù)很小時(shí)，應(yīng)該避免使用卡方概率分布作為卡方統(tǒng)計(jì)量的抽樣分布的近似，這種近似會(huì)非常弱，真實(shí)的α水平將與制表值有很大的差異。作為經(jīng)驗(yàn)法則，單元格的期望計(jì)數(shù)至少包含5個(gè)。

2.如果卡方值沒(méi)有超過(guò)已經(jīng)確定的卡方臨界值，只能說(shuō)不能拒絕原假設(shè)，而不能說(shuō)接受原假設(shè)，否則可能會(huì)犯第二類(lèi)錯(cuò)誤，且犯這種錯(cuò)誤的概率是未知的。

3.如果卡方值確實(shí)超過(guò)已經(jīng)確定的卡方臨界值，我們要謹(jǐn)慎，避免推斷兩種分類(lèi)變量存在因果關(guān)系，只能說(shuō)這兩種變量在統(tǒng)計(jì)意義上是相互依賴(lài)的。

總結(jié)

以上是生活随笔為你收集整理的分类数据的分析-卡方检验运用的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

数据