日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

分类数据的分析-卡方检验运用

發(fā)布時(shí)間:2023/12/19 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 分类数据的分析-卡方检验运用 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

概念

分類數(shù)據(jù)

觀測(cè)值只能被分為幾個(gè)類別中的某一類,如某個(gè)公民的國(guó)籍,也稱定性數(shù)據(jù)。

多項(xiàng)試驗(yàn)

當(dāng)分類數(shù)據(jù)只涉及到兩個(gè)響應(yīng)結(jié)果(是或不是,成功或失敗等等),就是一個(gè)二項(xiàng)分布。如果分類數(shù)據(jù)涉及到兩個(gè)以上的響應(yīng)結(jié)果,則是一個(gè)多項(xiàng)試驗(yàn)。

多項(xiàng)試驗(yàn)的特點(diǎn):

1. 這種試驗(yàn)有n個(gè)同質(zhì)的試驗(yàn)構(gòu)成(進(jìn)行了樣本為n次試驗(yàn))

2.每次試驗(yàn)都有k種可能都結(jié)果,這些結(jié)果被稱為類

3.對(duì)于每次試驗(yàn),這k中結(jié)果發(fā)生都概率用p1,p2,...,pk表示,并且在每次試驗(yàn)中都相同,其中p1+p2+...+pk=1

4.每次試驗(yàn)相互獨(dú)立

5.感興趣的隨機(jī)變量是格子計(jì)數(shù)(cell counts):n1,n2,...,nk,即落入k個(gè)類中每一類的觀測(cè)值數(shù)目。

分類概率的檢驗(yàn)

單向表

只有一個(gè)變量被分類,試驗(yàn)的結(jié)果可以匯總在一個(gè)單向表(one-way table)內(nèi)

舉例:

一家大型連鎖超市想根據(jù)消費(fèi)者在店內(nèi)購(gòu)買的面包的品牌,來(lái)了解消費(fèi)者偏好。假設(shè)這家超市銷售三個(gè)品牌的面包——兩個(gè)市場(chǎng)上的大品牌A和B,以及這家連鎖店自由品牌。為進(jìn)行這次調(diào)查,隨機(jī)抽取來(lái)150個(gè)消費(fèi)者作為觀測(cè)對(duì)象,將每中品牌的皮娜好數(shù)量記錄下來(lái),如下表:

消費(fèi)者面包品牌偏好調(diào)查的結(jié)果

品牌A

品牌B

自由品牌

61

53

36

試分析消費(fèi)者對(duì)各個(gè)品牌對(duì)偏好比例是否有差異。

分析:

首先,這個(gè)試驗(yàn)符合多項(xiàng)試驗(yàn)對(duì)條件。我們將p1,p2,p3分別表示為消費(fèi)者偏好品牌A,B和自由品牌對(duì)比例,這個(gè)比例的真實(shí)數(shù)值未知。

為了判斷消費(fèi)者是否對(duì)這些品牌存在特殊偏好,我們將原假設(shè)確定為消費(fèi)者對(duì)面包品牌存在相同對(duì)偏好(即p1=p2=p3=1/3),備選假設(shè)是消費(fèi)者至少對(duì)一個(gè)品牌對(duì)偏好較大(即p1,p2,p3至少有一個(gè)超過(guò)1/3)。

1. 因此我們的假設(shè)是:

H0:p1=p2=p3=1/3

Ha:至少存在一個(gè)概率大于1/3

2. 計(jì)算統(tǒng)計(jì)量卡方

如果H0為真,則各面包品牌消費(fèi)者人數(shù)E1=E2=E3=n*p1=50人,計(jì)數(shù)卡方統(tǒng)計(jì)量χ2:

3. 做出判斷

當(dāng)H0為真時(shí),此問(wèn)題的χ2近似符合卡方分布,對(duì)這個(gè)簡(jiǎn)單對(duì)分類,自由度為3-1=2,取α=0.05, 則χ2(α=0.05)=5.99,拒絕域?yàn)棣?>χ2(α=0.05)

由于χ2=6.52>5.99,因此拒絕原假設(shè),即在顯著性水平α=0.05下,我們有理由相信,消費(fèi)者總體對(duì)三個(gè)品牌中至少一個(gè)存在較大對(duì)偏好

單向表卡方檢驗(yàn)方法

單向表卡方檢驗(yàn)需要滿足對(duì)條件

1.進(jìn)行了一次多項(xiàng)試驗(yàn)

2.樣本量n足夠大,要求每個(gè)類都要滿足期望計(jì)數(shù)Ei大于等于5

雙向(列聯(lián))表

有兩個(gè)變量被分類,試驗(yàn)的結(jié)果可以匯總在一個(gè)雙向表(two-way table)內(nèi)。

舉例

研究人員調(diào)查觀眾都性別和品牌意識(shí)之間都關(guān)系,結(jié)果如下表:

could Identify Product為能夠識(shí)別品牌產(chǎn)品,試分析品牌意識(shí)都男女觀眾是否有現(xiàn)在差異

1. 原假設(shè)和備選假設(shè)

H0:男女對(duì)品牌識(shí)別沒(méi)有差別

Ha:男女對(duì)品牌識(shí)別有差別

2. 計(jì)算統(tǒng)計(jì)量卡方

為了表示方便,表10.3的觀察頻數(shù)和概率分別為n11,n12,n13,n14,p11,p12,p13,p14,

如下圖:

其中pr1,pr2,pc1,pc2稱為行和列的邊際概率(marginal probability)

先計(jì)算各單元格的頻次的期望,假設(shè)H0為真(即男女沒(méi)有差別),則

E11=n*p11=n*pr1*pc1(樣本總數(shù)*識(shí)別出品牌的觀眾的概率*男生占總?cè)巳旱母怕?#xff09;

由于真實(shí)概率未知,用(R1/n)估計(jì)pr1,(C1/n)估計(jì)pc1,則

E11=R1*C1/n=136X145/300=65.73

同理,可以計(jì)算

E12=R1*C2/n=70.27,E21=R2*C1/n=79.27,E22=R2*C2/n=84.73

計(jì)算卡方值為:

3. 做出判斷

在一個(gè)雙向列聯(lián)表中檢驗(yàn)獨(dú)立假設(shè)時(shí),自由度為(r-1)*(c-1)=(2-1)X(2-1)=1,取α=0.05, 則χ2(α=0.05)=3.814,拒絕域?yàn)棣?>χ2(α=0.05)

由于χ2=46。14>χ2(α=0.05)=3.814,因此拒絕原假設(shè),即男女在識(shí)別品牌上有差異。

兩個(gè)變量的依賴關(guān)系在將觀測(cè)值轉(zhuǎn)化為比例后看得更清楚,在這個(gè)例子中,選擇觀眾的性別作為基礎(chǔ)變量,然后將第二各變量(這里是觀眾的品牌意識(shí))的每個(gè)水平的響應(yīng)值表示為基礎(chǔ)變量分類匯總的百分比,如男性識(shí)別品牌的比例為95/145=65.5%。如果觀眾的性別和品牌意識(shí)是獨(dú)立的,則表中每個(gè)單元格的百分比應(yīng)該近似等于行百分比。此例中,男女百分比明顯有差異:

雙向表卡方檢驗(yàn)方法

雙向表卡方檢驗(yàn)需要滿足對(duì)條件

1.n各觀測(cè)到的計(jì)數(shù)是從總體中舟曲的隨機(jī)樣本,我們可以將此視為一個(gè)具有rXc中可行結(jié)果的多項(xiàng)試驗(yàn)

2.樣本量n足夠大,要求每個(gè)單元格都要滿足期望計(jì)數(shù)Eij大于等于5

使用卡方檢驗(yàn)需要注意的地方

1.如果期望計(jì)數(shù)很小時(shí),應(yīng)該避免使用卡方概率分布作為卡方統(tǒng)計(jì)量的抽樣分布的近似,這種近似會(huì)非常弱,真實(shí)的α水平將與制表值有很大的差異。作為經(jīng)驗(yàn)法則,單元格的期望計(jì)數(shù)至少包含5個(gè)。

2.如果卡方值沒(méi)有超過(guò)已經(jīng)確定的卡方臨界值,只能說(shuō)不能拒絕原假設(shè),而不能說(shuō)接受原假設(shè),否則可能會(huì)犯第二類錯(cuò)誤,且犯這種錯(cuò)誤的概率是未知的。

3.如果卡方值確實(shí)超過(guò)已經(jīng)確定的卡方臨界值,我們要謹(jǐn)慎,避免推斷兩種分類變量存在因果關(guān)系,只能說(shuō)這兩種變量在統(tǒng)計(jì)意義上是相互依賴的。

總結(jié)

以上是生活随笔為你收集整理的分类数据的分析-卡方检验运用的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。