當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

基于卡方的独立性检验

發(fā)布時(shí)間：2023/12/14 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了基于卡方的独立性检验小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文給出基于兩種統(tǒng)計(jì)量的假設(shè)檢驗(yàn)，來(lái)檢驗(yàn)變量間是否獨(dú)立--χ²與秩和。χ²越小說(shuō)明越獨(dú)立

假設(shè)檢驗(yàn)

假設(shè)檢驗(yàn)（Test of Hypothesis）又稱為顯著性檢驗(yàn)（Test of Ststistical Significance）。

在抽樣研究中，由于樣本所來(lái)自的總體其參數(shù)是未知的，只能根據(jù)樣本統(tǒng)計(jì)量對(duì)其所來(lái)自總體的參數(shù)進(jìn)行估計(jì)，如果要比較兩個(gè)或幾個(gè)總體的參數(shù)是否相同，也只能分別從這些總體中抽取樣本，根據(jù)這些樣本的統(tǒng)計(jì)量作出統(tǒng)計(jì)推斷，籍此比較總體參數(shù)是否相同。由于存在抽樣誤差，總體參數(shù)與樣本統(tǒng)計(jì)量并不恰好相同，因此判斷兩個(gè)或多個(gè)總體參數(shù)是否相同是一件很困難的事情。

基本的解決方法是：根據(jù)問(wèn)題的需要對(duì)所研究的總體作某種假設(shè)，記作H0；選取合適的統(tǒng)計(jì)量，這個(gè)統(tǒng)計(jì)量的選取要使得在假設(shè)H0成立時(shí)，其分布為已知；由實(shí)測(cè)的樣本，計(jì)算出統(tǒng)計(jì)量的值，并根據(jù)預(yù)先給定的顯著性水平進(jìn)行檢驗(yàn)，作出拒絕或接受假設(shè)H0的判斷。常用的假設(shè)檢驗(yàn)方法有u—檢驗(yàn)法、t—檢驗(yàn)法、χ²檢驗(yàn)法、F—檢驗(yàn)法，秩和檢驗(yàn)等。

χ²獨(dú)立性檢

χ²檢驗(yàn)是一種無(wú)參數(shù)的假設(shè)檢驗(yàn)。

考慮這以一個(gè)問(wèn)題：某地區(qū)有10000合法選民，現(xiàn)統(tǒng)計(jì)了男性和女性分別有多少人參加了投票。

Men Women _____________________________ Voted 2792 3591 Didn't vote 1486 2131

問(wèn)“性別”和“投票”是不是相互獨(dú)立的？

下面就使用假設(shè)檢驗(yàn)的方法解決這個(gè)問(wèn)題。

我們假設(shè)H_0：性別和投票相互獨(dú)立。備選假設(shè)H₁：性別與投票相關(guān)。

計(jì)算上表的行和與列和。

OBSERVED TABLEMen Women Total _____________________________ |______ Voted 2792 3591 | 6383 Didn't vote 1486 2131 | 3617 _____________________________________ Total 4278 5722 | 10000

原始表中的數(shù)據(jù)用A_ij表示，行和用A_i·表示，列和用A_·j表示，全部元素的和用A_··表示。

投票的概率：

選民為男性的概率：

在H₀下，我們認(rèn)為投票與性別無(wú)關(guān)，所以男性參加投票的概率為：

這樣可以算出男性投票的期望值：0.2731×10000=2731。于是就得到了下面這張“期望表”

EXPECTED TABLEMen Women Total _____________________________ |______ Voted 2731 3652 | 6383 Didn't vote 1547 2070 | 3617 _____________________________________ Total 4278 5722 | 10000

觀察值與期望值的差值為誤差。對(duì)于每一個(gè)觀察值我們計(jì)算誤差的平方與期望值的比值。

c11 = (2792-2731)^2/2731
c12 = (3591-3652)^2/3652
c21 = (1486-1547)^2/1547
c22 = (2131-2070)^2/2070

χ²=c11+c12+c21+c22=6.584283457

定義自由度為(rows-1)*(cols-1)，在我們的例子中自由度為1。

查表：

Degrees offreedom 99% ... 10% 5% 1% _____________________________________________________ 1 0.00016 2.71 3.84 6.64 2 0.020 4.60 5.99 9.21

由于χ²介于3.84和6.64之間，所以P值介于5%和1%之間，也就是說(shuō)我們接收假設(shè)H₀的把握還不到5%，因此拒絕它。

最后給出CHI-Square獨(dú)立檢測(cè)的公式：

自由度，r表示行數(shù)，c表示列數(shù)

期望值，n_r是行和，n_c是列和，n是所有元素的和

統(tǒng)計(jì)量，O_r,c是觀察值

由（3）式可以推出，對(duì)于一個(gè)2×2的contigency table，χ²統(tǒng)計(jì)量可以由（4）式來(lái)計(jì)算。

?Variable 2	? ?Data type 1	? ?Data type 2	? ?Totals
?Category 1	? ?a	? b	? a + b
?Category 2	? ?c	? d	? c + d
?Total	? a + c	? b + d	? a + b + c + d = N

基于χ²的特征項(xiàng)選擇

既然χ²統(tǒng)計(jì)量可以獨(dú)立性檢驗(yàn)，從獨(dú)立性檢驗(yàn)的對(duì)立面來(lái)考慮，χ²統(tǒng)計(jì)量也可以用來(lái)作相關(guān)性的度量。χ²越小說(shuō)明變量之間越獨(dú)立，χ²越大說(shuō)明變量之間越相關(guān)。

?	文檔類別C_j	C_j的補(bǔ)集
詞條w	a	b
w的補(bǔ)集	c	d

a表示詞條w在類別C_j中出現(xiàn)的頻數(shù)；b表示詞條w在C_j以外的其他類別中出現(xiàn)的頻數(shù)；c表示除w以外的其他詞條在C_j中出現(xiàn)的頻數(shù)；d表示除w以外的其他詞條在除C_j外的類別中出現(xiàn)的頻數(shù)。

利用公式（4）計(jì)算每個(gè)詞條對(duì)于每種分類的χ²統(tǒng)計(jì)量，記為χ²(w,C_j)。說(shuō)明詞條與分類正相關(guān)；說(shuō)明詞條與分類負(fù)相關(guān)。

則詞條對(duì)整個(gè)語(yǔ)料庫(kù)的記χ²值為

根據(jù)（5）式計(jì)算每個(gè)詞條的平均χ²值，選最大的K個(gè)作為特征項(xiàng)。

秩和檢驗(yàn)

秩和檢驗(yàn)也是一種無(wú)參數(shù)的假設(shè)檢驗(yàn)。它從兩個(gè)未知分布的總體中獨(dú)立、隨機(jī)地抽取容量分別為n1、n2的樣本，設(shè)n1<n2。然后把兩個(gè)樣本混合在一起進(jìn)行排序，得到每個(gè)樣本單位的秩次。當(dāng)幾個(gè)數(shù)據(jù)的大小相同秩次卻不相同時(shí)，最終的秩次取其算術(shù)平均。?

數(shù)據(jù)：	5	6	6	7	7	8	8	9	10	10	11
秩號(hào)：	1	2.5	2.5	4.5	4.5	6.5	6.5	8	9.5	9.5	11

紅顏色的數(shù)據(jù)來(lái)自一個(gè)總體，黑顏色的來(lái)自另一個(gè)總體。n1=5,n2=6。

原假設(shè)：兩個(gè)總體服從相同的分布。

備選假設(shè)：兩個(gè)總體服從不同的分布。

總體Ⅰ的秩和???T=2.5+4.5+6.5+6.5+9.5=29.5

取顯著水平α=0.05，進(jìn)行雙側(cè)檢驗(yàn)，查“秩和檢驗(yàn)表”，n1=5，n2=6，得臨界值T1(α)=20，T2(α )=40。 20<29.5<40，樣本落入接受域，所以接受原假設(shè)。?

總結(jié)

以上是生活随笔為你收集整理的基于卡方的独立性检验的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

独立性

上一篇：基于H5的实时语音聊天
下一篇： Ueditor word图片转存按钮灰色