基于卡方的独立性检验
本文給出基于兩種統(tǒng)計量的假設(shè)檢驗(yàn),來檢驗(yàn)變量間是否獨(dú)立--χ2與秩和。χ2越小說明越獨(dú)立
假設(shè)檢驗(yàn)
假設(shè)檢驗(yàn)(Test of Hypothesis)又稱為顯著性檢驗(yàn)(Test of Ststistical Significance)。
在抽樣研究中,由于樣本所來自的總體其參數(shù)是未知的,只能根據(jù)樣本統(tǒng)計量對其所來自總體的參數(shù)進(jìn)行估計,如果要比較兩個或幾個總體的參數(shù)是否相同,也只能分別從這些總體中抽取樣本,根據(jù)這些樣本的統(tǒng)計量作出統(tǒng)計推斷,籍此比較總體參數(shù)是否相同。由于存在抽樣誤差,總體參數(shù)與樣本統(tǒng)計量并不恰好相同,因此判斷兩個或多個總體參數(shù)是否相同是一件很困難的事情。
?
基本的解決方法是:根據(jù)問題的需要對所研究的總體作某種假設(shè),記作H0;選取合適的統(tǒng)計量,這個統(tǒng)計量的選取要使得在假設(shè)H0成立時,其分布為已知;由實(shí)測的樣本,計算出統(tǒng)計量的值,并根據(jù)預(yù)先給定的顯著性水平進(jìn)行檢驗(yàn),作出拒絕或接受假設(shè)H0的判斷。常用的假設(shè)檢驗(yàn)方法有u—檢驗(yàn)法、t—檢驗(yàn)法、χ2檢驗(yàn)法、F—檢驗(yàn)法,秩和檢驗(yàn)等。
χ2獨(dú)立性檢
χ2檢驗(yàn)是一種無參數(shù)的假設(shè)檢驗(yàn)。
考慮這以一個問題:某地區(qū)有10000合法選民,現(xiàn)統(tǒng)計了男性和女性分別有多少人參加了投票。
?
Men Women _____________________________ Voted 2792 3591 Didn't vote 1486 2131問“性別”和“投票”是不是相互獨(dú)立的?
下面就使用假設(shè)檢驗(yàn)的方法解決這個問題。
我們假設(shè)H0:性別和投票相互獨(dú)立。備選假設(shè)H1:性別與投票相關(guān)。
計算上表的行和與列和。
OBSERVED TABLEMen Women Total _____________________________ |______ Voted 2792 3591 | 6383 Didn't vote 1486 2131 | 3617 _____________________________________ Total 4278 5722 | 10000原始表中的數(shù)據(jù)用Aij表示,行和用Ai·表示,列和用A·j表示,全部元素的和用A··表示。
投票的概率:
選民為男性的概率:
在H0下,我們認(rèn)為投票與性別無關(guān),所以男性參加投票的概率為:
這樣可以算出男性投票的期望值:0.2731×10000=2731。于是就得到了下面這張“期望表”
EXPECTED TABLEMen Women Total _____________________________ |______ Voted 2731 3652 | 6383 Didn't vote 1547 2070 | 3617 _____________________________________ Total 4278 5722 | 10000觀察值與期望值的差值為誤差。對于每一個觀察值我們計算誤差的平方與期望值的比值。
c11 = (2792-2731)^2/2731
c12 = (3591-3652)^2/3652
c21 = (1486-1547)^2/1547
c22 = (2131-2070)^2/2070
χ2=c11+c12+c21+c22=6.584283457
定義自由度為(rows-1)*(cols-1),在我們的例子中自由度為1。
查表:
Degrees offreedom 99% ... 10% 5% 1% _____________________________________________________ 1 0.00016 2.71 3.84 6.64 2 0.020 4.60 5.99 9.21由于χ2介于3.84和6.64之間,所以P值介于5%和1%之間,也就是說我們接收假設(shè)H0的把握還不到5%,因此拒絕它。
最后給出CHI-Square獨(dú)立檢測的公式:
自由度,r表示行數(shù),c表示列數(shù)
期望值,nr是行和,nc是列和,n是所有元素的和
統(tǒng)計量,Or,c是觀察值
由(3)式可以推出,對于一個2×2的contigency table,χ2統(tǒng)計量可以由(4)式來計算。
?
| ?Variable 2 | ? ?Data type 1 | ? ?Data type 2 | ? ?Totals |
| ?Category 1 | ? ?a | ? b | ? a + b |
| ?Category 2 | ? ?c | ? d | ? c + d |
| ?Total | ? a + c | ? b + d | ? a + b + c + d = N |
基于χ2的特征項(xiàng)選擇
既然χ2統(tǒng)計量可以獨(dú)立性檢驗(yàn),從獨(dú)立性檢驗(yàn)的對立面來考慮,χ2統(tǒng)計量也可以用來作相關(guān)性的度量。χ2越小說明變量之間越獨(dú)立,χ2越大說明變量之間越相關(guān)。
| ? | 文檔類別Cj | Cj的補(bǔ)集 |
| 詞條w | a | b |
| w的補(bǔ)集 | c | d |
a表示詞條w在類別Cj中出現(xiàn)的頻數(shù);b表示詞條w在Cj以外的其他類別中出現(xiàn)的頻數(shù);c表示除w以外的其他詞條在Cj中出現(xiàn)的頻數(shù);d表示除w以外的其他詞條在除Cj外的類別中出現(xiàn)的頻數(shù)。
利用公式(4)計算每個詞條對于每種分類的χ2統(tǒng)計量,記為χ2(w,Cj)。說明詞條與分類正相關(guān);說明詞條與分類負(fù)相關(guān)。
則詞條對整個語料庫的記χ2值為
根據(jù)(5)式計算每個詞條的平均χ2值,選最大的K個作為特征項(xiàng)。
秩和檢驗(yàn)
秩和檢驗(yàn)也是一種無參數(shù)的假設(shè)檢驗(yàn)。它從兩個未知分布的總體中獨(dú)立、隨機(jī)地抽取容量分別為n1、n2的樣本,設(shè)n1<n2。然后把兩個樣本混合在一起進(jìn)行排序,得到每個樣本單位的秩次。當(dāng)幾個數(shù)據(jù)的大小相同秩次卻不相同時,最終的秩次取其算術(shù)平均。?
| 數(shù)據(jù): | 5 | 6 | 6 | 7 | 7 | 8 | 8 | 9 | 10 | 10 | 11 |
| 秩號: | 1 | 2.5 | 2.5 | 4.5 | 4.5 | 6.5 | 6.5 | 8 | 9.5 | 9.5 | 11 |
紅顏色的數(shù)據(jù)來自一個總體,黑顏色的來自另一個總體。n1=5,n2=6。
原假設(shè):兩個總體服從相同的分布。
備選假設(shè):兩個總體服從不同的分布。
總體Ⅰ的秩和???T=2.5+4.5+6.5+6.5+9.5=29.5
取顯著水平α=0.05,進(jìn)行雙側(cè)檢驗(yàn),查“秩和檢驗(yàn)表”,n1=5,n2=6,得臨界值T1(α)=20,T2(α )=40。 20<29.5<40,樣本落入接受域,所以接受原假設(shè)。?總結(jié)
以上是生活随笔為你收集整理的基于卡方的独立性检验的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于H5的实时语音聊天
- 下一篇: Ueditor word图片转存按钮灰色