日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

2×3卡方检验prism_卡方独立性检验原理

發(fā)布時(shí)間:2023/12/4 编程问答 61 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2×3卡方检验prism_卡方独立性检验原理 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

這篇文章主要講了兩個(gè)部分,一個(gè)是卡方檢驗(yàn)的推導(dǎo),一個(gè)是卡方檢驗(yàn)應(yīng)該取多少樣本量。

卡方獨(dú)立性檢驗(yàn)是為了檢驗(yàn)兩個(gè)變量是否獨(dú)立,我們先來(lái)回顧一下卡方獨(dú)立性檢驗(yàn)的流程:

1、統(tǒng)計(jì)列聯(lián)表,計(jì)算觀察值:

表一

圖中的數(shù)字都是頻數(shù),例如男士分期的頻數(shù)為80,女士分期的頻數(shù)是20。圖中的頻數(shù)90,110,30,70這些是我們的觀察值,為別用

表示。

2、做出假設(shè),計(jì)算期望值:

我們的假設(shè)是性別跟是否分期是獨(dú)立的,所以我們的期望值應(yīng)該是如下圖所示:

圖中的期望值80,120,40,80我們用

表示。

3、計(jì)算卡方統(tǒng)計(jì)量

卡方統(tǒng)計(jì)量

,服從自由度為1的卡方分布。

經(jīng)過(guò)查表,我們可以算出p值為0.012,在0.05的閾值下,我們認(rèn)為觀察到的情況是(表一)小概率時(shí)間,所以拒絕了性別跟是否分期是獨(dú)立的的原假設(shè)。

接下來(lái),我們來(lái)推導(dǎo)出卡方統(tǒng)計(jì)量為什么是這個(gè)樣子的:

,其中 是觀察值, 是期望值(即變量獨(dú)立的假設(shè)下的期望值)

我們先來(lái)了解幾個(gè)必要的知識(shí)點(diǎn):

定義1、卡方分布的定義(抄自維基百科):

若k個(gè)隨機(jī)變量

是相互獨(dú)立,符合標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量(數(shù)學(xué)期望為0、方差為1),則隨機(jī)變量 的平方和 ,被稱為服從自由度為 的卡方分布,記作 。

這個(gè)定義中的關(guān)鍵之處在于隨機(jī)變量

是標(biāo)準(zhǔn)正態(tài)分布且是相互獨(dú)立的。

定理2、若變量A、B的分布都是正態(tài)分布,那么‘變量A、B相互獨(dú)立’與‘A、B的協(xié)方差為0‘是等價(jià)命題。也就是說(shuō)A、B獨(dú)立則A、B的相關(guān)性為0。A、B的相關(guān)性為0則A、B獨(dú)立。

定理3、設(shè)隨機(jī)向量

的協(xié)方差矩陣為C,必存在矩陣A,使得 ,且 的協(xié)方差矩陣為單位矩陣。

下面我們來(lái)猜想到底這個(gè)列聯(lián)表的卡方統(tǒng)計(jì)量的公式是怎么得來(lái)的。

現(xiàn)在我們?cè)O(shè)有變量A、B.

A有m種互斥的可能取值,分別記為

,每種取值的概率分別為

B有n種互斥的可能取值,分別記為

。每種取值的概率分別為

我們做卡方檢驗(yàn),原假設(shè)時(shí)A、B是獨(dú)立的。在這個(gè)假設(shè)下,有:

顯然N次抽樣的情況下

被抽到的次數(shù)呈二項(xiàng)分布,均值為 ,方差為 。

結(jié)合中心極限定律可知,當(dāng)N很大時(shí)

被抽到的次數(shù)呈正態(tài)分布,均值為 ,方差為 。

現(xiàn)在我們已經(jīng)有了m*n個(gè)分布呈正態(tài)分布的變量(A,B),已經(jīng)滿足卡方統(tǒng)計(jì)量中正態(tài)分布的要求,但是還差一個(gè)獨(dú)立性。所以很自然想到如果用定理3去除這些變量的相關(guān)性,然后再計(jì)算卡方統(tǒng)計(jì)量豈不是搞定了。

事實(shí)上,確實(shí)是這樣的,下面我們就來(lái)驗(yàn)證這個(gè)想法。

為了書寫簡(jiǎn)便我們將這m*m種可能性重排,對(duì)應(yīng)關(guān)系為

,

對(duì)應(yīng)的概率 。

個(gè)變量有如下關(guān)系 ,

所以應(yīng)該先任意丟棄一個(gè)變量再來(lái)計(jì)算協(xié)方差矩陣。

記Z的協(xié)方差矩陣為C,第i行第j列元素記為

,表示 的協(xié)方差,

顯然:

根據(jù)定理3,我們一定找得出矩陣B,使得

的協(xié)方差矩陣為單位矩陣,

所以

的每個(gè)元素均的分布均為正態(tài)分布,且兩兩間相互獨(dú)立。

所以我們推論的卡方統(tǒng)計(jì)量為:

真正的卡方統(tǒng)計(jì)量為:

欲證

只需

只需

( 是單位矩陣)

又因?yàn)?

所以

顯然(^^)

所以證得

總結(jié)一下,卡方獨(dú)立性檢驗(yàn)的公式由來(lái)就是:

在A、B變量獨(dú)立的原假設(shè)下,將列聯(lián)表中的變量(正態(tài)分布)用線性變換去除相關(guān)性(等同于獨(dú)立,見定理2),然后再求得卡方統(tǒng)計(jì)量。

下面我們來(lái)看看卡方獨(dú)立性檢驗(yàn)時(shí)應(yīng)該取多少樣本量

在做項(xiàng)目的時(shí)候,我們有幾百萬(wàn)的樣本,如果用全部的樣本去做卡方檢驗(yàn)的話,會(huì)出現(xiàn)這種情況:

除了隨機(jī)屬性,90%以上的屬性與標(biāo)簽(二分類)的卡方檢驗(yàn)都是顯著的。這樣的話對(duì)于屬性和標(biāo)簽的卡方檢驗(yàn)還有什么意義?

其實(shí)這里涉及到卡方檢驗(yàn)的靈敏度問(wèn)題,樣本量越大卡方檢驗(yàn)越靈敏。

我們看看卡方統(tǒng)計(jì)量中的一項(xiàng)

。假設(shè) 偏離期望值的量的比例為 ,即所以 。

不變的情況下樣本量越大導(dǎo)致 越大,導(dǎo)致卡方統(tǒng)計(jì)量 越大,導(dǎo)致p值越小。

所以就得出了我們的結(jié)論:樣本量越大,卡方檢驗(yàn)越靈敏。

回到我們的例子,如果用幾百萬(wàn)的數(shù)據(jù)去做卡方檢驗(yàn)的話,卡方檢驗(yàn)就十分靈敏,兩個(gè)變量稍微的相關(guān)都能檢查出來(lái),但這樣檢查出來(lái)的變量是我們想要的嗎?

顯然不是,因?yàn)榧尤胱兞渴怯谐杀镜?#xff1a;

1、計(jì)算成本

2、過(guò)擬合風(fēng)險(xiǎn)

3、由于共線性導(dǎo)致的變量失效

所以不是所有相關(guān)的變量我們都要列入模型中,而是對(duì)模型貢獻(xiàn)大的變量要列入模型中。

所以我們要的是容易檢查出相關(guān)性的變量。

要實(shí)現(xiàn)這個(gè)目的就要讓卡方檢驗(yàn)不那么靈敏,即減少卡方檢驗(yàn)的樣本量。

所以是這么個(gè)邏輯:

這些變量連不靈敏的卡方檢驗(yàn)都檢測(cè)出顯著,所以這些變量跟標(biāo)簽肯定很不獨(dú)立,這就是我想要的變量。

總結(jié)一下,對(duì)于用于篩選特征的卡方檢驗(yàn),不是樣本量越多越好。有時(shí)候,為了得到不那么靈敏的卡方檢驗(yàn),我們減少了樣本量。

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的2×3卡方检验prism_卡方独立性检验原理的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。