當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2×3卡方检验prism_卡方独立性检验原理

發布時間：2023/12/4 编程问答 76 豆豆

生活随笔收集整理的這篇文章主要介紹了 2×3卡方检验prism_卡方独立性检验原理小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

這篇文章主要講了兩個部分，一個是卡方檢驗的推導，一個是卡方檢驗應該取多少樣本量。

卡方獨立性檢驗是為了檢驗兩個變量是否獨立，我們先來回顧一下卡方獨立性檢驗的流程：

1、統計列聯表，計算觀察值：

表一

圖中的數字都是頻數，例如男士分期的頻數為80，女士分期的頻數是20。圖中的頻數90，110，30，70這些是我們的觀察值，為別用

表示。

2、做出假設，計算期望值：

我們的假設是性別跟是否分期是獨立的，所以我們的期望值應該是如下圖所示：

圖中的期望值80，120，40，80我們用

表示。

3、計算卡方統計量

卡方統計量

,服從自由度為1的卡方分布。

經過查表，我們可以算出p值為0.012，在0.05的閾值下，我們認為觀察到的情況是（表一）小概率時間，所以拒絕了性別跟是否分期是獨立的的原假設。

接下來，我們來推導出卡方統計量為什么是這個樣子的：

，其中是觀察值，是期望值（即變量獨立的假設下的期望值）

我們先來了解幾個必要的知識點：

定義1、卡方分布的定義（抄自維基百科）：

若k個隨機變量

是相互獨立，符合標準正態分布的隨機變量（數學期望為0、方差為1），則隨機變量的平方和 ,被稱為服從自由度為的卡方分布，記作。

這個定義中的關鍵之處在于隨機變量

是標準正態分布且是相互獨立的。

定理2、若變量A、B的分布都是正態分布，那么‘變量A、B相互獨立’與‘A、B的協方差為0‘是等價命題。也就是說A、B獨立則A、B的相關性為0。A、B的相關性為0則A、B獨立。

定理3、設隨機向量

的協方差矩陣為C，必存在矩陣A，使得，且的協方差矩陣為單位矩陣。

下面我們來猜想到底這個列聯表的卡方統計量的公式是怎么得來的。

現在我們設有變量A、B.

A有m種互斥的可能取值,分別記為

，每種取值的概率分別為

B有n種互斥的可能取值,分別記為

。每種取值的概率分別為

我們做卡方檢驗，原假設時A、B是獨立的。在這個假設下，有：

顯然N次抽樣的情況下

被抽到的次數呈二項分布，均值為 ,方差為。

結合中心極限定律可知，當N很大時

被抽到的次數呈正態分布，均值為 ,方差為。

現在我們已經有了m*n個分布呈正態分布的變量(A,B)，已經滿足卡方統計量中正態分布的要求，但是還差一個獨立性。所以很自然想到如果用定理3去除這些變量的相關性，然后再計算卡方統計量豈不是搞定了。

事實上，確實是這樣的，下面我們就來驗證這個想法。

為了書寫簡便我們將這m*m種可能性重排，對應關系為

對應的概率。

這

個變量有如下關系 ,

所以應該先任意丟棄一個變量再來計算協方差矩陣。

記

，

記Z的協方差矩陣為C，第i行第j列元素記為

,表示的協方差,

顯然：

根據定理3，我們一定找得出矩陣B,使得

的協方差矩陣為單位矩陣,

所以

的每個元素均的分布均為正態分布，且兩兩間相互獨立。

所以我們推論的卡方統計量為：

真正的卡方統計量為：

欲證

，

只需

（是單位矩陣）

又因為

所以

顯然（^^）

所以證得

總結一下，卡方獨立性檢驗的公式由來就是：

在A、B變量獨立的原假設下，將列聯表中的變量（正態分布）用線性變換去除相關性（等同于獨立，見定理2），然后再求得卡方統計量。

下面我們來看看卡方獨立性檢驗時應該取多少樣本量

在做項目的時候，我們有幾百萬的樣本，如果用全部的樣本去做卡方檢驗的話，會出現這種情況：

除了隨機屬性，90%以上的屬性與標簽（二分類）的卡方檢驗都是顯著的。這樣的話對于屬性和標簽的卡方檢驗還有什么意義？

其實這里涉及到卡方檢驗的靈敏度問題，樣本量越大卡方檢驗越靈敏。

我們看看卡方統計量中的一項

。假設偏離期望值的量的比例為，即所以。

在

不變的情況下樣本量越大導致越大，導致卡方統計量越大，導致p值越小。

所以就得出了我們的結論：樣本量越大，卡方檢驗越靈敏。

回到我們的例子，如果用幾百萬的數據去做卡方檢驗的話，卡方檢驗就十分靈敏，兩個變量稍微的相關都能檢查出來，但這樣檢查出來的變量是我們想要的嗎？

顯然不是，因為加入變量是有成本的：

1、計算成本

2、過擬合風險

3、由于共線性導致的變量失效

所以不是所有相關的變量我們都要列入模型中，而是對模型貢獻大的變量要列入模型中。

所以我們要的是容易檢查出相關性的變量。

要實現這個目的就要讓卡方檢驗不那么靈敏，即減少卡方檢驗的樣本量。

所以是這么個邏輯：

這些變量連不靈敏的卡方檢驗都檢測出顯著，所以這些變量跟標簽肯定很不獨立，這就是我想要的變量。

總結一下，對于用于篩選特征的卡方檢驗，不是樣本量越多越好。有時候，為了得到不那么靈敏的卡方檢驗，我們減少了樣本量。

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的2×3卡方检验prism_卡方独立性检验原理的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： latex 1图加标题_使用VsCode
下一篇： ado filter 多条记录_注意！武