當(dāng)前位置：首頁 >

机器学习-特征中的相关性及相关系数、卡方检验、互信息

發(fā)布時間：2025/3/21 47 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习-特征中的相关性及相关系数、卡方检验、互信息小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

? ? ? ?在機(jī)器學(xué)習(xí)中，對于特征選擇的方法分為三類：過濾式（Filter），包裹式（Wrapper），和嵌入式（Embedding）。過濾式方法是先按照某種規(guī)則對數(shù)據(jù)集進(jìn)行特征選擇，然后再訓(xùn)練學(xué)習(xí)器，特征選擇過程與后續(xù)學(xué)習(xí)器無關(guān)，這相當(dāng)于先用特征選擇過程對初始特征進(jìn)行“過濾”，再用過濾后的特征來訓(xùn)練模型。相關(guān)系數(shù)法、卡方檢驗(yàn)法和互信息法是進(jìn)行特征選擇時常用的幾種過濾式方法。

變量關(guān)系

協(xié)方差

線性相關(guān)系數(shù)

互信息

卡方檢驗(yàn)和卡方分布

變量關(guān)系

先從變量之間的關(guān)系來說明，變量之間的關(guān)系可分為兩類：

（1）存在完全確定的關(guān)系——稱為函數(shù)關(guān)系，即類似于Y=2X+3；

（2）不存在完全確定的關(guān)系——雖然變量間有著十分密切的關(guān)系，但是不能由一個或多各變量值精確地求出另一個變量的值，那么這種關(guān)系稱為相關(guān)關(guān)系，存在相關(guān)關(guān)系的變量稱為相關(guān)變量。相關(guān)變量的關(guān)系也可分為兩種：

（1）兩個及以上變量間相互影響——平行關(guān)系；

（2）一個變量變化受另一個變量的影響——依存關(guān)系；

它們對應(yīng)的分析方法：

相關(guān)分析是研究呈平行關(guān)系的相關(guān)變量之間的關(guān)系

回歸分析是研究呈依存關(guān)系的相關(guān)變量之間的關(guān)系

在這里我們主要研究變量與變量之間的相關(guān)分析，如下圖，比如要買房的人越多，房價(jià)就越高，兩者的關(guān)系稱為正相關(guān)；從出生率和城鎮(zhèn)化率我們可以看出是負(fù)相關(guān)。

類似上圖中的這種相關(guān)性可以通過協(xié)方差和相關(guān)系數(shù)來具體表示和計(jì)算。

協(xié)方差

在概率論中，兩個隨機(jī)變量 X 與 Y 之間相互關(guān)系，大致有下列3種情況：??

當(dāng) X, Y 的聯(lián)合分布像左圖那樣時，大致上有： X 越大 Y 也越大， X 越小 Y 也越小，這種情況，我們稱為“正相關(guān)”。

當(dāng)X, Y 的聯(lián)合分布像中間圖那樣時，大致上有：X 越大Y 反而越小，X 越小 Y 反而越大，這種情況，我們稱為“負(fù)相關(guān)”。

當(dāng)X, Y 的聯(lián)合分布像右圖那樣時，既不是X 越大Y 也越大，也不是 X 越大 Y 反而越小，這種情況我們稱為“不相關(guān)”。

同樣將這3種相關(guān)情況，用一個簡單的數(shù)字表達(dá)出來呢？，令 EX、EY 分別是 X 和 Y 的期望值。什么是期望呢？在這里我們可以把它看成是平均值，即 EX 是變量 X 的平均值，EY 是變量 Y 的平均值

在圖中的區(qū)域（1）中，有 X>EX ，Y-EY>0 ，所以(X-EX)(Y-EY)>0；

在圖中的區(qū)域（2）中，有 X<EX ，Y-EY>0 ，所以(X-EX)(Y-EY)<0；

在圖中的區(qū)域（3）中，有 X<EX ，Y-EY<0 ，所以(X-EX)(Y-EY)>0；

在圖中的區(qū)域（4）中，有 X>EX ，Y-EY<0 ，所以(X-EX)(Y-EY)<0。

當(dāng)X 與Y 正相關(guān)時，分布大部分在區(qū)域（1）和（3）中，小部分在區(qū)域（2）和（4）中，所以平均來說，有E(X-EX)(Y-EY)>0 。

當(dāng) X與 Y負(fù)相關(guān)時，分布大部分在區(qū)域（2）和（4）中，小部分在區(qū)域（1）和（3）中，所以平均來說，有(X-EX)(Y-EY)<0。

當(dāng) X與 Y不相關(guān)時，在區(qū)域（1）和（3）中的分布，與在區(qū)域（2）和（4）中的分布一樣多，平均來說，有(X-EX)(Y-EY)=0。

所以，我們可以定義一個表示X, Y 相互關(guān)系的數(shù)字特征，也就是協(xié)方差，即：

值得一提的是，E?代表求期望值，也可以用平均值來計(jì)算協(xié)方差：

當(dāng) cov(X, Y)>0時，表明X與Y 正相關(guān)；

當(dāng) cov(X, Y)<0時，表明X與Y負(fù)相關(guān)；

當(dāng) cov(X, Y)=0時，表明X與Y不相關(guān)。

協(xié)方差表示的是兩個變量的總體的誤差，這與只表示一個變量誤差的方差不同。如果兩個變量的變化趨勢一致，也就是說如果其中一個大于自身的期望值，另外一個也大于自身的期望值，那么兩個變量之間的協(xié)方差就是正值。如果兩個變量的變化趨勢相反，即其中一個大于自身的期望值，另外一個卻小于自身的期望值，那么兩個變量之間的協(xié)方差就是負(fù)值。這就是協(xié)方差的意義。

線性相關(guān)系數(shù)

? ? ? ?我們已經(jīng)知道了什么是協(xié)方差以及協(xié)方差公式是怎么來的，如果知道兩個變量 X 與 Y 的協(xié)方差與零的關(guān)系，我們就能推斷出 X 與 Y 是正相關(guān)、負(fù)相關(guān)還是不相關(guān)。那么有一個問題：協(xié)方差數(shù)值大小是否代表了相關(guān)程度呢？也就是說如果協(xié)方差為 100 是否一定比協(xié)方差為 10 的正相關(guān)性強(qiáng)呢？

假如X1、Y1 和 X2、Y2 分別聯(lián)合分布圖，如下所示：

顯然，從圖中可以看出，X1、Y1 和 X2、Y2 都呈正相關(guān)，而且 X1 與 Y1 正相關(guān)的程度明顯比 X2 與 Y2 更大一些。接下來，我們計(jì)算兩幅圖的協(xié)方差看看是不是這樣。

Cov(X1,Y1) = 37.5526

Cov(X2,Y2) = 3730.26

從兩個協(xié)方差的值中，我們可以看出X2 與 Y2 的協(xié)方差竟然比 X1 與 Y1 的協(xié)方差還大100 倍。看來并不是協(xié)方差越大，正相關(guān)程度越高。這到底是為什么呢？其實(shí)，出現(xiàn)這種情況的原因是兩種情況數(shù)值變化的幅值不同（或者量綱不同）。計(jì)算協(xié)方差的時候我們并沒有把不同變量幅值差異性考慮進(jìn)來，在比較協(xié)方差的時候也就沒有一個統(tǒng)一的量綱標(biāo)準(zhǔn)。所以，為了消除這一影響，為了準(zhǔn)確得到變量之間的相似程度，我們需要把協(xié)方差除以各自變量的標(biāo)準(zhǔn)差。這樣就得到了相關(guān)系數(shù)的表達(dá)式：

即為：

為什么除以各自變量的標(biāo)準(zhǔn)差就能消除幅值影響呢？這是因?yàn)闃?biāo)準(zhǔn)差本身反映了變量的幅值變化程度，除以標(biāo)準(zhǔn)差正好能起到抵消的作用，讓協(xié)方差標(biāo)準(zhǔn)化。這樣，相關(guān)系數(shù)的范圍就被歸一化到 [-1,1] 之間了。下面，我們就來分別計(jì)算上面這個例子中 X1、Y1 和 X2、Y2 的相關(guān)系數(shù)。

ρ(X1,Y1) = 0.9939

ρ(X2,Y2) = 0.9180

而線性相關(guān)分析，就是用線性相關(guān)系數(shù)來衡量兩變量的相關(guān)關(guān)系和密切程度，線性相關(guān)系數(shù)一般通過皮爾遜相關(guān)系數(shù)（Pearson correlation coefficient）來解釋相關(guān)性的強(qiáng)弱，公式即為：

皮爾森相關(guān)系數(shù)（Pearson correlation coefficient）也稱皮爾森積矩相關(guān)系數(shù)(Pearson product-moment correlation coefficient) ，是一種線性相關(guān)系數(shù)，皮爾森相關(guān)系數(shù)是用來反映兩個變量線性相關(guān)程度的統(tǒng)計(jì)量。考察兩個變量的相關(guān)關(guān)系，首先得看清楚兩個變量都是什么類型的，統(tǒng)計(jì)分析中常見的變量類型有連續(xù)型數(shù)值變量，無序分類變量、有序分類變量：

連續(xù)型數(shù)值變量：如銷售額、氣溫、工資收入、考試成績；

無序分類變量：如性別男和女，血型種類；

有序分類變量：如學(xué)歷水平小學(xué)、初中、高中、大學(xué)、研究生；

適用范圍

當(dāng)兩個變量的標(biāo)準(zhǔn)差都不為零時，相關(guān)系數(shù)才有定義，皮爾遜相關(guān)系數(shù)適用于：

(1)兩個變量之間是線性關(guān)系，都是連續(xù)數(shù)據(jù)。

(2)兩個變量的總體是正態(tài)分布，或接近正態(tài)的單峰分布。

(3)兩個變量的觀測值是成對的，每對觀測值之間相互獨(dú)立。

相關(guān)系數(shù)用r表示，其中n為樣本量，分別為兩個變量的觀測值和均值，r描述的是兩個變量間線性相關(guān)強(qiáng)弱的程度，r的絕對值越大表明相關(guān)性越強(qiáng)，系數(shù)的正負(fù)號代表正相關(guān)還是負(fù)相關(guān)。如果是0，代表沒有相關(guān)。數(shù)值越接近1，相關(guān)性越強(qiáng)。

公式如下：

如下面每幅圖上方的相關(guān)系數(shù)Cor(X1, X2)是計(jì)算出來的皮爾遜r值，從圖中可以看出不同程度的相關(guān)性。

上圖中，前三個具有高相關(guān)系數(shù)，我們可以選擇把X1或者X2扔掉，因?yàn)樗麄兯坪鮽鬟f了相似的信息。
然而在最后一種情況，我們應(yīng)該把兩個特征都保留。
基于相關(guān)性的特征選擇方法的一個最大的缺點(diǎn)就是，它只檢測出線性關(guān)系（可以用一條直線擬合的關(guān)系），下圖形象的展示出了相關(guān)性的缺陷：

這里的相關(guān)系數(shù)只是用來衡量兩個變量線性相關(guān)程度的指標(biāo)。也就是說，你必須先確認(rèn)這兩個變量是線性相關(guān)的，然后這個相關(guān)系數(shù)才能告訴你他倆相關(guān)程度如何，反之不成立。比如你先算出相關(guān)系數(shù)=0.9，就下結(jié)論說兩個變量線性相關(guān)是不對的，甚至說兩個變量相關(guān)（有某種更復(fù)雜的關(guān)系）也是不對的，如下圖所示：

如圖（右上）所示，非線性相關(guān)也會導(dǎo)致線性相關(guān)系數(shù)很大，并且如果兩個變量的相關(guān)系數(shù)很大(0.816)，那能不能說兩者相關(guān)呢？答案還是不能，為什么？因?yàn)槿鐖D（右下）所示，很可能是一個離群點(diǎn)（outlier）導(dǎo)致了相關(guān)系數(shù)變得很大。另外，如果算出來相關(guān)系數(shù)=0，下結(jié)論說兩個變量不是線性相關(guān)是ok的，但說他們完全不相關(guān)就得小心了，很有可能不對，如下圖所示：

上圖的相關(guān)系數(shù)計(jì)算結(jié)果為0，但你能說冰激凌的銷量和溫度不相關(guān)嗎？?所以， Pearson Correlation Coefficient?= 0只能說不是線性相關(guān)，但說不定會有更復(fù)雜的相關(guān)關(guān)系（非線性相關(guān)）。如果兩個變量本身就是線性的關(guān)系，那么皮爾遜相關(guān)系數(shù)沒問題，絕對值大的就是相關(guān)性強(qiáng)，小的就是相關(guān)性弱。但在你不知道這兩個變量是什么關(guān)系的情況下，即使算出皮爾遜相關(guān)系數(shù)，發(fā)現(xiàn)很大，也不能說明那兩個變量線性相關(guān)，甚至不能說他們相關(guān)，你一定要畫出圖來看才行，這就是為什么我們說眼見為實(shí)和數(shù)據(jù)可視化的重要性。

互信息

? ? ? ?對于非線性關(guān)系，互信息就顯得比較重要了，在進(jìn)行特征選擇時，我們不該把焦點(diǎn)放在數(shù)據(jù)關(guān)系的類型（線性關(guān)系）上，而是要考慮在已經(jīng)給定另一個特征的情況下一個特征可以提供多少信息量。互信息會通過計(jì)算兩個特征所共有的信息，把上述推理工程形式化表達(dá)出來。與相關(guān)性不同，它依賴的不是數(shù)據(jù)序列，而是數(shù)據(jù)的分布。

互信息的一個較好的性質(zhì)在于，跟相關(guān)性不同，它并不只關(guān)注線性關(guān)系。如下圖所示：

? ? ? ?互信息的概念來自于信息熵，相信大家在很多機(jī)器學(xué)習(xí)，數(shù)據(jù)挖掘的數(shù)據(jù)都有看到，互信息廣泛使用在特征選擇、機(jī)器學(xué)習(xí)數(shù)模型中。在概率論和信息論中，互信息是兩個隨機(jī)變量的互信息（Mutual Information，簡稱MI）或轉(zhuǎn)移信息是變量間相互依賴性的量度。通俗的來講：互信息是一個隨機(jī)變量包含另外一個隨機(jī)變量的信息量，或者說如果已知一個變量，另外一個變量減少的信息量。顧名思義，互信息就是兩件事為彼此提供的信息。當(dāng)我知道了事件 A 之后，事件 B 的確定性增加多少，也就是讓事件 B 減少多少的信息量。當(dāng)中我們說一件事的信息量（或熵）就是你想知道這件事的發(fā)生需要多少信息。那么為什么相關(guān)的兩件事會導(dǎo)致信息量的變化呢？舉一個非常直觀的例子，我們在做一個游戲，拋兩枚硬幣，然后猜兩枚硬幣分別是字還是花。每個人都會默認(rèn)兩枚硬幣拋出字或花的概率相同，是1/2。猜出最終結(jié)果，我們需要的信息量是：

? ? ? ? 也就是如果你先問我第一枚硬幣是字嗎，我回答是或不是，然后你再問我第二枚硬幣是字嗎，我再回答一次，你就知道了兩枚硬幣的結(jié)果，信息量為二比特。那假如現(xiàn)在我告訴你第二枚硬幣是我特制的，兩面都是字呢？明顯拋一次硬幣得到的結(jié)果的信息量發(fā)生了一些變化，之前你需要問我兩個問題，而現(xiàn)在只需要問一個就可以了，因?yàn)槟阋呀?jīng)知道第二枚硬幣的結(jié)果一定是字。
? ? ? ?由此就可以看出，當(dāng)一個事件為另一個事件減少越多不確定性，這兩個事件的相關(guān)性就越強(qiáng)。如果是兩個獨(dú)立事件，它們之間的相關(guān)性就是 0（后面也可以用公式驗(yàn)證），完全不相關(guān)。例如知道第三枚硬幣拋出字的概率并不會對你猜結(jié)果的兩枚硬幣的信息量造成任何影響。
? ? ? ? 用概率去解釋也是一樣的，我們知道熵也可以代表事件的隨機(jī)程度，事件發(fā)生概率越小，所攜帶的信息量就越大。而兩個事件 A，B，有 p(A|B)≥p(A)，當(dāng) A，B 獨(dú)立時有 p(A|B)=p(A)。由此也可以看出兩件事的相關(guān)性。
到了這兒，其實(shí)我們已經(jīng)把互信息定義好了。

如果是連續(xù)隨機(jī)變量就把求和替換為積分

另一種定義方法是：

其中上圖中的 H(X)，H(Y) 表示事件X，Y的信息，

H(X|Y)被稱為條件熵：表示在知道事件X的情況下，此時再知道事件Y可以提供給我們的信息，

I(X；Y)被稱為互信息：表示事件X和Y共同提供的信息；也可以理解為知道事件X可以對事件Y提供多少信息，反之亦然；

H(X；Y)被稱為聯(lián)合熵：表示事件X和Y之后可以提供給我們的信息，其中

注意到這組關(guān)系和并集、差集和交集的關(guān)系類似，用維恩圖表示：

于是，在互信息定義的基礎(chǔ)上使用琴生不等式，我們可以證明?I(X;Y) 是非負(fù)的，因此H(X)>=H(X|Y)，這里我們給出 I(X;Y) = H(Y) - H(Y|X) 的詳細(xì)推導(dǎo):

在機(jī)器學(xué)習(xí)中，理想情況下，當(dāng)互信息最大，可以認(rèn)為從數(shù)據(jù)集中擬合出來的隨機(jī)變量的概率分布與真實(shí)分布相同。
需要注意的是，互信息也是只能處理離散的特征。如果連續(xù)的情況，需要先離散化，計(jì)算每一對特征之間的歸一互信息量。對于具有較高互信息量的特征對，我們會把其中一個特征扔掉。在進(jìn)行回歸的時候，我們可以把互信息量非常低的特征扔掉。對于較小的特征集合這種方式的效果或許還可以。但是，在某種程度上，這個過程會非常緩慢，計(jì)算量會以平方級別增長，因?yàn)槲覀円?jì)算的是每對特征之間的互信息量。
?

卡方檢驗(yàn)和卡方分布

卡方檢驗(yàn)是一種用途很廣的計(jì)數(shù)資料的假設(shè)檢驗(yàn)方法。它屬于非參數(shù)檢驗(yàn)的范疇，主要是比較兩個及兩個以上樣本率( 構(gòu)成比）以及兩個分類變量的關(guān)聯(lián)性分析。其根本思想就是在于比較理論頻數(shù)和實(shí)際頻數(shù)的吻合程度或擬合優(yōu)度問題。它在分類資料統(tǒng)計(jì)推斷中的應(yīng)用，包括：兩個率或兩個構(gòu)成比比較的卡方檢驗(yàn)；多個率或多個構(gòu)成比比較的卡方檢驗(yàn)以及分類資料的相關(guān)分析等。

以運(yùn)營為例:

卡方檢驗(yàn)可以檢驗(yàn)?zāi)行曰蛘吲詫€上買生鮮食品有沒有區(qū)別；
不同城市級別的消費(fèi)者對買SUV車有沒有什么區(qū)別；

如果有顯著區(qū)別的話，我們會考慮把這些變量放到模型或者分析里去。

例1：四格卡方檢驗(yàn)

以下為一個典型的四格卡方檢驗(yàn)，我們想知道喝牛奶對感冒發(fā)病率有沒有影響，通過簡單的統(tǒng)計(jì)我們得出喝牛奶組和不喝牛奶組的感冒率為30.94%和25.00%，兩者的差別可能是抽樣誤差導(dǎo)致，也有可能是牛奶對感冒率真的有影響。

為了確定真實(shí)原因，我們先假設(shè)喝牛奶對感冒發(fā)病率是沒有影響的，即喝牛奶和感冒時獨(dú)立無關(guān)的，所以我們可以得出感冒的發(fā)病率實(shí)際是（43+28）/（43+28+96+84）= 28.29%

基于這個假設(shè)，假設(shè)的結(jié)果為：

計(jì)算出來后，假設(shè)的結(jié)果即下表：

原來實(shí)際的結(jié)果為：

如果喝牛奶和感冒真的是獨(dú)立無關(guān)的，那么四格表里的理論值和實(shí)際值差別應(yīng)該會很小。

差別的大小可以使用卡方檢驗(yàn)來表示，卡方檢驗(yàn)的計(jì)算公式為：

其中，A為實(shí)際值，T為理論值。X^2用于衡量實(shí)際值與理論值的差異程度（也就是卡方檢驗(yàn)的核心思想），包含了以下兩個信息：
（1）實(shí)際值與理論值偏差的絕對大小（由于平方的存在，差異是被放大的）
（2）差異程度與理論值的相對大小

X^2分布有兩個主要用途為用于檢驗(yàn)擬合優(yōu)度，也就是可以檢驗(yàn)一組數(shù)據(jù)與指定曲線的擬合程度，或檢驗(yàn)?zāi)辰M觀察值是否符合某種分布，檢驗(yàn)兩個變量的獨(dú)立性，通過這個方法檢查兩個變量之間是否存在某種關(guān)聯(lián)

回到上面的例子，實(shí)際計(jì)算的結(jié)果為：

上一步我們得到了卡方的值，但是如何通過卡方的值來判斷喝牛奶和感冒是否真的是獨(dú)立無關(guān)的？也就是說，怎么知道無關(guān)性假設(shè)是否可靠？答案是，通過查詢卡方分布的臨界值表。我們需要查詢卡紙分布的臨界值，將計(jì)算的值與臨界值比較。

查詢臨界值就需要知道自由度，如何計(jì)算自由度？只要一種可能的話，自由度是0，有兩種可能，自由度是1。如果拋不是一個硬幣，而是一顆臺球，上面數(shù)字只有一種可能，此時自由度是0。一個藥片，吃下去的有三種結(jié)果：病治愈，病惡化，病不變，如果吃下去只有治愈這個可能，自由度是0，如果有三種可能，自由度是2。對于本例的表格而言，行和列的自由度都有自己的自由度，分別是行數(shù)和列數(shù)減一。又考慮到行數(shù)和列數(shù)的乘積是表中數(shù)值的總數(shù)，因此全表對應(yīng)的自由度是行和列自由度的乘積。本例的自由度由此計(jì)算出來是1。

注：卡方檢驗(yàn)的自由度：
1）如果是獨(dú)立性檢驗(yàn)，那么自由度就等于（a-1）*（b-1）,a b表示這兩個檢驗(yàn)條件的對應(yīng)的分類數(shù)。
比如《問卷與量表數(shù)據(jù)分析》課程里面的性別和是否購買之間的獨(dú)立性檢驗(yàn)，自由度就等于（2-1）*（2-1）=1。這里可以理解為有兩個約束條件，即性別和是否購買這兩個變量，這兩個變量約束的方向都是自己那一方面的，所以要在自己的類別數(shù)目后面減去1，而不是總的類別數(shù)減去總的約束條件數(shù)目。
2）適合性檢驗(yàn)，類別數(shù)減去1。此處相當(dāng)于約束條件只有一個

自由度V=（行數(shù)-1）*（列數(shù)-1）；

對四格表，自由度V = 1，查詢可得臨界值為3.84

對V = 1，喝牛奶和感冒95%概率不相關(guān)的卡方分布的臨界概率是：3.84，顯然1.077<3.84，沒有達(dá)到卡方分布的臨界值，所以喝牛奶和感冒是獨(dú)立不相關(guān)的。

例2 投硬幣

根據(jù)投硬幣觀察到的正面，反面次數(shù)，判斷這個硬幣是均衡的還是不均衡。

現(xiàn)在有一個正常的硬幣，我給你投50次，最好的情況肯定是25個正面，25個反面，如果我不知道這個硬幣是不是均衡的，我想用正面，反面的頻次來判斷，我投了50次，其中28個正面，22個反面。我怎么用卡方檢驗(yàn)來證明這個硬幣是均衡的還是不均衡的呢？

我們拿到這3個信息，去查表，因?yàn)?.72小于查表得到的3.841，所以我們得出這個硬幣是均衡的結(jié)論。

例3 投篩子

有一個篩子，我不知道它是不是均衡的，于是我打算投36次看一下。

按照投硬幣的方式，我先要畫出一個表格，然后計(jì)算出3個數(shù)值，

帶著這3個值，我們?nèi)ゲ楸?#xff0c;于是我們得出這個現(xiàn)象不能判定他是個均衡的篩子。

例4 業(yè)務(wù)場景

電商中消費(fèi)者的性別和購買生鮮，我們要觀察性別和在線上買不買生鮮食品有沒有關(guān)系，現(xiàn)實(shí)生活中，女性通常去菜市場買菜的比較多，那么在線上是不是也這樣。

我們得出觀察到數(shù)據(jù)，并且形成表格后，我們需要計(jì)算理論的數(shù)據(jù)，在上面的例子我們發(fā)現(xiàn)，我們發(fā)現(xiàn)有66%的人不在線上買生鮮（599除以907），34%的人會在線上買。那如果，男的有733個人，女的有174個人，根據(jù)這些比例，我們可以得出的理論值是什么呢？

根據(jù)理論和實(shí)際值，我們可以算出卡方值，自由度，并且結(jié)合我們定義的置信度，查表得到性別和線上買生鮮是顯著相關(guān)的。
所以我們?nèi)绻麓慰吹揭粋€女性來訪問我們的網(wǎng)站，多投放一些廣告，說不定會轉(zhuǎn)化哦。

本文主要介紹了線性相關(guān)系數(shù)、卡方檢驗(yàn)、互信息三個概念。
1. 線性相關(guān)系數(shù)，基于兩個變量在線性的基礎(chǔ)上，主要用來衡量兩個變量的線性相關(guān)的程度，其它類型的相關(guān)性pearson相關(guān) 系數(shù)就無法衡量了。

2. 卡方檢驗(yàn)基于兩個樣本會遵守特定的理論分配，用來檢驗(yàn)兩個樣本or變量是否獨(dú)立。計(jì)算也相對比較簡單。能做大小比較，但是如果判斷自變量與因變量是否相關(guān)，需要查卡方臨界表。

3. 互信息基于信息熵理論，可以作為變量間相互依賴性的量度，涉及l(fā)og計(jì)算，計(jì)算稍微復(fù)雜些。后面兩個方法都只能計(jì)算離散特征，如果是連續(xù)特征，需要先將特征離散化之后再進(jìn)行計(jì)算。

4. 特征選擇時：卡方檢驗(yàn)，偏向于選擇出現(xiàn)次數(shù)較少的特征。因?yàn)槭瞧谕?觀測值的平方再除以期望，互信息不會出現(xiàn)這個情況。因?yàn)榛バ畔⒂谐艘詐(x,y)p(x,y)。從大多數(shù)實(shí)驗(yàn)來看，卡方跟互信息效果差不多，看具體的數(shù)據(jù)集而定。
?

參考鏈接：https://zhuanlan.zhihu.com/p/94074441
參考鏈接：https://www.jianshu.com/p/26004ad8872e
參考鏈接：https://www.zhihu.com/question/304499706/answer/544609335
參考鏈接：https://my.oschina.net/peterlie/blog/546761/print
參考鏈接：https://zhuanlan.zhihu.com/p/36441826
參考鏈接：https://blog.csdn.net/LiuXF93/article/details/88956643
參考鏈接：https://www.matongxue.com/madocs/568.html
參考鏈接：https://www.zhihu.com/question/20852004
參考鏈接：https://blog.csdn.net/shingle_/article/details/51725054
參考鏈接：https://www.jianshu.com/p/807b2c2bfd9b

總結(jié)

以上是生活随笔為你收集整理的机器学习-特征中的相关性及相关系数、卡方检验、互信息的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：模型开发-GBDT决策树模型开发代码
下一篇：机器学习-特征工程中的特征选择

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

机器学习-特征中的相关性及相关系数、卡方检验、互信息

變量關(guān)系

協(xié)方差

線性相關(guān)系數(shù)

互信息

卡方檢驗(yàn)和卡方分布

總結(jié)