日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

机器学习-特征中的相关性及相关系数、卡方检验、互信息

發(fā)布時間:2025/3/21 47 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习-特征中的相关性及相关系数、卡方检验、互信息 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?

? ? ? ?在機(jī)器學(xué)習(xí)中,對于特征選擇的方法分為三類:過濾式(Filter),包裹式(Wrapper),和嵌入式(Embedding)。過濾式方法是先按照某種規(guī)則對數(shù)據(jù)集進(jìn)行特征選擇,然后再訓(xùn)練學(xué)習(xí)器,特征選擇過程與后續(xù)學(xué)習(xí)器無關(guān),這相當(dāng)于先用特征選擇過程對初始特征進(jìn)行“過濾”,再用過濾后的特征來訓(xùn)練模型。相關(guān)系數(shù)法、卡方檢驗(yàn)法和互信息法是進(jìn)行特征選擇時常用的幾種過濾式方法。

變量關(guān)系

協(xié)方差

線性相關(guān)系數(shù)

互信息

卡方檢驗(yàn)和卡方分布


變量關(guān)系

先從變量之間的關(guān)系來說明,變量之間的關(guān)系可分為兩類:

(1)存在完全確定的關(guān)系——稱為函數(shù)關(guān)系,即類似于Y=2X+3

(2)不存在完全確定的關(guān)系——雖然變量間有著十分密切的關(guān)系,但是不能由一個或多各變量值精確地求出另一個變量的值,那么這種關(guān)系稱為相關(guān)關(guān)系,存在相關(guān)關(guān)系的變量稱為相關(guān)變量。相關(guān)變量的關(guān)系也可分為兩種:

(1)兩個及以上變量間相互影響——平行關(guān)系;

(2)一個變量變化受另一個變量的影響——依存關(guān)系;

它們對應(yīng)的分析方法:

相關(guān)分析是研究呈平行關(guān)系的相關(guān)變量之間的關(guān)系

回歸分析是研究呈依存關(guān)系的相關(guān)變量之間的關(guān)系

在這里我們主要研究變量與變量之間的相關(guān)分析,如下圖,比如要買房的人越多,房價(jià)就越高,兩者的關(guān)系稱為正相關(guān);從出生率和城鎮(zhèn)化率我們可以看出是負(fù)相關(guān)。

類似上圖中的這種相關(guān)性可以通過協(xié)方差相關(guān)系數(shù)來具體表示和計(jì)算。

?

協(xié)方差

在概率論中,兩個隨機(jī)變量 X 與 Y 之間相互關(guān)系,大致有下列3種情況:??

當(dāng) X, Y 的聯(lián)合分布像左圖那樣時,大致上有: X 越大 Y 也越大, X 越小 Y 也越小,這種情況,我們稱為“正相關(guān)”。

當(dāng)X, Y 的聯(lián)合分布像中間圖那樣時,大致上有:X 越大Y 反而越小,X 越小 Y 反而越大,這種情況,我們稱為“負(fù)相關(guān)”。

當(dāng)X, Y 的聯(lián)合分布像右圖那樣時,既不是X 越大Y 也越大,也不是 X 越大 Y 反而越小,這種情況我們稱為“不相關(guān)”。

同樣將這3種相關(guān)情況,用一個簡單的數(shù)字表達(dá)出來呢?,令 EX、EY 分別是 X 和 Y 的期望值。什么是期望呢?在這里我們可以把它看成是平均值,即 EX 是變量 X 的平均值,EY 是變量 Y 的平均值

在圖中的區(qū)域(1)中,有 X>EX ,Y-EY>0 ,所以(X-EX)(Y-EY)>0;

在圖中的區(qū)域(2)中,有 X<EX ,Y-EY>0 ,所以(X-EX)(Y-EY)<0;

在圖中的區(qū)域(3)中,有 X<EX ,Y-EY<0 ,所以(X-EX)(Y-EY)>0;

在圖中的區(qū)域(4)中,有 X>EX ,Y-EY<0 ,所以(X-EX)(Y-EY)<0。

當(dāng)X 與Y 正相關(guān)時,分布大部分在區(qū)域(1)和(3)中,小部分在區(qū)域(2)和(4)中,所以平均來說,有E(X-EX)(Y-EY)>0 。

當(dāng) X與 Y負(fù)相關(guān)時,分布大部分在區(qū)域(2)和(4)中,小部分在區(qū)域(1)和(3)中,所以平均來說,有(X-EX)(Y-EY)<0。

當(dāng) X與 Y不相關(guān)時,在區(qū)域(1)和(3)中的分布,與在區(qū)域(2)和(4)中的分布一樣多,平均來說,有(X-EX)(Y-EY)=0。

所以,我們可以定義一個表示X, Y 相互關(guān)系的數(shù)字特征,也就是協(xié)方差,即:

值得一提的是,E?代表求期望值,也可以用平均值來計(jì)算協(xié)方差:

當(dāng) cov(X, Y)>0時,表明X與Y 正相關(guān);

當(dāng) cov(X, Y)<0時,表明X與Y負(fù)相關(guān);

當(dāng) cov(X, Y)=0時,表明X與Y不相關(guān)。

協(xié)方差表示的是兩個變量的總體的誤差,這與只表示一個變量誤差的方差不同。 如果兩個變量的變化趨勢一致,也就是說如果其中一個大于自身的期望值,另外一個也大于自身的期望值,那么兩個變量之間的協(xié)方差就是正值。 如果兩個變量的變化趨勢相反,即其中一個大于自身的期望值,另外一個卻小于自身的期望值,那么兩個變量之間的協(xié)方差就是負(fù)值。這就是協(xié)方差的意義。

?

線性相關(guān)系數(shù)

? ? ? ?我們已經(jīng)知道了什么是協(xié)方差以及協(xié)方差公式是怎么來的,如果知道兩個變量 X 與 Y 的協(xié)方差與零的關(guān)系,我們就能推斷出 X 與 Y 是正相關(guān)、負(fù)相關(guān)還是不相關(guān)。那么有一個問題:協(xié)方差數(shù)值大小是否代表了相關(guān)程度呢?也就是說如果協(xié)方差為 100 是否一定比協(xié)方差為 10 的正相關(guān)性強(qiáng)呢?

假如X1、Y1 和 X2、Y2 分別聯(lián)合分布圖,如下所示:

顯然,從圖中可以看出,X1、Y1 和 X2、Y2 都呈正相關(guān),而且 X1 與 Y1 正相關(guān)的程度明顯比 X2 與 Y2 更大一些。接下來,我們計(jì)算兩幅圖的協(xié)方差看看是不是這樣。

Cov(X1,Y1) = 37.5526

Cov(X2,Y2) = 3730.26

從兩個協(xié)方差的值中,我們可以看出X2 與 Y2 的協(xié)方差竟然比 X1 與 Y1 的協(xié)方差還大100 倍。看來并不是協(xié)方差越大,正相關(guān)程度越高。這到底是為什么呢?其實(shí),出現(xiàn)這種情況的原因是兩種情況數(shù)值變化的幅值不同(或者量綱不同)。計(jì)算協(xié)方差的時候我們并沒有把不同變量幅值差異性考慮進(jìn)來,在比較協(xié)方差的時候也就沒有一個統(tǒng)一的量綱標(biāo)準(zhǔn)。所以,為了消除這一影響,為了準(zhǔn)確得到變量之間的相似程度,我們需要把協(xié)方差除以各自變量的標(biāo)準(zhǔn)差。這樣就得到了相關(guān)系數(shù)的表達(dá)式:

即為:

為什么除以各自變量的標(biāo)準(zhǔn)差就能消除幅值影響呢?這是因?yàn)闃?biāo)準(zhǔn)差本身反映了變量的幅值變化程度,除以標(biāo)準(zhǔn)差正好能起到抵消的作用,讓協(xié)方差標(biāo)準(zhǔn)化。這樣,相關(guān)系數(shù)的范圍就被歸一化到 [-1,1] 之間了。下面,我們就來分別計(jì)算上面這個例子中 X1、Y1 和 X2、Y2 的相關(guān)系數(shù)。

ρ(X1,Y1) = 0.9939

ρ(X2,Y2) = 0.9180

而線性相關(guān)分析,就是用線性相關(guān)系數(shù)來衡量兩變量的相關(guān)關(guān)系和密切程度,線性相關(guān)系數(shù)一般通過皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient)來解釋相關(guān)性的強(qiáng)弱,公式即為:

皮爾森相關(guān)系數(shù)(Pearson correlation coefficient)也稱皮爾森積矩相關(guān)系數(shù)(Pearson product-moment correlation coefficient) ,是一種線性相關(guān)系數(shù),皮爾森相關(guān)系數(shù)是用來反映兩個變量線性相關(guān)程度的統(tǒng)計(jì)量。考察兩個變量的相關(guān)關(guān)系,首先得看清楚兩個變量都是什么類型的,統(tǒng)計(jì)分析中常見的變量類型有連續(xù)型數(shù)值變量,無序分類變量、有序分類變量:

連續(xù)型數(shù)值變量:如銷售額、氣溫、工資收入、考試成績;

無序分類變量:如性別男和女,血型種類;

有序分類變量:如學(xué)歷水平小學(xué)、初中、高中、大學(xué)、研究生;

適用范圍

當(dāng)兩個變量的標(biāo)準(zhǔn)差都不為零時,相關(guān)系數(shù)才有定義,皮爾遜相關(guān)系數(shù)適用于:

(1)兩個變量之間是線性關(guān)系,都是連續(xù)數(shù)據(jù)。

(2)兩個變量的總體是正態(tài)分布,或接近正態(tài)的單峰分布。

(3)兩個變量的觀測值是成對的,每對觀測值之間相互獨(dú)立。

相關(guān)系數(shù)用r表示,其中n為樣本量,分別為兩個變量的觀測值和均值,r描述的是兩個變量間線性相關(guān)強(qiáng)弱的程度,r的絕對值越大表明相關(guān)性越強(qiáng),系數(shù)的正負(fù)號代表正相關(guān)還是負(fù)相關(guān)。如果是0,代表沒有相關(guān)。數(shù)值越接近1,相關(guān)性越強(qiáng)。

公式如下:

如下面每幅圖上方的相關(guān)系數(shù)Cor(X1, X2)是計(jì)算出來的皮爾遜r值,從圖中可以看出不同程度的相關(guān)性。

上圖中,前三個具有高相關(guān)系數(shù),我們可以選擇把X1或者X2扔掉,因?yàn)樗麄兯坪鮽鬟f了相似的信息。
然而在最后一種情況,我們應(yīng)該把兩個特征都保留。
基于相關(guān)性的特征選擇方法的一個最大的缺點(diǎn)就是,它只檢測出線性關(guān)系(可以用一條直線擬合的關(guān)系),下圖形象的展示出了相關(guān)性的缺陷:


這里的相關(guān)系數(shù)只是用來衡量兩個變量線性相關(guān)程度的指標(biāo)。也就是說,你必須先確認(rèn)這兩個變量是線性相關(guān)的,然后這個相關(guān)系數(shù)才能告訴你他倆相關(guān)程度如何,反之不成立。比如你先算出相關(guān)系數(shù)=0.9,就下結(jié)論說兩個變量線性相關(guān)是不對的,甚至說兩個變量相關(guān)(有某種更復(fù)雜的關(guān)系)也是不對的,如下圖所示:

如圖(右上)所示,非線性相關(guān)也會導(dǎo)致線性相關(guān)系數(shù)很大,并且如果兩個變量的相關(guān)系數(shù)很大(0.816),那能不能說兩者相關(guān)呢? 答案還是不能,為什么? 因?yàn)槿鐖D(右下)所示,很可能是一個離群點(diǎn)(outlier)導(dǎo)致了相關(guān)系數(shù)變得很大。另外,如果算出來相關(guān)系數(shù)=0,下結(jié)論說兩個變量不是線性相關(guān)是ok的,但說他們完全不相關(guān)就得小心了,很有可能不對,如下圖所示:

上圖的相關(guān)系數(shù)計(jì)算結(jié)果為0,但你能說冰激凌的銷量和溫度不相關(guān)嗎??所以, Pearson Correlation Coefficient?= 0只能說不是線性相關(guān),但說不定會有更復(fù)雜的相關(guān)關(guān)系(非線性相關(guān))。如果兩個變量本身就是線性的關(guān)系,那么皮爾遜相關(guān)系數(shù)沒問題,絕對值大的就是相關(guān)性強(qiáng),小的就是相關(guān)性弱。但在你不知道這兩個變量是什么關(guān)系的情況下,即使算出皮爾遜相關(guān)系數(shù),發(fā)現(xiàn)很大,也不能說明那兩個變量線性相關(guān),甚至不能說他們相關(guān),你一定要畫出圖來看才行,這就是為什么我們說眼見為實(shí)數(shù)據(jù)可視化的重要性。

?

互信息

? ? ? ?對于非線性關(guān)系,互信息就顯得比較重要了,在進(jìn)行特征選擇時,我們不該把焦點(diǎn)放在數(shù)據(jù)關(guān)系的類型(線性關(guān)系)上,而是要考慮在已經(jīng)給定另一個特征的情況下一個特征可以提供多少信息量。互信息會通過計(jì)算兩個特征所共有的信息,把上述推理工程形式化表達(dá)出來。與相關(guān)性不同,它依賴的不是數(shù)據(jù)序列,而是數(shù)據(jù)的分布

互信息的一個較好的性質(zhì)在于,跟相關(guān)性不同,它并不只關(guān)注線性關(guān)系。如下圖所示:

? ? ? ?互信息的概念來自于信息熵,相信大家在很多機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘的數(shù)據(jù)都有看到,互信息廣泛使用在特征選擇、機(jī)器學(xué)習(xí)數(shù)模型中。在概率論和信息論中,互信息是兩個隨機(jī)變量的互信息(Mutual Information,簡稱MI)或轉(zhuǎn)移信息是變量間相互依賴性的量度。通俗的來講:互信息是一個隨機(jī)變量包含另外一個隨機(jī)變量的信息量,或者說如果已知一個變量,另外一個變量減少的信息量。顧名思義,互信息就是兩件事為彼此提供的信息。當(dāng)我知道了事件 A 之后,事件 B 的確定性增加多少,也就是讓事件 B 減少多少的信息量。當(dāng)中我們說一件事的信息量(或熵)就是你想知道這件事的發(fā)生需要多少信息。那么為什么相關(guān)的兩件事會導(dǎo)致信息量的變化呢?舉一個非常直觀的例子,我們在做一個游戲,拋兩枚硬幣,然后猜兩枚硬幣分別是字還是花。每個人都會默認(rèn)兩枚硬幣拋出字或花的概率相同,是1/2。猜出最終結(jié)果,我們需要的信息量是:

? ? ? ? 也就是如果你先問我第一枚硬幣是字嗎,我回答是或不是,然后你再問我第二枚硬幣是字嗎,我再回答一次,你就知道了兩枚硬幣的結(jié)果,信息量為二比特。那假如現(xiàn)在我告訴你第二枚硬幣是我特制的,兩面都是字呢?明顯拋一次硬幣得到的結(jié)果的信息量發(fā)生了一些變化,之前你需要問我兩個問題,而現(xiàn)在只需要問一個就可以了,因?yàn)槟阋呀?jīng)知道第二枚硬幣的結(jié)果一定是字。
? ? ? ?由此就可以看出,當(dāng)一個事件為另一個事件減少越多不確定性,這兩個事件的相關(guān)性就越強(qiáng)。如果是兩個獨(dú)立事件,它們之間的相關(guān)性就是 0(后面也可以用公式驗(yàn)證),完全不相關(guān)。 例如知道第三枚硬幣拋出字的概率并不會對你猜結(jié)果的兩枚硬幣的信息量造成任何影響。
? ? ? ? 用概率去解釋也是一樣的,我們知道熵也可以代表事件的隨機(jī)程度,事件發(fā)生概率越小,所攜帶的信息量就越大。而兩個事件 A,B,有 p(A|B)≥p(A),當(dāng) A,B 獨(dú)立時有 p(A|B)=p(A)。由此也可以看出兩件事的相關(guān)性。
到了這兒,其實(shí)我們已經(jīng)把互信息定義好了。

如果是連續(xù)隨機(jī)變量就把求和替換為積分

另一種定義方法是:

其中上圖中的 H(X),H(Y) 表示事件X,Y的信息,

H(X|Y)被稱為條件熵:表示在知道事件X的情況下,此時再知道事件Y可以提供給我們的信息,

I(X;Y)被稱為互信息:表示事件X和Y共同提供的信息;也可以理解為知道事件X可以對事件Y提供多少信息,反之亦然;

H(X;Y)被稱為聯(lián)合熵:表示事件X和Y之后可以提供給我們的信息,其中

注意到這組關(guān)系和并集、差集和交集的關(guān)系類似,用維恩圖表示:

于是,在互信息定義的基礎(chǔ)上使用琴生不等式,我們可以證明?I(X;Y) 是非負(fù)的,因此H(X)>=H(X|Y),這里我們給出 I(X;Y) = H(Y) - H(Y|X) 的詳細(xì)推導(dǎo):

在機(jī)器學(xué)習(xí)中,理想情況下,當(dāng)互信息最大,可以認(rèn)為從數(shù)據(jù)集中擬合出來的隨機(jī)變量的概率分布與真實(shí)分布相同。
需要注意的是,互信息也是只能處理離散的特征。如果連續(xù)的情況,需要先離散化,計(jì)算每一對特征之間的歸一互信息量。對于具有較高互信息量的特征對,我們會把其中一個特征扔掉。在進(jìn)行回歸的時候,我們可以把互信息量非常低的特征扔掉。對于較小的特征集合這種方式的效果或許還可以。但是,在某種程度上,這個過程會非常緩慢,計(jì)算量會以平方級別增長,因?yàn)槲覀円?jì)算的是每對特征之間的互信息量。
?

卡方檢驗(yàn)和卡方分布

卡方檢驗(yàn)是一種用途很廣的計(jì)數(shù)資料的假設(shè)檢驗(yàn)方法。它屬于非參數(shù)檢驗(yàn)的范疇,主要是比較兩個及兩個以上樣本率( 構(gòu)成比)以及兩個分類變量的關(guān)聯(lián)性分析。其根本思想就是在于比較理論頻數(shù)和實(shí)際頻數(shù)的吻合程度或擬合優(yōu)度問題。它在分類資料統(tǒng)計(jì)推斷中的應(yīng)用,包括:兩個率或兩個構(gòu)成比比較的卡方檢驗(yàn);多個率或多個構(gòu)成比比較的卡方檢驗(yàn)以及分類資料的相關(guān)分析等。

以運(yùn)營為例:

  • 卡方檢驗(yàn)可以檢驗(yàn)?zāi)行曰蛘吲詫€上買生鮮食品有沒有區(qū)別;
  • 不同城市級別的消費(fèi)者對買SUV車有沒有什么區(qū)別;

如果有顯著區(qū)別的話,我們會考慮把這些變量放到模型或者分析里去。

?

例1:四格卡方檢驗(yàn)

以下為一個典型的四格卡方檢驗(yàn),我們想知道喝牛奶對感冒發(fā)病率有沒有影響,通過簡單的統(tǒng)計(jì)我們得出喝牛奶組和不喝牛奶組的感冒率為30.94%和25.00%,兩者的差別可能是抽樣誤差導(dǎo)致,也有可能是牛奶對感冒率真的有影響。

為了確定真實(shí)原因,我們先假設(shè)喝牛奶對感冒發(fā)病率是沒有影響的,即喝牛奶和感冒時獨(dú)立無關(guān)的,所以我們可以得出感冒的發(fā)病率實(shí)際是(43+28)/(43+28+96+84)= 28.29%

基于這個假設(shè),假設(shè)的結(jié)果為:

計(jì)算出來后,假設(shè)的結(jié)果即下表:

原來實(shí)際的結(jié)果為:

如果喝牛奶和感冒真的是獨(dú)立無關(guān)的,那么四格表里的理論值和實(shí)際值差別應(yīng)該會很小。

差別的大小可以使用卡方檢驗(yàn)來表示,卡方檢驗(yàn)的計(jì)算公式為:

其中,A為實(shí)際值,T為理論值。X^2用于衡量實(shí)際值與理論值的差異程度(也就是卡方檢驗(yàn)的核心思想),包含了以下兩個信息:
(1)實(shí)際值與理論值偏差的絕對大小(由于平方的存在,差異是被放大的)
(2)差異程度與理論值的相對大小

X^2分布有兩個主要用途為用于檢驗(yàn)擬合優(yōu)度,也就是可以檢驗(yàn)一組數(shù)據(jù)與指定曲線的擬合程度,或檢驗(yàn)?zāi)辰M觀察值是否符合某種分布,檢驗(yàn)兩個變量的獨(dú)立性,通過這個方法檢查兩個變量之間是否存在某種關(guān)聯(lián)

回到上面的例子,實(shí)際計(jì)算的結(jié)果為:

上一步我們得到了卡方的值,但是如何通過卡方的值來判斷喝牛奶和感冒是否真的是獨(dú)立無關(guān)的?也就是說,怎么知道無關(guān)性假設(shè)是否可靠?答案是,通過查詢卡方分布的臨界值表。我們需要查詢卡紙分布的臨界值,將計(jì)算的值與臨界值比較。

查詢臨界值就需要知道自由度,如何計(jì)算自由度?只要一種可能的話,自由度是0,有兩種可能,自由度是1。如果拋不是一個硬幣,而是一顆臺球,上面數(shù)字只有一種可能,此時自由度是0。一個藥片,吃下去的有三種結(jié)果:病治愈,病惡化,病不變,如果吃下去只有治愈這個可能,自由度是0,如果有三種可能,自由度是2。對于本例的表格而言,行和列的自由度都有自己的自由度,分別是行數(shù)和列數(shù)減一。又考慮到行數(shù)和列數(shù)的乘積是表中數(shù)值的總數(shù),因此全表對應(yīng)的自由度是行和列自由度的乘積。本例的自由度由此計(jì)算出來是1。

注:卡方檢驗(yàn)的自由度:
1)如果是獨(dú)立性檢驗(yàn),那么自由度就等于(a-1)*(b-1),a b表示這兩個檢驗(yàn)條件的對應(yīng)的分類數(shù)。
比如《問卷與量表數(shù)據(jù)分析》課程里面的性別和是否購買之間的獨(dú)立性檢驗(yàn),自由度就等于(2-1)*(2-1)=1。這里可以理解為有兩個約束條件,即性別和是否購買這兩個變量,這兩個變量約束的方向都是自己那一方面的,所以要在自己的類別數(shù)目后面減去1,而不是總的類別數(shù)減去總的約束條件數(shù)目。
2)適合性檢驗(yàn),類別數(shù)減去1。此處相當(dāng)于約束條件只有一個

自由度V=(行數(shù)-1)*(列數(shù)-1);

對四格表,自由度V = 1,查詢可得 臨界值為3.84

對V = 1,喝牛奶和感冒95%概率不相關(guān)的卡方分布的臨界概率是:3.84,顯然1.077<3.84,沒有達(dá)到卡方分布的臨界值,所以喝牛奶和感冒是獨(dú)立不相關(guān)的。

?

例2 投硬幣

根據(jù)投硬幣觀察到的正面,反面次數(shù),判斷這個硬幣是均衡的還是不均衡。

現(xiàn)在有一個正常的硬幣,我給你投50次,最好的情況肯定是25個正面,25個反面,如果我不知道這個硬幣是不是均衡的,我想用正面,反面的頻次來判斷,我投了50次,其中28個正面,22個反面。我怎么用卡方檢驗(yàn)來證明這個硬幣是均衡的還是不均衡的呢?

我們拿到這3個信息,去查表,因?yàn)?.72小于查表得到的3.841,所以我們得出這個硬幣是均衡的結(jié)論。

?

例3 投篩子

有一個篩子,我不知道它是不是均衡的,于是我打算投36次看一下。

按照投硬幣的方式,我先要畫出一個表格,然后計(jì)算出3個數(shù)值,

帶著這3個值,我們?nèi)ゲ楸?#xff0c;于是我們得出這個現(xiàn)象不能判定他是個均衡的篩子。

?

例4 業(yè)務(wù)場景

電商中消費(fèi)者的性別和購買生鮮,我們要觀察性別和在線上買不買生鮮食品有沒有關(guān)系,現(xiàn)實(shí)生活中,女性通常去菜市場買菜的比較多,那么在線上是不是也這樣。

我們得出觀察到數(shù)據(jù),并且形成表格后,我們需要計(jì)算理論的數(shù)據(jù),在上面的例子我們發(fā)現(xiàn),我們發(fā)現(xiàn)有66%的人不在線上買生鮮(599除以907),34%的人會在線上買。 那如果,男的有733個人,女的有174個人,根據(jù)這些比例,我們可以得出的理論值是什么呢?


?

根據(jù)理論和實(shí)際值,我們可以算出卡方值,自由度,并且結(jié)合我們定義的置信度,查表得到性別和線上買生鮮是顯著相關(guān)的。
所以我們?nèi)绻麓慰吹揭粋€女性來訪問我們的網(wǎng)站,多投放一些廣告,說不定會轉(zhuǎn)化哦。

?

本文主要介紹了線性相關(guān)系數(shù)、卡方檢驗(yàn)、互信息三個概念。
1. 線性相關(guān)系數(shù),基于兩個變量在線性的基礎(chǔ)上,主要用來衡量兩個變量的線性相關(guān)的程度,其它類型的相關(guān)性pearson相 關(guān) 系 數(shù)就無法衡量了。

2. 卡方檢驗(yàn)基于兩個樣本會遵守特定的理論分配,用來檢驗(yàn)兩個樣本or變量是否獨(dú)立。計(jì)算也相對比較簡單。能做大小比較,但是如果判斷自變量與因變量是否相關(guān),需要查卡方臨界表。

3. 互信息基于信息熵理論,可以作為變量間相互依賴性的量度,涉及l(fā)og計(jì)算,計(jì)算稍微復(fù)雜些。后面兩個方法都只能計(jì)算離散特征,如果是連續(xù)特征,需要先將特征離散化之后再進(jìn)行計(jì)算。

4. 特征選擇時:卡方檢驗(yàn),偏向于選擇出現(xiàn)次數(shù)較少的特征。因?yàn)槭瞧谕?觀測值的平方再除以期望,互信息不會出現(xiàn)這個情況。因?yàn)榛バ畔⒂谐艘詐(x,y)p(x,y)。從大多數(shù)實(shí)驗(yàn)來看,卡方跟互信息效果差不多,看具體的數(shù)據(jù)集而定。
?

?

?

參考鏈接:https://zhuanlan.zhihu.com/p/94074441
參考鏈接:https://www.jianshu.com/p/26004ad8872e
參考鏈接:https://www.zhihu.com/question/304499706/answer/544609335
參考鏈接:https://my.oschina.net/peterlie/blog/546761/print
參考鏈接:https://zhuanlan.zhihu.com/p/36441826
參考鏈接:https://blog.csdn.net/LiuXF93/article/details/88956643
參考鏈接:https://www.matongxue.com/madocs/568.html
參考鏈接:https://www.zhihu.com/question/20852004
參考鏈接:https://blog.csdn.net/shingle_/article/details/51725054
參考鏈接:https://www.jianshu.com/p/807b2c2bfd9b

?

總結(jié)

以上是生活随笔為你收集整理的机器学习-特征中的相关性及相关系数、卡方检验、互信息的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。