机器学习中的度量——相关系数
??????機(jī)器學(xué)習(xí)是時下流行AI技術(shù)中一個很重要的方向,無論是有監(jiān)督學(xué)習(xí)還是無監(jiān)督學(xué)習(xí)都使用各種“度量”來得到不同樣本數(shù)據(jù)的差異度或者不同樣本數(shù)據(jù)的相似度。良好的“度量”可以顯著提高算法的分類或預(yù)測的準(zhǔn)確率,本文中將介紹機(jī)器學(xué)習(xí)中各種“度量”,“度量”主要由兩種,分別為距離、相似度和相關(guān)系數(shù),距離的研究主體一般是線性空間中點(diǎn);而相似度研究主體是線性空間中向量;相關(guān)系數(shù)研究主體主要是分布數(shù)據(jù)。本文主要介紹相關(guān)系數(shù)。
1 皮爾遜相關(guān)系數(shù)——常用的相關(guān)系數(shù)
??????機(jī)在統(tǒng)計(jì)學(xué)中,皮爾遜相關(guān)系數(shù)(earson correlation coefficient)用于度量兩個變量X和Y之間的相關(guān)程度(線性相關(guān)),其值介于-1與1之間。在自然科學(xué)領(lǐng)域中,該系數(shù)廣泛用于度量兩個變量之間的線性相關(guān)程度。它是由卡爾·皮爾遜從弗朗西斯·高爾頓在19世紀(jì)80年代提出的一個相似卻又稍有不同的想法演變而來。
對于總體(由許多有某種共同性質(zhì)的事物組成的集合),給定隨機(jī)變量(X, y),總體皮爾遜相關(guān)系數(shù)的定義為
[{ho _{X,Y}}{m{ = }}frac{{{mathop{m cov}} left( {X,Y} ight)}}{{{sigma _X}{sigma _Y}}}{m{ = }}frac{{Eleft( {left( {X - {mu _X}} ight)left( {Y - {mu _Y}} ight)} ight)}}{{{sigma _X}{sigma _Y}}}
]
??????機(jī)其中cov(X,Y)是隨機(jī)變量X和隨機(jī)變量Y之間的協(xié)方差
??????機(jī)σx是隨機(jī)變量X的方差
??????機(jī)σy是隨機(jī)變量Y的方差
??????機(jī)μx是隨機(jī)變量X的均值
??????機(jī)μy是隨機(jī)變量Y的均值
??????機(jī)對于同樣本來說,給定樣本對{(x1, y1), (x2,y2), …, (xn, yn)} ,樣本皮爾遜相關(guān)系數(shù)的定義為
[{r_{x,y}}{m{ = }}frac{{sumlimits_{i = 1}^n {left( {{x_i} - ar x} ight)left( {{y_i} - ar y} ight)} }}{{sqrt {sumlimits_{i = 1}^n {{{left( {{x_i} - ar x} ight)}^2}} } sqrt {sumlimits_{i = 1}^n {{{left( {{y_i} - ar y} ight)}^2}} } }} = frac{{nsumlimits_{i = 1}^n {{x_i}{y_i}} - sumlimits_{i = 1}^n {{x_i}} sumlimits_{i = 1}^n {{y_i}} }}{{sqrt {nsumlimits_{i = 1}^n {x_i^2} - {{left( {sumlimits_{i = 1}^n {{x_i}} } ight)}^2}} sqrt {nsumlimits_{i = 1}^n {y_i^2} - {{left( {sumlimits_{i = 1}^n {{y_i}} } ight)}^2}} }}
]
??????機(jī)其中n是樣本數(shù)量
??????機(jī)Xi, yi是第i個獨(dú)立的樣本數(shù)據(jù)
??????機(jī)x是所有xi的均值
??????機(jī)y是所有yi的均值
圖1 具有不同相關(guān)系數(shù)值(ρ)的散點(diǎn)圖示例
圖2 幾組點(diǎn)集的相關(guān)系數(shù)
2 Phi相關(guān)系數(shù)——二元變量的相關(guān)性
??????機(jī)在統(tǒng)計(jì)學(xué)里,“Phi相關(guān)系數(shù)”(Phi coefficient)(符號表示為φ)是測量兩個二元變數(shù)之間相關(guān)性的工具,由卡爾·皮爾森所發(fā)明 [1]。他也發(fā)明了與Phi相關(guān)系數(shù)有密切關(guān)聯(lián)的皮爾森卡方檢定(Pearson's chi-squared test。一般所稱的卡方檢驗(yàn)),以及發(fā)明了測量兩個連續(xù)變數(shù)之間相關(guān)程度的皮爾森相關(guān)系數(shù)。Phi相關(guān)系數(shù)在機(jī)器學(xué)習(xí)的領(lǐng)域又稱為Matthews相關(guān)系數(shù)。
??????機(jī)首先將兩個變數(shù)排成2×2列聯(lián)表,注意 1 和 0 的位置必須如同下表,若只變動 X 或只變動 Y 的 0/1 位置,計(jì)算出來的Phi相關(guān)系數(shù)會正負(fù)號相反。Phi相關(guān)系數(shù)的基本概念是:兩個二元變數(shù)的觀察值若大多落在2×2列聯(lián)表的“主對角線”字段,亦即若觀察值大多為(X,Y) =(1,1), (0,0)這兩種組合,則這兩個變數(shù)呈正相關(guān)。反之,若兩個二元變數(shù)的觀察值大多落在“非對角線”字段,對應(yīng)于2×2列聯(lián)表,亦即若觀察值大多為(X,Y) =(0,1), (1,0)這兩種組
| Y=1 | Y=0 | 總計(jì) | |
|---|---|---|---|
| X=1 | n11 | n10 | a1 |
| X=2 | n01 | n00 | a2 |
| 總計(jì) | b1 | b2 | n |
??????機(jī)其中 n11, n10, n01, n00都是非負(fù)數(shù)的字段計(jì)次值,它們加總為n ,亦即觀察值的個數(shù)。由上面的表格可以得出 X 和 Y 的 Phi相關(guān)系數(shù)如下:
??????機(jī)一個簡單的實(shí)例:研究者欲觀察性別與慣用手的相關(guān)性。虛無假設(shè)是:性別與慣用手無相關(guān)性。觀察對象是隨機(jī)抽樣出來的個人,身上有兩個二元變數(shù)(性別 X ,慣用手 Y),X 有兩種結(jié)果值(男=1/女=0),Y也有兩種結(jié)果值(右撇子=1/左撇子=0)。觀察兩個二元變數(shù)的相關(guān)性可以使用Phi相關(guān)系數(shù)。假設(shè)簡單隨機(jī)抽樣100人,得出如下的2×2列聯(lián)表:
| 男=1 | 女=0 | 總計(jì) | |
|---|---|---|---|
| 右=1 | 43 | 44 | 87 |
| 左=2 | 7 | 6 | 13 |
| 總計(jì) | 50 | 50 | 100 |
??????機(jī)假設(shè)?0.0297相關(guān)系數(shù)檢定為顯著,在本例對變數(shù) 1/0 的指定下,代表身為男性與身為右撇子有輕微的負(fù)相關(guān),也就是男性右撇子的比例略低于女性右撇子的比例;或者反過來說,男性左撇子的比例略高于女性左撇子的比例。
總結(jié)
以上是生活随笔為你收集整理的机器学习中的度量——相关系数的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 乐播投屏怎么投屏到电视
- 下一篇: 百度翻译在线拍照扫一扫(日文翻译器拍照扫