日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

机器学习中的度量——相关系数

發(fā)布時(shí)間:2024/1/3 66 生活家
生活随笔 收集整理的這篇文章主要介紹了 机器学习中的度量——相关系数 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

??????機(jī)器學(xué)習(xí)是時(shí)下流行AI技術(shù)中一個(gè)很重要的方向,無論是有監(jiān)督學(xué)習(xí)還是無監(jiān)督學(xué)習(xí)都使用各種“度量”來得到不同樣本數(shù)據(jù)的差異度或者不同樣本數(shù)據(jù)的相似度。良好的“度量”可以顯著提高算法的分類或預(yù)測(cè)的準(zhǔn)確率,本文中將介紹機(jī)器學(xué)習(xí)中各種“度量”,“度量”主要由兩種,分別為距離、相似度和相關(guān)系數(shù),距離的研究主體一般是線性空間中點(diǎn);而相似度研究主體是線性空間中向量;相關(guān)系數(shù)研究主體主要是分布數(shù)據(jù)。本文主要介紹相關(guān)系數(shù)。

1 皮爾遜相關(guān)系數(shù)——常用的相關(guān)系數(shù)

??????機(jī)在統(tǒng)計(jì)學(xué)中,皮爾遜相關(guān)系數(shù)(earson correlation coefficient)用于度量?jī)蓚€(gè)變量X和Y之間的相關(guān)程度(線性相關(guān)),其值介于-1與1之間。在自然科學(xué)領(lǐng)域中,該系數(shù)廣泛用于度量?jī)蓚€(gè)變量之間的線性相關(guān)程度。它是由卡爾·皮爾遜從弗朗西斯·高爾頓在19世紀(jì)80年代提出的一個(gè)相似卻又稍有不同的想法演變而來。
對(duì)于總體(由許多有某種共同性質(zhì)的事物組成的集合),給定隨機(jī)變量(X, y),總體皮爾遜相關(guān)系數(shù)的定義為

[{ho _{X,Y}}{m{ = }}frac{{{mathop{m cov}} left( {X,Y} ight)}}{{{sigma _X}{sigma _Y}}}{m{ = }}frac{{Eleft( {left( {X - {mu _X}} ight)left( {Y - {mu _Y}} ight)} ight)}}{{{sigma _X}{sigma _Y}}}
]

??????機(jī)其中cov(X,Y)是隨機(jī)變量X和隨機(jī)變量Y之間的協(xié)方差
??????機(jī)σx是隨機(jī)變量X的方差
??????機(jī)σy是隨機(jī)變量Y的方差
??????機(jī)μx是隨機(jī)變量X的均值
??????機(jī)μy是隨機(jī)變量Y的均值

??????機(jī)對(duì)于同樣本來說,給定樣本對(duì){(x1, y1), (x2,y2), …, (xn, yn)} ,樣本皮爾遜相關(guān)系數(shù)的定義為

[{r_{x,y}}{m{ = }}frac{{sumlimits_{i = 1}^n {left( {{x_i} - ar x} ight)left( {{y_i} - ar y} ight)} }}{{sqrt {sumlimits_{i = 1}^n {{{left( {{x_i} - ar x} ight)}^2}} } sqrt {sumlimits_{i = 1}^n {{{left( {{y_i} - ar y} ight)}^2}} } }} = frac{{nsumlimits_{i = 1}^n {{x_i}{y_i}} - sumlimits_{i = 1}^n {{x_i}} sumlimits_{i = 1}^n {{y_i}} }}{{sqrt {nsumlimits_{i = 1}^n {x_i^2} - {{left( {sumlimits_{i = 1}^n {{x_i}} } ight)}^2}} sqrt {nsumlimits_{i = 1}^n {y_i^2} - {{left( {sumlimits_{i = 1}^n {{y_i}} } ight)}^2}} }}
]

??????機(jī)其中n是樣本數(shù)量
??????機(jī)Xi, yi是第i個(gè)獨(dú)立的樣本數(shù)據(jù)
??????機(jī)x是所有xi的均值
??????機(jī)y是所有yi的均值


圖1 具有不同相關(guān)系數(shù)值(ρ)的散點(diǎn)圖示例


圖2 幾組點(diǎn)集的相關(guān)系數(shù)

2 Phi相關(guān)系數(shù)——二元變量的相關(guān)性

??????機(jī)在統(tǒng)計(jì)學(xué)里,“Phi相關(guān)系數(shù)”(Phi coefficient)(符號(hào)表示為φ)是測(cè)量?jī)蓚€(gè)二元變數(shù)之間相關(guān)性的工具,由卡爾·皮爾森所發(fā)明 [1]。他也發(fā)明了與Phi相關(guān)系數(shù)有密切關(guān)聯(lián)的皮爾森卡方檢定(Pearson's chi-squared test。一般所稱的卡方檢驗(yàn)),以及發(fā)明了測(cè)量?jī)蓚€(gè)連續(xù)變數(shù)之間相關(guān)程度的皮爾森相關(guān)系數(shù)。Phi相關(guān)系數(shù)在機(jī)器學(xué)習(xí)的領(lǐng)域又稱為Matthews相關(guān)系數(shù)。

??????機(jī)首先將兩個(gè)變數(shù)排成2×2列聯(lián)表,注意 1 和 0 的位置必須如同下表,若只變動(dòng) X 或只變動(dòng) Y 的 0/1 位置,計(jì)算出來的Phi相關(guān)系數(shù)會(huì)正負(fù)號(hào)相反。Phi相關(guān)系數(shù)的基本概念是:兩個(gè)二元變數(shù)的觀察值若大多落在2×2列聯(lián)表的“主對(duì)角線”字段,亦即若觀察值大多為(X,Y) =(1,1), (0,0)這兩種組合,則這兩個(gè)變數(shù)呈正相關(guān)。反之,若兩個(gè)二元變數(shù)的觀察值大多落在“非對(duì)角線”字段,對(duì)應(yīng)于2×2列聯(lián)表,亦即若觀察值大多為(X,Y) =(0,1), (1,0)這兩種組

Y=1 Y=0 總計(jì)
X=1 n11 n10 a1
X=2 n01 n00 a2
總計(jì) b1 b2 n

??????機(jī)其中 n11, n10, n01, n00都是非負(fù)數(shù)的字段計(jì)次值,它們加總為n ,亦即觀察值的個(gè)數(shù)。由上面的表格可以得出 X 和 Y 的 Phi相關(guān)系數(shù)如下:

??????機(jī)一個(gè)簡(jiǎn)單的實(shí)例:研究者欲觀察性別與慣用手的相關(guān)性。虛無假設(shè)是:性別與慣用手無相關(guān)性。觀察對(duì)象是隨機(jī)抽樣出來的個(gè)人,身上有兩個(gè)二元變數(shù)(性別 X ,慣用手 Y),X 有兩種結(jié)果值(男=1/女=0),Y也有兩種結(jié)果值(右撇子=1/左撇子=0)。觀察兩個(gè)二元變數(shù)的相關(guān)性可以使用Phi相關(guān)系數(shù)。假設(shè)簡(jiǎn)單隨機(jī)抽樣100人,得出如下的2×2列聯(lián)表:

男=1 女=0 總計(jì)
右=1 43 44 87
左=2 7 6 13
總計(jì) 50 50 100

??????機(jī)假設(shè)?0.0297相關(guān)系數(shù)檢定為顯著,在本例對(duì)變數(shù) 1/0 的指定下,代表身為男性與身為右撇子有輕微的負(fù)相關(guān),也就是男性右撇子的比例略低于女性右撇子的比例;或者反過來說,男性左撇子的比例略高于女性左撇子的比例。

總結(jié)

以上是生活随笔為你收集整理的机器学习中的度量——相关系数的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。