日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

机器学习中的度量——相关系数

發(fā)布時間:2024/1/3 综合教程 57 生活家
生活随笔 收集整理的這篇文章主要介紹了 机器学习中的度量——相关系数 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

??????機(jī)器學(xué)習(xí)是時下流行AI技術(shù)中一個很重要的方向,無論是有監(jiān)督學(xué)習(xí)還是無監(jiān)督學(xué)習(xí)都使用各種“度量”來得到不同樣本數(shù)據(jù)的差異度或者不同樣本數(shù)據(jù)的相似度。良好的“度量”可以顯著提高算法的分類或預(yù)測的準(zhǔn)確率,本文中將介紹機(jī)器學(xué)習(xí)中各種“度量”,“度量”主要由兩種,分別為距離、相似度和相關(guān)系數(shù),距離的研究主體一般是線性空間中點(diǎn);而相似度研究主體是線性空間中向量;相關(guān)系數(shù)研究主體主要是分布數(shù)據(jù)。本文主要介紹相關(guān)系數(shù)。

1 皮爾遜相關(guān)系數(shù)——常用的相關(guān)系數(shù)

??????機(jī)在統(tǒng)計(jì)學(xué)中,皮爾遜相關(guān)系數(shù)(earson correlation coefficient)用于度量兩個變量X和Y之間的相關(guān)程度(線性相關(guān)),其值介于-1與1之間。在自然科學(xué)領(lǐng)域中,該系數(shù)廣泛用于度量兩個變量之間的線性相關(guān)程度。它是由卡爾·皮爾遜從弗朗西斯·高爾頓在19世紀(jì)80年代提出的一個相似卻又稍有不同的想法演變而來。
對于總體(由許多有某種共同性質(zhì)的事物組成的集合),給定隨機(jī)變量(X, y),總體皮爾遜相關(guān)系數(shù)的定義為

[{ho _{X,Y}}{m{ = }}frac{{{mathop{m cov}} left( {X,Y} ight)}}{{{sigma _X}{sigma _Y}}}{m{ = }}frac{{Eleft( {left( {X - {mu _X}} ight)left( {Y - {mu _Y}} ight)} ight)}}{{{sigma _X}{sigma _Y}}}
]

??????機(jī)其中cov(X,Y)是隨機(jī)變量X和隨機(jī)變量Y之間的協(xié)方差
??????機(jī)σx是隨機(jī)變量X的方差
??????機(jī)σy是隨機(jī)變量Y的方差
??????機(jī)μx是隨機(jī)變量X的均值
??????機(jī)μy是隨機(jī)變量Y的均值

??????機(jī)對于同樣本來說,給定樣本對{(x1, y1), (x2,y2), …, (xn, yn)} ,樣本皮爾遜相關(guān)系數(shù)的定義為

[{r_{x,y}}{m{ = }}frac{{sumlimits_{i = 1}^n {left( {{x_i} - ar x} ight)left( {{y_i} - ar y} ight)} }}{{sqrt {sumlimits_{i = 1}^n {{{left( {{x_i} - ar x} ight)}^2}} } sqrt {sumlimits_{i = 1}^n {{{left( {{y_i} - ar y} ight)}^2}} } }} = frac{{nsumlimits_{i = 1}^n {{x_i}{y_i}} - sumlimits_{i = 1}^n {{x_i}} sumlimits_{i = 1}^n {{y_i}} }}{{sqrt {nsumlimits_{i = 1}^n {x_i^2} - {{left( {sumlimits_{i = 1}^n {{x_i}} } ight)}^2}} sqrt {nsumlimits_{i = 1}^n {y_i^2} - {{left( {sumlimits_{i = 1}^n {{y_i}} } ight)}^2}} }}
]

??????機(jī)其中n是樣本數(shù)量
??????機(jī)Xi, yi是第i個獨(dú)立的樣本數(shù)據(jù)
??????機(jī)x是所有xi的均值
??????機(jī)y是所有yi的均值


圖1 具有不同相關(guān)系數(shù)值(ρ)的散點(diǎn)圖示例


圖2 幾組點(diǎn)集的相關(guān)系數(shù)

2 Phi相關(guān)系數(shù)——二元變量的相關(guān)性

??????機(jī)在統(tǒng)計(jì)學(xué)里,“Phi相關(guān)系數(shù)”(Phi coefficient)(符號表示為φ)是測量兩個二元變數(shù)之間相關(guān)性的工具,由卡爾·皮爾森所發(fā)明 [1]。他也發(fā)明了與Phi相關(guān)系數(shù)有密切關(guān)聯(lián)的皮爾森卡方檢定(Pearson's chi-squared test。一般所稱的卡方檢驗(yàn)),以及發(fā)明了測量兩個連續(xù)變數(shù)之間相關(guān)程度的皮爾森相關(guān)系數(shù)。Phi相關(guān)系數(shù)在機(jī)器學(xué)習(xí)的領(lǐng)域又稱為Matthews相關(guān)系數(shù)。

??????機(jī)首先將兩個變數(shù)排成2×2列聯(lián)表,注意 1 和 0 的位置必須如同下表,若只變動 X 或只變動 Y 的 0/1 位置,計(jì)算出來的Phi相關(guān)系數(shù)會正負(fù)號相反。Phi相關(guān)系數(shù)的基本概念是:兩個二元變數(shù)的觀察值若大多落在2×2列聯(lián)表的“主對角線”字段,亦即若觀察值大多為(X,Y) =(1,1), (0,0)這兩種組合,則這兩個變數(shù)呈正相關(guān)。反之,若兩個二元變數(shù)的觀察值大多落在“非對角線”字段,對應(yīng)于2×2列聯(lián)表,亦即若觀察值大多為(X,Y) =(0,1), (1,0)這兩種組

Y=1 Y=0 總計(jì)
X=1 n11 n10 a1
X=2 n01 n00 a2
總計(jì) b1 b2 n

??????機(jī)其中 n11, n10, n01, n00都是非負(fù)數(shù)的字段計(jì)次值,它們加總為n ,亦即觀察值的個數(shù)。由上面的表格可以得出 X 和 Y 的 Phi相關(guān)系數(shù)如下:

??????機(jī)一個簡單的實(shí)例:研究者欲觀察性別與慣用手的相關(guān)性。虛無假設(shè)是:性別與慣用手無相關(guān)性。觀察對象是隨機(jī)抽樣出來的個人,身上有兩個二元變數(shù)(性別 X ,慣用手 Y),X 有兩種結(jié)果值(男=1/女=0),Y也有兩種結(jié)果值(右撇子=1/左撇子=0)。觀察兩個二元變數(shù)的相關(guān)性可以使用Phi相關(guān)系數(shù)。假設(shè)簡單隨機(jī)抽樣100人,得出如下的2×2列聯(lián)表:

男=1 女=0 總計(jì)
右=1 43 44 87
左=2 7 6 13
總計(jì) 50 50 100

??????機(jī)假設(shè)?0.0297相關(guān)系數(shù)檢定為顯著,在本例對變數(shù) 1/0 的指定下,代表身為男性與身為右撇子有輕微的負(fù)相關(guān),也就是男性右撇子的比例略低于女性右撇子的比例;或者反過來說,男性左撇子的比例略高于女性左撇子的比例。

總結(jié)

以上是生活随笔為你收集整理的机器学习中的度量——相关系数的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。