聊聊你知道和不知道的相关性系数
總第181篇/張俊紅
01
這一篇我們來(lái)聊聊大家平常比較常用的相關(guān)系數(shù)。相關(guān)系數(shù)是用來(lái)度量?jī)蓚€(gè)變量之間相關(guān)性大小的一個(gè)量化指標(biāo)。比如你要判斷啤酒和尿布之間是否有相關(guān)性,就可以計(jì)算這兩個(gè)變量的相關(guān)系數(shù),通過(guò)相關(guān)系數(shù)來(lái)判斷兩者的相關(guān)性大小。相關(guān)系數(shù)主要有三種:Pearson相關(guān)系數(shù)、Spearman秩相關(guān)系數(shù)和Kendall τ相關(guān)系數(shù)。皮爾遜(Pearson)相關(guān)系數(shù)大家應(yīng)該都知道,也應(yīng)該有用到過(guò)。但是秩相關(guān)(Spearman)系數(shù)和τ相關(guān)(Kendall)系數(shù)大家或許不知道。我們這一篇就來(lái)聊聊這三個(gè)系數(shù)。
02
第一個(gè)講的是大家熟悉的皮爾遜相關(guān)系數(shù),在講皮爾遜相關(guān)系數(shù)前,我們先講一下另外一個(gè)概念,協(xié)方差。協(xié)方差是用來(lái)表示兩個(gè)變量總體的誤差,而方差是用來(lái)只表示一個(gè)變量的誤差。協(xié)方差的公式如下:
協(xié)方差除了表示兩個(gè)變量總體的誤差以外還用來(lái)表示兩個(gè)變量之間的相關(guān)性,為什么協(xié)方差可以表示兩個(gè)變量之間的相關(guān)性呢?我們需要從協(xié)方差的公式入手。通過(guò)上面公式中我們可以看出,協(xié)方差等于兩個(gè)變量各自與均值之差的乘積和。
如果變量X與其均值的大小關(guān)系與變量Y完全一致,即變量X和Y的值要么同時(shí)大于均值要么同時(shí)小于均值,那這個(gè)時(shí)候得到的協(xié)方差全為正數(shù),且協(xié)方差值達(dá)到最大;如果變量X與其均值的大小關(guān)系與變量Y剛好相反,即變量X大于其均值的時(shí)候變量Y剛好小于其均值,這個(gè)時(shí)候得到的協(xié)方差全為負(fù)數(shù),且協(xié)方差值達(dá)到最小;如果變量X與其均值的大小關(guān)系與Y變量Y值部分一致,兩者的乘積會(huì)有正有負(fù),這個(gè)時(shí)候得到的協(xié)方差值就是介于最大值和最小值之間。X和Y變量的三種情況如下圖所示:
協(xié)方差比較容易受到量綱的影響,什么是量綱呢,就是單位,比如年齡和身高就不是一個(gè)單位,當(dāng)X和Y變量的量綱之間的差別很大時(shí),就會(huì)對(duì)協(xié)方差結(jié)果產(chǎn)生很大影響。下圖中,左右兩邊的X和Y的趨勢(shì)基本都一致,但是因?yàn)榱烤V不同(看縱坐標(biāo)值),所以最后算出來(lái)的協(xié)方差會(huì)相差很大。
下表為上圖中用到的數(shù)據(jù)集,感興趣的同學(xué)可以根據(jù)公式自己計(jì)算下:
那對(duì)于上面這種不同量綱的影響我們?cè)撛趺崔k呢?明明趨勢(shì)一致,但是算出來(lái)的協(xié)方差值會(huì)相差很大。什么原因?qū)е碌?#xff0c;我們就用什么方法解決。協(xié)方差差別很大的原因主要是因?yàn)榱烤V不同的原因引起的,那我們針對(duì)變量進(jìn)行去量綱處理就行,怎么去量綱呢?就是在協(xié)方差的基礎(chǔ)上再除以各自變量的標(biāo)準(zhǔn)差,這樣就可以消除不同量綱的影響,具體公式如下:
上面這個(gè)公式就是相關(guān)系數(shù)的公式,也就是我們常用的皮爾遜相關(guān)系數(shù),這個(gè)系數(shù)的取值在[-1,1]之間,當(dāng)值大于0說(shuō)明兩個(gè)變量是正相關(guān),且值越接近于1,相關(guān)程度越強(qiáng);當(dāng)值小于0說(shuō)明兩個(gè)變量是負(fù)相關(guān),且值越接近于-1,相關(guān)程度越強(qiáng)。
協(xié)方差不僅會(huì)受量綱的影響,還會(huì)受到異常值的影響,如果有異常值會(huì)拉高或拉低平均值,導(dǎo)致最后算出來(lái)的結(jié)果會(huì)有偏差。
03
講完了皮爾遜相關(guān)系數(shù),我們?cè)賮?lái)看看秩相關(guān)(Spearman)系數(shù)。
我們前面講過(guò)皮爾遜系數(shù)容易受到異常值的的影響,過(guò)高和過(guò)低的值都會(huì)導(dǎo)致最后的結(jié)果有偏差,那有沒(méi)有一種方法可以避免這種情況呢?答案就是我們這節(jié)要講的秩相關(guān)(Spearman)系數(shù),為什么這個(gè)可以避免異常值的影響呢?是因?yàn)檫@種方法沒(méi)有使用變量的絕對(duì)值,而是使用了變量中絕對(duì)值出現(xiàn)的順序,順序就是將所有的變量值從小到大進(jìn)行排序編號(hào)就行,是不是很有效。秩相關(guān)(Spearman)系數(shù)的公式如下:
04
秩相關(guān)(Spearman)系數(shù)是用變量里面各值對(duì)應(yīng)的順序來(lái)代替原變量值的,還有另外一種類(lèi)似的秩相關(guān)系數(shù),叫做 Kendall τ秩相關(guān)系數(shù)。這種相關(guān)系數(shù)的方法也是利用變量值出現(xiàn)的順序,但是與Spearman相關(guān)系數(shù)略有不同。具體求取方法為:先將變量X進(jìn)行升序排列,然后再對(duì)變量Y從第一個(gè)開(kāi)始,依次往后進(jìn)行兩兩比較,最后看隨著X的增大變量Y增大的值有多少,降低的有多少,通過(guò)增大的個(gè)數(shù)和降低的個(gè)數(shù)的比較來(lái)判定兩個(gè)變量的相關(guān)性。
如下圖所示,當(dāng)我們對(duì)變量X進(jìn)行升序排列以后,我們對(duì)變量Y從第一個(gè)值開(kāi)始進(jìn)行兩兩比較,一共需要比較的組合有:(1,3)、(1,6)、(1,2)、(1,5)、(1,4)、(3,6)、(3,2)、(3,5)、(3,4)、(6,2)、(6,5)、(6,4)、(2,5)、(2,4)、(5,4),然后我們看這里面大于的組合有多少,小于的組合有多少。
如果隨著X的增大變量Y增大的值越多,降低的值越少,說(shuō)明兩個(gè)變量之間越正相關(guān);如果隨著X的增大變量Y增大的值越少,降低的值越多,說(shuō)明兩個(gè)變量之間越負(fù)相關(guān);如果隨著X的增大變量Y增大的值與降低的值的數(shù)量比較接近,說(shuō)明兩個(gè)變量之間相關(guān)性比較弱。
05
以上就是關(guān)于三種不同相關(guān)系數(shù)的一個(gè)簡(jiǎn)單介紹,平常大家應(yīng)該對(duì)第一種皮爾遜相關(guān)系數(shù)了解比較多,但是嚴(yán)格意義上后兩種要比第一種更加通用,而且適用場(chǎng)景更多一些,尤其是對(duì)異常值的影響。
當(dāng)然了,我們?cè)谑褂眠@些方法的過(guò)程中肯定是不需要去自己手動(dòng)計(jì)算的,大家只需要明白其中的原理即可。這些相關(guān)性系數(shù)的求取在Python中都是有現(xiàn)成的函數(shù)供大家使用。df.corr()大家應(yīng)該有人使用過(guò),不知道你有沒(méi)有看過(guò)這個(gè)函數(shù)里面的參數(shù),這個(gè)函數(shù)里面有一個(gè)method參數(shù),該參數(shù)有三個(gè)值可選:‘pearson’, spearman’,‘kendall’,分別對(duì)應(yīng)我們上面的三種系數(shù)的求取。
本文就講到這里,大家可以去使用起來(lái)啦,我們下周再見(jiàn)。
你還可以看:
聊聊置信度與置信區(qū)間
統(tǒng)計(jì)學(xué)的假設(shè)檢驗(yàn)
總結(jié)
以上是生活随笔為你收集整理的聊聊你知道和不知道的相关性系数的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 11月碎碎念-谈职场礼貌
- 下一篇: 介绍两种思维模式