當(dāng)前位置：首頁 >

聊聊你知道和不知道的相关性系数

發(fā)布時間：2023/12/19 37 豆豆

生活随笔收集整理的這篇文章主要介紹了聊聊你知道和不知道的相关性系数小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

總第181篇/張俊紅

01

這一篇我們來聊聊大家平常比較常用的相關(guān)系數(shù)。相關(guān)系數(shù)是用來度量兩個變量之間相關(guān)性大小的一個量化指標(biāo)。比如你要判斷啤酒和尿布之間是否有相關(guān)性，就可以計算這兩個變量的相關(guān)系數(shù)，通過相關(guān)系數(shù)來判斷兩者的相關(guān)性大小。相關(guān)系數(shù)主要有三種：Pearson相關(guān)系數(shù)、Spearman秩相關(guān)系數(shù)和Kendall τ相關(guān)系數(shù)。皮爾遜(Pearson)相關(guān)系數(shù)大家應(yīng)該都知道，也應(yīng)該有用到過。但是秩相關(guān)(Spearman)系數(shù)和τ相關(guān)(Kendall)系數(shù)大家或許不知道。我們這一篇就來聊聊這三個系數(shù)。

02

第一個講的是大家熟悉的皮爾遜相關(guān)系數(shù)，在講皮爾遜相關(guān)系數(shù)前，我們先講一下另外一個概念，協(xié)方差。協(xié)方差是用來表示兩個變量總體的誤差，而方差是用來只表示一個變量的誤差。協(xié)方差的公式如下：

協(xié)方差除了表示兩個變量總體的誤差以外還用來表示兩個變量之間的相關(guān)性，為什么協(xié)方差可以表示兩個變量之間的相關(guān)性呢？我們需要從協(xié)方差的公式入手。通過上面公式中我們可以看出，協(xié)方差等于兩個變量各自與均值之差的乘積和。

如果變量X與其均值的大小關(guān)系與變量Y完全一致，即變量X和Y的值要么同時大于均值要么同時小于均值，那這個時候得到的協(xié)方差全為正數(shù)，且協(xié)方差值達(dá)到最大；如果變量X與其均值的大小關(guān)系與變量Y剛好相反，即變量X大于其均值的時候變量Y剛好小于其均值，這個時候得到的協(xié)方差全為負(fù)數(shù)，且協(xié)方差值達(dá)到最小；如果變量X與其均值的大小關(guān)系與Y變量Y值部分一致，兩者的乘積會有正有負(fù)，這個時候得到的協(xié)方差值就是介于最大值和最小值之間。X和Y變量的三種情況如下圖所示：

協(xié)方差比較容易受到量綱的影響，什么是量綱呢，就是單位，比如年齡和身高就不是一個單位，當(dāng)X和Y變量的量綱之間的差別很大時，就會對協(xié)方差結(jié)果產(chǎn)生很大影響。下圖中，左右兩邊的X和Y的趨勢基本都一致，但是因?yàn)榱烤V不同(看縱坐標(biāo)值)，所以最后算出來的協(xié)方差會相差很大。

下表為上圖中用到的數(shù)據(jù)集，感興趣的同學(xué)可以根據(jù)公式自己計算下：

那對于上面這種不同量綱的影響我們該怎么辦呢？明明趨勢一致，但是算出來的協(xié)方差值會相差很大。什么原因?qū)е碌?#xff0c;我們就用什么方法解決。協(xié)方差差別很大的原因主要是因?yàn)榱烤V不同的原因引起的，那我們針對變量進(jìn)行去量綱處理就行，怎么去量綱呢？就是在協(xié)方差的基礎(chǔ)上再除以各自變量的標(biāo)準(zhǔn)差，這樣就可以消除不同量綱的影響，具體公式如下：

上面這個公式就是相關(guān)系數(shù)的公式，也就是我們常用的皮爾遜相關(guān)系數(shù)，這個系數(shù)的取值在[-1,1]之間，當(dāng)值大于0說明兩個變量是正相關(guān)，且值越接近于1，相關(guān)程度越強(qiáng)；當(dāng)值小于0說明兩個變量是負(fù)相關(guān)，且值越接近于-1，相關(guān)程度越強(qiáng)。

協(xié)方差不僅會受量綱的影響，還會受到異常值的影響，如果有異常值會拉高或拉低平均值，導(dǎo)致最后算出來的結(jié)果會有偏差。

03

講完了皮爾遜相關(guān)系數(shù)，我們再來看看秩相關(guān)(Spearman)系數(shù)。

我們前面講過皮爾遜系數(shù)容易受到異常值的的影響，過高和過低的值都會導(dǎo)致最后的結(jié)果有偏差，那有沒有一種方法可以避免這種情況呢？答案就是我們這節(jié)要講的秩相關(guān)(Spearman)系數(shù)，為什么這個可以避免異常值的影響呢？是因?yàn)檫@種方法沒有使用變量的絕對值，而是使用了變量中絕對值出現(xiàn)的順序，順序就是將所有的變量值從小到大進(jìn)行排序編號就行，是不是很有效。秩相關(guān)(Spearman)系數(shù)的公式如下：

04

秩相關(guān)(Spearman)系數(shù)是用變量里面各值對應(yīng)的順序來代替原變量值的，還有另外一種類似的秩相關(guān)系數(shù)，叫做 Kendall τ秩相關(guān)系數(shù)。這種相關(guān)系數(shù)的方法也是利用變量值出現(xiàn)的順序，但是與Spearman相關(guān)系數(shù)略有不同。具體求取方法為：先將變量X進(jìn)行升序排列，然后再對變量Y從第一個開始，依次往后進(jìn)行兩兩比較，最后看隨著X的增大變量Y增大的值有多少，降低的有多少，通過增大的個數(shù)和降低的個數(shù)的比較來判定兩個變量的相關(guān)性。

如下圖所示，當(dāng)我們對變量X進(jìn)行升序排列以后，我們對變量Y從第一個值開始進(jìn)行兩兩比較，一共需要比較的組合有：(1,3)、(1,6)、(1,2)、(1,5)、(1,4)、(3,6)、(3,2)、(3,5)、(3,4)、(6,2)、(6,5)、(6,4)、(2,5)、(2,4)、(5,4)，然后我們看這里面大于的組合有多少，小于的組合有多少。

如果隨著X的增大變量Y增大的值越多，降低的值越少，說明兩個變量之間越正相關(guān)；如果隨著X的增大變量Y增大的值越少，降低的值越多，說明兩個變量之間越負(fù)相關(guān)；如果隨著X的增大變量Y增大的值與降低的值的數(shù)量比較接近，說明兩個變量之間相關(guān)性比較弱。

05

以上就是關(guān)于三種不同相關(guān)系數(shù)的一個簡單介紹，平常大家應(yīng)該對第一種皮爾遜相關(guān)系數(shù)了解比較多，但是嚴(yán)格意義上后兩種要比第一種更加通用，而且適用場景更多一些，尤其是對異常值的影響。

當(dāng)然了，我們在使用這些方法的過程中肯定是不需要去自己手動計算的，大家只需要明白其中的原理即可。這些相關(guān)性系數(shù)的求取在Python中都是有現(xiàn)成的函數(shù)供大家使用。df.corr()大家應(yīng)該有人使用過，不知道你有沒有看過這個函數(shù)里面的參數(shù)，這個函數(shù)里面有一個method參數(shù)，該參數(shù)有三個值可選：‘pearson’, spearman’，‘kendall’，分別對應(yīng)我們上面的三種系數(shù)的求取。

本文就講到這里，大家可以去使用起來啦，我們下周再見。

你還可以看：

聊聊置信度與置信區(qū)間

統(tǒng)計學(xué)的假設(shè)檢驗(yàn)

總結(jié)

以上是生活随笔為你收集整理的聊聊你知道和不知道的相关性系数的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

聊聊你知道和不知道的相关性系数

總第181篇/張俊紅

01

02

03

04

05

總結(jié)