相关系数之皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数(评价线性关系的相关系数)(第一部分)
0.前言
一開始學(xué)這里的時(shí)候我感覺真的完?duì)僮恿?#xff0c;因?yàn)檫@部分的內(nèi)容涉及到了概率論和數(shù)理統(tǒng)計(jì)的東西,概率論和數(shù)理統(tǒng)計(jì)雖然我現(xiàn)在在學(xué),但我學(xué)的一團(tuán)糟,翻書也毫無頭緒,完了,現(xiàn)在就寫一寫自己怎么學(xué)的這兩個(gè)系數(shù),關(guān)于這些系數(shù)有什么用,怎么算,兩個(gè)方面。
1.回顧概率論與數(shù)理統(tǒng)計(jì)的一些知識點(diǎn)
首先是關(guān)于總體均值和總體協(xié)方差的計(jì)算,公式貼出來。
至于有什么用?都懂均值啥意思吧?先說說協(xié)方差吧
直觀理解協(xié)方差:如果X、Y變化方向相同,即當(dāng)X大于(小于)其均值時(shí),Y也 大于(小于)其均值,在這兩種情況下,乘積為正。如果X、Y的變化方向一直 保持相同,則協(xié)方差為正;同理,如果X、Y變化方向一直相反,則協(xié)方差為負(fù); 如果X、Y變化方向之間相互無規(guī)律,即分子中有的項(xiàng)為正,有的項(xiàng)為負(fù),那么 累加后正負(fù)抵消。3.Pearson相關(guān)系數(shù)
接著就是這個(gè)Pearson相關(guān)系數(shù)的公式了
3.1.總體皮爾遜Pearson相關(guān)系數(shù)
皮爾遜相關(guān)系數(shù)也可以看成是剔除了兩個(gè)變量量綱影響,即將X和Y標(biāo)準(zhǔn)化后的協(xié)方差。3.2.樣本皮爾遜Pearson相關(guān)系數(shù)
?麻了...看到這里頭都大了,一個(gè)總體person相關(guān)系數(shù),一個(gè)樣本person相關(guān)系數(shù),都有啥用?為啥要分總體和樣本呢?
首先我們要了解總體和樣本的概念:
總體指的是考察對象的全部個(gè)體,我們也總是希望得到總體數(shù)據(jù)的一些特征(均值方差之類的)
樣本指的是從總體中抽取的一部分個(gè)體
?知道了概念,我們了解到樣本數(shù)據(jù)相當(dāng)于是總體數(shù)據(jù)的一個(gè)子集,當(dāng)總體過大時(shí),數(shù)據(jù)的處理將會變得異常困難,這時(shí)候樣本數(shù)據(jù)將會起到一個(gè)節(jié)省數(shù)據(jù)處理成本的一個(gè)作用。
例如使用樣本均值、樣本標(biāo)準(zhǔn)差來估計(jì)總體的均值(平均 水平)和總體的標(biāo)準(zhǔn)差(偏離程度)。?一個(gè)總體person相關(guān)系數(shù),一個(gè)樣本person相關(guān)系數(shù),那都有啥用?問題又回到了這里,這些細(xì)小的差距,使用上需要注意什么?
?我們看下面這一組的散點(diǎn)圖,上面數(shù)字為相關(guān)系數(shù)的值
可以看出,相關(guān)系數(shù)越靠近1或-1則導(dǎo)致了圖像越是一個(gè)正相關(guān)與負(fù)相關(guān)的圖像
我們再看下面一組圖
可以看出異常點(diǎn)對于person相關(guān)系數(shù)的影響是巨大的?
通過這兩個(gè)圖我們可以得出一個(gè)結(jié)論:
這里的相關(guān)系數(shù)只是用來衡量兩個(gè)變量線性相關(guān)程度的指標(biāo);
也就是說,你必須先確認(rèn)這兩個(gè)變量是線性相關(guān)的,然后這個(gè)相關(guān)系數(shù)才能告訴你他倆相關(guān)程度如何。 講人話就是:先畫散點(diǎn)圖,再BB相關(guān)系數(shù) 那怎么畫圖? 來點(diǎn)小例題吧..4.樣本散點(diǎn)圖繪制
?4.1例題1
4.1.1要算person相關(guān)系數(shù)要先算描述性指標(biāo)作出描述性統(tǒng)計(jì)的表格
?一般計(jì)算描述性指標(biāo)有三種方法:Excel,MTALAB,SPSS
這里就只介紹MATLAB和SPSS的方法
- MIN = min(Test); ?% 每一列的最小值
- MAX = max(Test); ? % 每一列的最大值
- MEAN = mean(Test); ?% 每一列的均值
- MEDIAN = median(Test); ?%每一列的中位數(shù)
- SKEWNESS = skewness(Test); %每一列的偏度
- KURTOSIS = kurtosis(Test); ?%每一列的峰度
- STD = std(Test); ?% 每一列的標(biāo)準(zhǔn)差
- RESULT = [MIN;MAX;MEAN;MEDIAN;SKEWNESS;KURTOSIS;STD] ?%將這些統(tǒng)計(jì)量放到一個(gè)矩陣中表示
執(zhí)行后就可以得到一個(gè)描述性統(tǒng)計(jì)的表格,后續(xù)可到Excel中進(jìn)行精簡處理
????0.1350 ? ?0.0160 ? ?1.4500 ? ?0.0078 ? ?0.0520 ? ?0.0005
? ? 0.1710 ? ?0.0650 ? ?3.2720 ? ?0.0150 ? ?0.2050 ? ?0.0175
? ? 0.1560 ? ?0.0468 ? ?2.3332 ? ?0.0108 ? ?0.1668 ? ?0.0095
? ? 0.1570 ? ?0.0470 ? ?2.3910 ? ?0.0107 ? ?0.1670 ? ?0.0096
? ?-0.0003 ? -0.0004 ? -0.0003 ? ?0.0007 ? -0.0008 ? -0.0002
? ? 0.0027 ? ?0.0094 ? ?0.0028 ? ?0.0033 ? ?0.0084 ? ?0.0028
? ? 0.0074 ? ?0.0050 ? ?0.3504 ? ?0.0013 ? ?0.0168 ? ?0.0029
?而SPSS則沒這么復(fù)雜,通過分析->描述統(tǒng)計(jì)->描述
4.1.2散點(diǎn)圖繪制
在計(jì)算皮爾遜相關(guān)系數(shù)之前,一定要做出散點(diǎn)圖來看兩組變量之間是否有線性關(guān)系 這里使用Spss比較方便:?圖形 ‐ 舊對話框 ‐ 散點(diǎn)圖/點(diǎn)圖 ‐ 矩陣散點(diǎn)圖?
?將指標(biāo)移入后直接確定,出圖:
?啊這...這散點(diǎn)圖看得我頭皮疼,這有什么用,好像也看不出有沒有線性關(guān)系,但不管了,先做吧..
4.1.3person相關(guān)系數(shù)計(jì)算
- R = corrcoef(Test) ? % correlation coefficient
執(zhí)行后可得一個(gè)相關(guān)系數(shù)表格,可在Excel中進(jìn)行后續(xù)的美化
???1.0000 ? ?0.0665 ? -0.2177 ? -0.1920 ? ?0.0440 ? ?0.0951
? ? 0.0665 ? ?1.0000 ? ?0.0954 ? ?0.0685 ? ?0.0279 ? -0.0161
? ?-0.2177 ? ?0.0954 ? ?1.0000 ? ?0.2898 ? ?0.0248 ? -0.0749
? ?-0.1920 ? ?0.0685 ? ?0.2898 ? ?1.0000 ? -0.0587 ? -0.0019
? ? 0.0440 ? ?0.0279 ? ?0.0248 ? -0.0587 ? ?1.0000 ? -0.0174
? ? 0.0951 ? -0.0161 ? -0.0749 ? -0.0019 ? -0.0174 ? ?1.0000????????
?先到這吧..
總結(jié)
以上是生活随笔為你收集整理的相关系数之皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数(评价线性关系的相关系数)(第一部分)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 租车APP开发的市场优势和主要功能
- 下一篇: CDA二期学习笔记