日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

变量关系的描述方法

發(fā)布時間:2023/12/14 编程问答 57 豆豆
生活随笔 收集整理的這篇文章主要介紹了 变量关系的描述方法 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

前言:當描述變量間的相關關系時,大多數(shù)人都知道用“相關系數(shù)”來進行表示,進而直接聯(lián)想到了以下表達式:ρ=∑(yi?yˉ)(xi?xˉ)∑(yi?yˉ)2∑(xi?xˉ)2\rho = \frac{\sum(y_i-\bar{y})(x_i-\bar{x})}{\sqrt{\sum(y_i-\bar{y})^2\sum{(x_i-\bar{x})^2}}}ρ=(yi??yˉ?)2(xi??xˉ)2?(yi??yˉ?)(xi??xˉ)?但實際上該相關系數(shù)(更準確地說是PearsonPearsonPearson相關系數(shù))僅僅是描述兩數(shù)值型變量之間相關關系的一種方式,不能適用于全部場景。

目錄

    • 一、名義變量相關系數(shù)
    • 二、順序變量相關系數(shù)
      • 2.1 兩個順序變量相關系數(shù)度量
        • 2.1.1 kendall′sτkendall's \ \taukendalls?τ相關系數(shù)(τb\tau_bτb?τc\tau_cτc?相關系數(shù))
        • 2.1.2 Goodman?Kruskal′sγGoodman-Kruskal's \ \gammaGoodman?Kruskals?γ相關系數(shù)
      • 2.2 多個順序變量相關系數(shù)度量
      • 2.3 一致性的度量
        • 2.3.1 兩個順序變量一致性度量:KappaKappaKappa一致性系數(shù)
        • 2.3.2 多個順序變量一致性度量:Kendall′sWKendall's \ WKendalls?W系數(shù)
    • 三、數(shù)值型變量相關系數(shù)
      • 3.1 兩個數(shù)值型變量相關系數(shù)
      • 3.2 多個數(shù)值型變量相關系數(shù)
      • 3.3 一個數(shù)值型變量與多個數(shù)值型變量間的相關系數(shù)
      • 3.4 多個數(shù)值型變量與多個數(shù)值型變量間的相關系數(shù)

一、名義變量相關系數(shù)

由于分類型變量的取值通常是不能歸于某一類別的非數(shù)字型數(shù)據,因此需要對其進行整理,一般使用列聯(lián)表的方式展示交叉分類的頻數(shù)統(tǒng)計結果:

ABC?\cdots?
Xn11n_{11}n11?n12n_{12}n12?n13n_{13}n13??\cdots?
Yn21n_{21}n21?n22n_{22}n22?n23n_{23}n23??\cdots?

可以用以下統(tǒng)計量描述行變量和列變量之間的相關性:

  • ?\phi?相關系數(shù):?=χ2n\phi = \sqrt{\frac{\chi^2}{n}}?=nχ2??其中χ2\chi^2χ2是用于列聯(lián)表獨立性檢驗的卡方統(tǒng)計量。?\phi?相關系數(shù)主要適用于2×22\times 22×2列聯(lián)表的情形,此時其上限為1,且可以改寫為:?=n11n22?n21n12(n11+n12)(n21+n22)(n11+n21)(n12+n22)\phi = \frac{n_{11}n_{22} - n_{21}n_{12}}{\sqrt{(n_{11} + n_{12})(n_{21}+n_{22})(n_{11}+n_{21})(n_{12} + n_{22})}}?=(n11?+n12?)(n21?+n22?)(n11?+n21?)(n12?+n22?)?n11?n22??n21?n12??從其形式可以看到,主要是利用列聯(lián)表對角線元素的差值來反映不一致信息。
    當列聯(lián)表的維數(shù)大于2×22\times 22×2時, ?\phi?相關系數(shù)的上限會超過1,此時用于描述相關關系就不合適了。
  • CCC列聯(lián)系數(shù):C=χ2χ2+nC=\sqrt{\frac{\chi^2}{\chi^2+n}}C=χ2+nχ2??列聯(lián)系數(shù)可以用于維數(shù)超過2×22\times 22×2的列聯(lián)表,但其上限值總小于1,難以得到較為統(tǒng)一的評判標準,可以用于相同維數(shù)的不同列聯(lián)表間相關系數(shù)的比較。
  • Cramer′sVCramer's VCramersV相關系數(shù):V=χ2n?min?[(r?1),(c?1)]V=\sqrt{\frac{\chi^2}{n\cdot \min [(r-1),(c-1)]}}V=n?min[(r?1),(c?1)]χ2??VVV相關系數(shù)的取值在[0,1][0,1][0,1]之間,一般使用較多。
  • 二、順序變量相關系數(shù)

    順序變量和名義變量同屬于分類變量,順序變量的取值是只能歸于某一有序類別的非數(shù)字型數(shù)據,因此順序變量的整理方式通常也是列聯(lián)表,只是對列聯(lián)表進行分析時需要考慮各類別之間的順序關系,不能只考慮列聯(lián)表的結構關系。常見的分析有RidditRidditRiddit分析等。

    2.1 兩個順序變量相關系數(shù)度量

    2.1.1 kendall′sτkendall's \ \taukendalls?τ相關系數(shù)(τb\tau_bτb?τc\tau_cτc?相關系數(shù))

    先展示兩個順序(數(shù)值)變量觀測數(shù)據形式:

    變量X變量Y
    樣本1aaaxxx
    樣本2bbbyyy
    ?\cdots?
  • 當變量是數(shù)值型變量時,可以使用kendall′sτakendall's \ \tau_akendalls?τa?相關系數(shù)度量相關程度:
    τ=Nc?Ndn(n?1)/2\tau = \frac{N_c - N_d}{n(n-1)/2}τ=n(n?1)/2Nc??Nd??其中NcN_cNc?表示協(xié)同數(shù)對的數(shù)目,NdN_dNd?表示不協(xié)同數(shù)對的數(shù)目。
    (xj?xi)(yj?yi)>0(x_j-x_i)(y_j-y_i) >0(xj??xi?)(yj??yi?)>0時,就稱兩個數(shù)對(xi,yi)(x_i,y_i)(xi?,yi?)(xj,yj)(x_j,y_j)(xj?,yj?)之間是協(xié)同的,即變化方向是一致的。反之,當(xj?xi)(yj?yi)<0(x_j-x_i)(y_j-y_i) <0(xj??xi?)(yj??yi?)<0時,就稱數(shù)對(xi,yi)(x_i,y_i)(xi?,yi?)(xj,yj)(x_j,y_j)(xj?,yj?)之間是不協(xié)同的,即變化方向是相反的。
    τ\tauτ相關系數(shù)實際上是對概率P{(xj?xi)(yj?yi)>0}?P{(xj?xi)(yj?yi)<0}P\{(x_j-x_i)(y_j-y_i)>0\}-P\{(x_j-x_i)(y_j-y_i)<0\}P{(xj??xi?)(yj??yi?)>0}?P{(xj??xi?)(yj??yi?)<0}的估計。
    此外對于數(shù)值型變量還可以使用SpearmanSpearmanSpearman秩相關系數(shù)、PearsonPearsonPearson相關系數(shù)進行度量,在后面會再提。
  • 當變量是順序型變量時,往往存在較多打結現(xiàn)象,可以使用經過修正后的kendall′sτbkendall's \ \tau_bkendalls?τb?相關系數(shù)進行度量:τb=nc?nd[n(n?1)/2?∑iui(ui?1)/2][n(n?1)/2?∑jvj(vj?1)/2]\tau_b = \frac{n_c-n_d}{\sqrt{[n(n-1)/2-\sum_i u_i(u_i-1)/2][n(n-1)/2-\sum_jv_j(v_j-1)/2]}}τb?=[n(n?1)/2?i?ui?(ui??1)/2][n(n?1)/2?j?vj?(vj??1)/2]?nc??nd??其中uiu_iui?是變量XXX中第iii組打結個數(shù),vjv_jvj?是變量YYY中第jjj組打結個數(shù)。
  • 當變量是順序型變量,但兩個變量的類別數(shù)目相差較大時,使用kendall′sτckendall's \ \tau_ckendalls?τc?相關系數(shù)度量相關程度。τc=2q(nc?nd)n2(q?1)\tau_c = \frac{2q(n_c-n_d)}{n^2(q-1)}τc?=n2(q?1)2q(nc??nd?)?其中q=min?(r,c)q=\min (r,c)q=min(r,c).
  • 2.1.2 Goodman?Kruskal′sγGoodman-Kruskal's \ \gammaGoodman?Kruskals?γ相關系數(shù)

    在2.1.1節(jié)中已經提到,對于順序型變量,若利用SpearmanSpearmanSpearman秩相關系數(shù)評價相關性,對樣本觀測值評秩后會出現(xiàn)較多打結現(xiàn)象,而如果利用kendall′sτkendall's \ \taukendalls?τ相關系數(shù)其實有時也會出現(xiàn)這種情況,此時還可以使用Goodman?Kruskal′sγGoodman-Kruskal's\ \gammaGoodman?Kruskals?γ相關系數(shù)。


    用列聯(lián)表對順序變量觀測數(shù)據進行整理:

    X1X_1X1?X2X_2X2??\cdots?XcX_cXc?
    Y1Y_1Y1?n11n_{11}n11?n12n_{12}n12?n13n_{13}n13??\cdots?
    Y2Y_2Y2?n21n_{21}n21?n22n_{22}n22?n23n_{23}n23??\cdots?

    Goodman?Kruskal′sγGoodman-Kruskal's \ \gammaGoodman?Kruskals?γ相關系數(shù)的公式如下:G=P?QP+Q=nc?ndnc+ndG=\frac{P-Q}{P+Q} = \frac{n_c-n_d}{n_c + n_d}G=P+QP?Q?=nc?+nd?nc??nd??
    其中nc,ndn_c,n_dnc?,nd?為協(xié)同數(shù)對和不協(xié)同數(shù)對的數(shù)目,nc=∑i,jnij∑i′>i∑j′>jni′j′n_c = \sum_{i,j} n_{ij} \sum_{i'>i} \sum_{j'>j} n_{i'j'}nc?=i,j?nij?i>i?j>j?nij? nd=∑i,jnij∑i′>i∑j′<jni′j′n_d = \sum_{i,j} n_{ij} \sum_{i'>i}\sum_{j'<j} n_{i'j'}nd?=i,j?nij?i>i?j<j?nij?
    此外還可以給出GGG相關系數(shù)的漸近方差計算公式,在這里不給出了。

    2.2 多個順序變量相關系數(shù)度量

    展示多個順序變量:

    變量A變量B變量C
    樣本1aaaxxxuuu
    樣本2bbbyyyvvv
    ?\cdots?

    探究的問題一般是kkk個順序變量(或數(shù)值變量)之間是否存在相關性
    一般通過計算Kendall′sWKendall's\ WKendalls?W相關系數(shù)進行檢驗,步驟如下:

  • 對每個變量的觀測值進行評秩:(R1i,R2i,?,Rni)(R_{1i},R_{2i},\cdots,R_{ni})(R1i?,R2i?,?,Rni?)
  • 計算每個樣本的秩和:Rj?=∑i=1kRjkR_{j\cdot} = \sum_{i=1}^kR_{jk}Rj??=i=1k?Rjk?,以及每個樣品的平均秩和Rˉ=n(n+1)2?k/n=(n+1)k2\bar{R} = \frac{n(n+1)}{2}\cdot k/n = \frac{(n+1)k}{2}Rˉ=2n(n+1)??k/n=2(n+1)k?
  • 計算樣品秩和的離差平方和,并與總離差平方和進行比較,構造Kendall′sWKendall's \ WKendalls?W相關系數(shù):W=SSRSST=∑i=1n(Ri??Rˉ)2∑∑(Rij?Rˉˉ)2=12?SSRk2(n3?n)W = \frac{SSR}{SST} =\frac{\sum_{i=1}^n(R_{i\cdot}-\bar{R})^2}{\sum \sum (R_{ij} -\bar{\bar{R}})^2} =\frac{12\cdot SSR}{k^2(n^3-n)}W=SSTSSR?=(Rij??Rˉˉ)2i=1n?(Ri???Rˉ)2?=k2(n3?n)12?SSR?
  • 當樣本量較大時,根據大樣本性質,有k(n?1)W=12?SSRkn(n+1)→χ2(n?1)k(n-1)W = \frac{12\cdot SSR}{kn(n+1)} \to \chi^2(n-1)k(n?1)W=kn(n+1)12?SSR?χ2(n?1)
  • 根據給定的顯著性水平,可以對WWW相關系數(shù)進行檢驗。
  • 說明:

  • 該方法可以用于多個數(shù)值型變量間相關關系的度量。
  • 該方法可用于評價多個評估方案之間是否具有一致性。
  • 2.3 一致性的度量

    一致性的概念和相關性有所不同,一致性通常是指在兩種不同的評價標準下,指標變量的結果是否具有相似的水平或趨勢,相關性則一般指兩個指標之間的相關程度。

    2.3.1 兩個順序變量一致性度量:KappaKappaKappa一致性系數(shù)

    用兩種評估方案(A和B)對樣本的同一指標進行評價:

    評估方案A評估方案B
    樣本1aaaaaa
    樣本2bbbccc
    ?\cdots?

    將結果整理成列聯(lián)表形式:

    X1X_1X1?X2X_2X2??\cdots?XcX_cXc?
    X1X_1X1?n11n_{11}n11?n12n_{12}n12?n13n_{13}n13??\cdots?
    X2X_2X2?n21n_{21}n21?n22n_{22}n22?n23n_{23}n23??\cdots?
    ?\cdots?
    XcX_cXc?nc1n_{c1}nc1?nc2n_{c2}nc2?nc3n_{c3}nc3??\cdots?

    用對角線元素niin_{ii}nii?的相對頻數(shù)反映兩種方案間的一致性,得到KappaKappaKappa一致性系數(shù):K=P0?Pe1?PeK=\frac{P_0-P_e}{1-P_e}K=1?Pe?P0??Pe??其中P0=∑i=1rpiiP_0 = \sum_{i=1}^r p_{ii}P0?=i=1r?pii?表示列聯(lián)表的實際一致性比例,Pe=∑ipi?p?iP_e = \sum_{i} p_{i\cdot}p_{\cdot i}Pe?=i?pi??p?i?表示獨立性假定下的一致性。KKK的評價標準如下:
    此外還可以給出KKK漸近方差的表達式,在這里不給出。

    2.3.2 多個順序變量一致性度量:Kendall′sWKendall's \ WKendalls?W系數(shù)

    在2.2節(jié)中已經提到,Kendall′sWKendall's \ WKendalls?W系數(shù)也可以用于評價多個評估方案間的一致性,在這里不再重復敘述。

    三、數(shù)值型變量相關系數(shù)

    3.1 兩個數(shù)值型變量相關系數(shù)

    到這一節(jié)就是非常常見的三種相關系數(shù)度量方法了:

    • PearsonPearsonPearson相關系數(shù):ρ=∑(yi?yˉ)(xi?xˉ)∑(yi?yˉ)2∑(xi?xˉ)2\rho = \frac{\sum(y_i-\bar{y})(x_i-\bar{x})}{\sqrt{\sum(y_i-\bar{y})^2\sum{(x_i-\bar{x})^2}}}ρ=(yi??yˉ?)2(xi??xˉ)2?(yi??yˉ?)(xi??xˉ)?PearsonPearsonPearson相關系數(shù)是應用最為廣泛的度量方法,但注意它的使用需要滿足一定的條件:(1)兩變量X,YX,YX,Y滿足聯(lián)合正態(tài)分布;(2)兩變量之間是線性相關關系;(3)樣本中不存在異常值(否則會扭曲結果)。用一張圖就可以清楚說明不滿足這些假定時會產生什么樣的結果:
    • SpearmanSpearmanSpearman秩相關系數(shù):rs=∑(Ri?Rˉ)(Qi?Qˉ)∑(Ri?Rˉ)2∑(Qi?Qˉ)2=1?6∑di2n(n?1)(n+1)r_s = \frac{\sum(R_i - \bar{R})(Q_i-\bar{Q})}{\sqrt{\sum(R_i-\bar{R})^2\sum(Q_i-\bar{Q})^2}}=1-6\frac{\sum d_i^2}{n(n-1)(n+1)}rs?=(Ri??Rˉ)2(Qi??Qˉ?)2?(Ri??Rˉ)(Qi??Qˉ?)?=1?6n(n?1)(n+1)di2??主要反映秩之間的一致性,可以度量變量間的廣義上的相關性。
    • Kendall′sτKendall's \ \tauKendalls?τ相關系數(shù):從數(shù)據對變化協(xié)同的角度出發(fā)計算相關系數(shù)。

    3.2 多個數(shù)值型變量相關系數(shù)

    仍然可以使用Kendall′sWKendall's\ WKendalls?W系數(shù)進行描述。

    3.3 一個數(shù)值型變量與多個數(shù)值型變量間的相關系數(shù)

    實際上就是指復相關系數(shù),注意這里其實已經區(qū)分自變量和因變量的關系了,而之前的相關關系中變量都是平等的。
    變量YYYX=(X1,X2,?,Xp)′X=(X_1,X_2,\cdots,X_p)'X=(X1?,X2?,?,Xp?)復相關系數(shù)R=ΣyxΣXX?1ΣXyσyyR=\sqrt{\frac{\Sigma_{yx}\Sigma_{XX}^{-1}\Sigma_{Xy}}{\sigma_{yy}} }R=σyy?Σyx?ΣXX?1?ΣXy???
    然而注意這里的相關系數(shù)仍然是線性相關系數(shù)

    3.4 多個數(shù)值型變量與多個數(shù)值型變量間的相關系數(shù)

    此時一般需要用到典型相關分析的方法。
    典型相關分析是多元統(tǒng)計中的一種降維方法,它利用主成分分析的思想,分別提取X=(X1,X2,?,Xm)′X=(X_1,X_2,\cdots,X_m)'X=(X1?,X2?,?,Xm?)Y=(Y1,Y2,?,Yn)′Y=(Y_1,Y_2,\cdots,Y_n)'Y=(Y1?,Y2?,?,Yn?)之間的主成分,使得不同組主成分之間的相關性達到最大,而相同組的主成分之間互不相關,即包含的信息不重疊。

    典型相關分析的主要步驟如下:

  • 根據所要研究的問題選擇兩組指標:X=(X1,X2,?,Xm)′X=(X_1,X_2,\cdots,X_m)'X=(X1?,X2?,?,Xm?)Y=(Y1,Y2,?,Yn)′Y=(Y_1,Y_2,\cdots,Y_n)'Y=(Y1?,Y2?,?,Yn?)
  • 設計典型相關分析:收集得到足夠多的樣本數(shù)據,并對變量進行標準化處理
  • 檢驗關于典型相關分析的基本假定:即變量之間滿足線性性、正態(tài)性以及不存在多重共線性
  • 推導典型函數(shù),評價擬合情況:根據主成分分析的思想提取兩組變量的典型變量,并計算典型相關系數(shù)。然后對典型相關系數(shù)進行顯著性檢驗,并進行冗余分析。
  • 解釋典型變量:(1)利用典型權重解釋:典型權重即典型變量的系數(shù),較大的典型權重表明原始變量對該典型變量的貢獻較大;(2)利用典型載荷解釋:典型載荷即為原始變量與典型變量間協(xié)方差矩陣上的元素,可以反映原始變量與典型變量之間的相關性。

  • 以上便是個人總結的變量間相關關系的度量方法,由于能力有限,可能有所遺漏或存在錯誤,歡迎批評和指正。

    總結

    以上是生活随笔為你收集整理的变量关系的描述方法的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。