日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

贝叶斯多元Logistics回归理论基础

發布時間:2025/4/14 编程问答 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 贝叶斯多元Logistics回归理论基础 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

貝葉斯多元Logistic回歸理論基礎

  • 多元Logistic分布
    • 一元Logit模型
    • 多元Logistic分布
      • t分布近似
      • 多元分類數據的似然函數(t-近似)
  • 后驗計算
    • 第一步:用t分布近似的MCMC算法
    • 第二步:重要性調整

原文:Bayesian Multivariate Logistic Regression by O’Brien and Dunson (2004)

多元Logistic分布

一元Logit模型

假設Yi∈{0,1}Y_i \in \{0,1\}Yi?{0,1}表示樣本i=1,?,ni = 1,\cdots,ni=1,?,n的類別,并且P(Yi=1)=piP(Y_i=1)=p_iP(Yi?=1)=pi?,則一元Logit模型的形式為
log?pi1?pi=xi′β,β∈Rq×1\log \frac{p_i}{1-p_i}=x_i'\beta,\beta \in \mathbb R^{q \times 1}log1?pi?pi??=xi?β,βRq×1

可以用輔助變量ZiZ_iZi?改寫這個模型。令Yi=1{Zi>0}Y_i=1\{Z_i>0\}Yi?=1{Zi?>0},并且Zi~L(xi′β,1)Z_i \sim L(x_i'\beta,1)Zi?L(xi?β,1)(一元Logistisc分布),即
f(zi)=exp?(?(zi?xi′β))[1+exp?(?(zi?xi′β))]2F(zi)=11+exp?(?(zi?xi′β))f(z_i)=\frac{\exp(-(z_i-x_i'\beta))}{[1+\exp(-(z_i-x_i'\beta))]^2} \\ F(z_i)=\frac{1}{1+\exp(-(z_i-x_i'\beta))}f(zi?)=[1+exp(?(zi??xi?β))]2exp(?(zi??xi?β))?F(zi?)=1+exp(?(zi??xi?β))1?

可以驗證
log?pi1?pi=log?1?F(0)F(0)=log?1?11+exp?(xi′β)11+exp?(xi′β)=xi′β\log \frac{p_i}{1-p_i}=\log \frac{1-F(0)}{F(0)}=\log \frac{1-\frac{1}{1+\exp(x_i'\beta)}}{\frac{1}{1+\exp(x_i'\beta)}}=x_i'\betalog1?pi?pi??=logF(0)1?F(0)?=log1+exp(xi?β)1?1?1+exp(xi?β)1??=xi?β

即用輔助變量改寫后的模型與原模型一致。

如果要把這個模型推廣到多元,比如ppp個類別的情況,仿照一元Logit模型,我們需要引入0-1向量Yi=(Yi1,?,Yip)∈RpY_{i}=(Y_{i1},\cdots,Y_{ip}) \in \mathbb R^pYi?=(Yi1?,?,Yip?)Rp,其中Yip=1Y_{ip}=1Yip?=1代表樣本iii屬于第ppp個類別。類似地,我們可以引入輔助變量Zij,j=1,?,pZ_{ij},j=1,\cdots,pZij?,j=1,?,p表示多元Logit模型:
Yij=1{Zij>0}Y_{ij}=1\{Z_{ij}>0\} \\ Yij?=1{Zij?>0}

其中Zij~L(xij′β,1)Z_{ij} \sim L(x_{ij}'\beta,1)Zij?L(xij?β,1)(邊緣分布), Xi′=(xi1′,?,xip′)∈Rp×qX_i'=(x_{i1}',\cdots,x_{ip}') \in \mathbb R^{p \times q}Xi?=(xi1?,?,xip?)Rp×q。直接使用這個模型隱含的假設是Zi1,?,ZipZ_{i1},\cdots,Z_{ip}Zi1?,?,Zip?互相獨立,而想要在模型中引入不同類別之間的相關性,則需要建立起定義多元Logistic分布的一般方法。

多元Logistic分布

引理1:假設XXX服從一個連續分布,它的CDF為FFF,則F(X)~Unif(0,1)F(X) \sim Unif(0,1)F(X)Unif(0,1)

引理2:假設Y~Unif(0,1)Y \sim Unif(0,1)YUnif(0,1),則μ+log?Y1?Y~L(μ,1)\mu+\log \frac{Y}{1-Y} \sim L(\mu,1)μ+log1?YY?L(μ,1)

根據引理1與引理2,我們可以獲得定義多元Logistic分布的一般方法:

  • 選擇一個多元連續分布X?=(X1,?,XN)\vec X=(X_1,\cdots,X_N)X=(X1?,?,XN?),其中X1,?,XNX_1,\cdots,X_NX1?,?,XN?的邊緣分布相同,且CDF均為FFF
  • 定義Z?=(Z1,?,ZN)\vec Z=(Z_1,\cdots,Z_N)Z=(Z1?,?,ZN?),其中Zi=μi+σilog?F(Xi)1?F(Xi)Z_i=\mu_i+\sigma_i \log \frac{F(X_i)}{1-F(X_i)}Zi?=μi?+σi?log1?F(Xi?)F(Xi?)?,從而Zi~L(μi,σi)Z_i \sim L(\mu_i,\sigma_i)Zi?L(μi?,σi?)
  • 用這個方法定義的多元Logistic分布,不同類別之間的相關性由X?\vec XX的相關性決定。

    t分布近似

    一種可行的方案是假設X?=(X1,?,Xp)\vec X=(X_1,\cdots,X_p)X=(X1?,?,Xp?)服從ppp元自由度為ν\nuν,均值為000,scale matrix為RRR的多元t分布,記為X?~Tp,v(0,R)\vec X \sim T_{p,v}(0,R)XTp,v?(0,R),它的密度函數為
    f(x?∣0,R)=Γ(ν+p2)Γ(ν2)(νπ)p2∣R∣12(1+1νx?′R?1x?)?ν+p2f(\vec x|0,R)= \frac{\Gamma(\frac{\nu+p}{2})}{\Gamma(\frac{\nu}{2})(\nu \pi)^{\frac{p}{2}}|R|^{\frac{1}{2}}} \left( 1+ \frac{1}{\nu}\vec x'R^{-1}\vec x \right)^{-\frac{\nu+p}{2}}f(x0,R)=Γ(2ν?)(νπ)2p?R21?Γ(2ν+p?)?(1+ν1?xR?1x)?2ν+p?

    它的任意分量XiX_iXi?服從自由度為ν\nuν的一元t分布,記CDF為TνT_{\nu}Tν?。定義Z?=(Z1,?,Zp)\vec Z=(Z_1,\cdots,Z_p)Z=(Z1?,?,Zp?),其中Zi=μi+log?Tν(Xi)1?Tν(Xi)Z_i=\mu_i+\log \frac{T_{\nu}(X_i)}{1-T_{\nu}(X_i)}Zi?=μi?+log1?Tν?(Xi?)Tν?(Xi?)?,則Z?~Lp,ν(μ?,R)\vec Z \sim L_{p,\nu}(\vec{\mu},R)ZLp,ν?(μ?,R)。這個方案的優勢在于1993年,Albert and Chib發現L1,ν(μ,R)L_{1,\nu}(\mu,R)L1,ν?(μ,R)T1,ν(μ,σ2R)T_{1,\nu}(\mu,\sigma^2R)T1,ν?(μ,σ2R)非常接近,以兩個密度函數的L2 distance最小作為標準的話,可以取ν=7.3\nu=7.3ν=7.3σ2=π2ν?23ν\sigma^2=\pi^2\frac{\nu-2}{3\nu}σ2=π23νν?2?(下文后驗相關計算均用這兩個取值)。因此,用這個方案建模時的計算思路為,根據t分布作為總體分布,用Gibbs采樣得到后驗樣本,在用后驗樣本進行推斷時,用重要性權重對樣本進行調整。

    多元分類數據的似然函數(t-近似)

    假設一組分類數據為{(Xi,yi)}\{(X_i,y_i)\}{(Xi?,yi?)},其中yiy_iyi?是p維的0-1向量,代表類別信息,XiX_iXi?p×qp \times qp×q維的矩陣,代表解釋變量,根據上述推導,樣本的似然函數為
    L(β,R)=∏i=1nP(Yi=yi)=∏i=1n∫[∏j=1p1{zij>0}yij{zij<0}1?yij]Lp,v(zi∣Xiβ,R)dzi≈∏i=1n∫[∏j=1p1{zij>0}yij{zij<0}1?yij]Tp,v(zi∣Xiβ,σ2R)dziL(\beta,R)=\prod_{i=1}^n P(Y_i=y_i) \\ = \prod_{i=1}^n \int \left[ \prod_{j=1}^p 1\{z_{ij}>0\}^{y_{ij}}\{z_{ij}<0\}^{1-y_{ij}} \right]L_{p,v}(z_i|X_i\beta,R)dz_i \\ \approx \prod_{i=1}^n \int \left[ \prod_{j=1}^p 1\{z_{ij}>0\}^{y_{ij}}\{z_{ij}<0\}^{1-y_{ij}} \right]T_{p,v}(z_i|X_i\beta,\sigma^2R)dz_iL(β,R)=i=1n?P(Yi?=yi?)=i=1n?[j=1p?1{zij?>0}yij?{zij?<0}1?yij?]Lp,v?(zi?Xi?β,R)dzi?i=1n?[j=1p?1{zij?>0}yij?{zij?<0}1?yij?]Tp,v?(zi?Xi?β,σ2R)dzi?

    后驗計算

    用Normal-Inverse Gamma Mixture代替似然中的t分布,得到的模型如下:
    yij=1{zij>0}zi∣β,R,?i~Np(Xiβ,σ2?i?1R)?i∣β,R~Gamma(0.5ν,0.5ν)y_{ij}=1\{z_{ij}>0\} \\ z_i|\beta,R ,\phi_i \sim N_p(X_i\beta,\sigma^2\phi^{-1}_iR) \\ \phi_i|\beta, R \sim Gamma(0.5\nu,0.5\nu)yij?=1{zij?>0}zi?β,R,?i?Np?(Xi?β,σ2?i?1?R)?i?β,RGamma(0.5ν,0.5ν)

    引入β\betaβRRR的先驗:β~Nq(β0,Σβ)\beta \sim N_q(\beta_0,\Sigma_{\beta})βNq?(β0?,Σβ?)RRR的先驗可以是支撐集為所有相關性系數矩陣上的任意分布。

    第一步:用t分布近似的MCMC算法

    第二步:重要性調整

    {(β(t),R(t))}t=1T\{(\beta^{(t)},R^{(t)})\}_{t=1}^T{(β(t),R(t))}t=1T?表示一組后驗樣本,則估計后驗均值Eh(β,R)Eh(\beta,R)Eh(β,R)的公式為
    ∑t=1Th(β(t),R(t))T\sum_{t=1}^T \frac{h(\beta^{(t)},R^{(t)})}{T}t=1T?Th(β(t),R(t))?

    但是因為這組后驗樣本是根據近似的總體分布導出的后驗分布中采樣得到的,所以我們還需要根據重要性權重對樣本進行調整,用w(t)w^{(t)}w(t)表示第ttt個后驗樣本的權重,π(β,R,z∣y)\pi(\beta,R,z|y)π(β,R,zy)代表近似的似然導出的后驗,π(β,R,z∣y)\pi(\beta,R,z|y)π(β,R,zy)代表用真實的似然導出的后驗,則
    其中
    eij=Tν?1(ezij?xij′β(t)1+ezij?xij′β(t))e_{ij}=T_{\nu}^{-1}(\frac{e^{z_{ij}-x_{ij}'\beta^{(t)}}}{1+e^{z_{ij}-x_{ij}'\beta^{(t)}}})eij?=Tν?1?(1+ezij??xij?β(t)ezij??xij?β(t)?)

    總結

    以上是生活随笔為你收集整理的贝叶斯多元Logistics回归理论基础的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。