當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

贝叶斯多元Logistics回归理论基础

發(fā)布時間：2025/4/14 编程问答 71 豆豆

生活随笔收集整理的這篇文章主要介紹了贝叶斯多元Logistics回归理论基础小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

貝葉斯多元Logistic回歸理論基礎(chǔ)

多元Logistic分布
- 一元Logit模型
- 多元Logistic分布
- - t分布近似
  - 多元分類數(shù)據(jù)的似然函數(shù)(t-近似)
后驗計算
- 第一步：用t分布近似的MCMC算法
- 第二步：重要性調(diào)整

原文：Bayesian Multivariate Logistic Regression by O’Brien and Dunson (2004)

多元Logistic分布

一元Logit模型

假設(shè) $Yi∈{0,1}Y_i \in \{0,1\}$ 表示樣本 $1,\cdots,n$ 的類別，并且 $P(Y_i=1)=p_i$ ，則一元Logit模型的形式為
$log?pi1?pi=xi′β,β∈Rq×1\log \frac{p_i}{1-p_i}=x_i'\beta,\beta \in \mathbb R^{q \times 1}$

可以用輔助變量 $Z_i$ 改寫這個模型。令 $Y_i=1\{Z_i>0\}$ ，并且 $Zi～L(xi′β,1)Z_i \sim L(x_i'\beta,1)$ （一元Logistisc分布），即
$f(zi)=exp?(?(zi?xi′β))[1+exp?(?(zi?xi′β))]2F(zi)=11+exp?(?(zi?xi′β))f(z_i)=\frac{\exp(-(z_i-x_i'\beta))}{[1+\exp(-(z_i-x_i'\beta))]^2} \\ F(z_i)=\frac{1}{1+\exp(-(z_i-x_i'\beta))}$

可以驗證
$log?pi1?pi=log?1?F(0)F(0)=log?1?11+exp?(xi′β)11+exp?(xi′β)=xi′β\log \frac{p_i}{1-p_i}=\log \frac{1-F(0)}{F(0)}=\log \frac{1-\frac{1}{1+\exp(x_i'\beta)}}{\frac{1}{1+\exp(x_i'\beta)}}=x_i'\beta$

即用輔助變量改寫后的模型與原模型一致。

如果要把這個模型推廣到多元，比如 $p$ 個類別的情況，仿照一元Logit模型，我們需要引入0-1向量 $Yi=(Yi1,?,Yip)∈RpY_{i}=(Y_{i1},\cdots,Y_{ip}) \in \mathbb R^p$ ，其中 $Y_{ip}=1$ 代表樣本 $i$ 屬于第 $p$ 個類別。類似地，我們可以引入輔助變量 $Zij,j=1,?,pZ_{ij},j=1,\cdots,p$ 表示多元Logit模型：
$Y_{ij}=1\{Z_{ij}>0\} \\$

其中 $Zij～L(xij′β,1)Z_{ij} \sim L(x_{ij}'\beta,1)$ （邊緣分布）, $Xi′=(xi1′,?,xip′)∈Rp×qX_i'=(x_{i1}',\cdots,x_{ip}') \in \mathbb R^{p \times q}$ 。直接使用這個模型隱含的假設(shè)是 $Zi1,?,ZipZ_{i1},\cdots,Z_{ip}$ 互相獨立，而想要在模型中引入不同類別之間的相關(guān)性，則需要建立起定義多元Logistic分布的一般方法。

多元Logistic分布

引理1：假設(shè) $X$ 服從一個連續(xù)分布，它的CDF為 $F$ ，則 $\sim Unif(0,1)$

引理2：假設(shè) $\sim Unif(0,1)$ ，則 $μ+log?Y1?Y～L(μ,1)\mu+\log \frac{Y}{1-Y} \sim L(\mu,1)$

根據(jù)引理1與引理2，我們可以獲得定義多元Logistic分布的一般方法：

選擇一個多元連續(xù)分布

X?=(X1,?,XN)\vec X=(X_1,\cdots,X_N)

，其中

X1,?,XNX_1,\cdots,X_N

的邊緣分布相同，且CDF均為

F

定義

Z?=(Z1,?,ZN)\vec Z=(Z_1,\cdots,Z_N)

，其中

Zi=μi+σilog?F(Xi)1?F(Xi)Z_i=\mu_i+\sigma_i \log \frac{F(X_i)}{1-F(X_i)}

，從而

Zi～L(μi,σi)Z_i \sim L(\mu_i,\sigma_i)

用這個方法定義的多元Logistic分布，不同類別之間的相關(guān)性由 $X?\vec X$ 的相關(guān)性決定。

t分布近似

一種可行的方案是假設(shè) $X?=(X1,?,Xp)\vec X=(X_1,\cdots,X_p)$ 服從 $p$ 元自由度為 $ν\nu$ ，均值為 $0$ ，scale matrix為 $R$ 的多元t分布，記為 $X?～Tp,v(0,R)\vec X \sim T_{p,v}(0,R)$ ，它的密度函數(shù)為
$f(x?∣0,R)=Γ(ν+p2)Γ(ν2)(νπ)p2∣R∣12(1+1νx?′R?1x?)?ν+p2f(\vec x|0,R)= \frac{\Gamma(\frac{\nu+p}{2})}{\Gamma(\frac{\nu}{2})(\nu \pi)^{\frac{p}{2}}|R|^{\frac{1}{2}}} \left( 1+ \frac{1}{\nu}\vec x'R^{-1}\vec x \right)^{-\frac{\nu+p}{2}}$

它的任意分量 $X_i$ 服從自由度為 $ν\nu$ 的一元t分布，記CDF為 $TνT_{\nu}$ 。定義 $Z?=(Z1,?,Zp)\vec Z=(Z_1,\cdots,Z_p)$ ，其中 $Zi=μi+log?Tν(Xi)1?Tν(Xi)Z_i=\mu_i+\log \frac{T_{\nu}(X_i)}{1-T_{\nu}(X_i)}$ ，則 $Z?～Lp,ν(μ?,R)\vec Z \sim L_{p,\nu}(\vec{\mu},R)$ 。這個方案的優(yōu)勢在于1993年，Albert and Chib發(fā)現(xiàn) $L1,ν(μ,R)L_{1,\nu}(\mu,R)$ 與 $T1,ν(μ,σ2R)T_{1,\nu}(\mu,\sigma^2R)$ 非常接近，以兩個密度函數(shù)的L2 distance最小作為標準的話，可以取 $ν=7.3\nu=7.3$ ， $σ2=π2ν?23ν\sigma^2=\pi^2\frac{\nu-2}{3\nu}$ （下文后驗相關(guān)計算均用這兩個取值）。因此，用這個方案建模時的計算思路為，根據(jù)t分布作為總體分布，用Gibbs采樣得到后驗樣本，在用后驗樣本進行推斷時，用重要性權(quán)重對樣本進行調(diào)整。

多元分類數(shù)據(jù)的似然函數(shù)(t-近似)

假設(shè)一組分類數(shù)據(jù)為 ${(X_i,y_i)\}$ ，其中 $y_i$ 是p維的0-1向量，代表類別信息， $X_i$ 是 $\times q$ 維的矩陣，代表解釋變量，根據(jù)上述推導(dǎo)，樣本的似然函數(shù)為
$L(β,R)=∏i=1nP(Yi=yi)=∏i=1n∫[∏j=1p1{zij>0}yij{zij<0}1?yij]Lp,v(zi∣Xiβ,R)dzi≈∏i=1n∫[∏j=1p1{zij>0}yij{zij<0}1?yij]Tp,v(zi∣Xiβ,σ2R)dziL(\beta,R)=\prod_{i=1}^n P(Y_i=y_i) \\ = \prod_{i=1}^n \int \left[ \prod_{j=1}^p 1\{z_{ij}>0\}^{y_{ij}}\{z_{ij}<0\}^{1-y_{ij}} \right]L_{p,v}(z_i|X_i\beta,R)dz_i \\ \approx \prod_{i=1}^n \int \left[ \prod_{j=1}^p 1\{z_{ij}>0\}^{y_{ij}}\{z_{ij}<0\}^{1-y_{ij}} \right]T_{p,v}(z_i|X_i\beta,\sigma^2R)dz_i$

后驗計算

用Normal-Inverse Gamma Mixture代替似然中的t分布，得到的模型如下：
$yij=1{zij>0}zi∣β,R,?i～Np(Xiβ,σ2?i?1R)?i∣β,R～Gamma(0.5ν,0.5ν)y_{ij}=1\{z_{ij}>0\} \\ z_i|\beta,R ,\phi_i \sim N_p(X_i\beta,\sigma^2\phi^{-1}_iR) \\ \phi_i|\beta, R \sim Gamma(0.5\nu,0.5\nu)$

引入 $β\beta$ 與 $R$ 的先驗： $β～Nq(β0,Σβ)\beta \sim N_q(\beta_0,\Sigma_{\beta})$ ， $R$ 的先驗可以是支撐集為所有相關(guān)性系數(shù)矩陣上的任意分布。

第一步：用t分布近似的MCMC算法

第二步：重要性調(diào)整

用 ${(β(t),R(t))}t=1T\{(\beta^{(t)},R^{(t)})\}_{t=1}^T$ 表示一組后驗樣本，則估計后驗均值 $Eh(β,R)Eh(\beta,R)$ 的公式為
$∑t=1Th(β(t),R(t))T\sum_{t=1}^T \frac{h(\beta^{(t)},R^{(t)})}{T}$

但是因為這組后驗樣本是根據(jù)近似的總體分布導(dǎo)出的后驗分布中采樣得到的，所以我們還需要根據(jù)重要性權(quán)重對樣本進行調(diào)整，用 $w^{(t)}$ 表示第 $t$ 個后驗樣本的權(quán)重， $π(β,R,z∣y)\pi(\beta,R,z|y)$ 代表近似的似然導(dǎo)出的后驗， $π(β,R,z∣y)\pi(\beta,R,z|y)$ 代表用真實的似然導(dǎo)出的后驗，則
其中
$eij=Tν?1(ezij?xij′β(t)1+ezij?xij′β(t))e_{ij}=T_{\nu}^{-1}(\frac{e^{z_{ij}-x_{ij}'\beta^{(t)}}}{1+e^{z_{ij}-x_{ij}'\beta^{(t)}}})$

總結(jié)

以上是生活随笔為你收集整理的贝叶斯多元Logistics回归理论基础的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： UA MATH524 复变函数13 补充
下一篇： UA OPTI544 量子光学14 量子

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

贝叶斯多元Logistics回归理论基础

貝葉斯多元Logistic回歸理論基礎(chǔ)

多元Logistic分布

一元Logit模型

多元Logistic分布

t分布近似

多元分類數(shù)據(jù)的似然函數(shù)(t-近似)

后驗計算

第一步：用t分布近似的MCMC算法

第二步：重要性調(diào)整

總結(jié)