當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Logistics Regression公式推导

發(fā)布時(shí)間：2025/3/21 编程问答 65 豆豆

生活随笔收集整理的這篇文章主要介紹了 Logistics Regression公式推导小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

以前一直以為邏輯回歸的公式(sigmoid函數(shù))是人為臆造的，學(xué)了機(jī)器學(xué)習(xí)課程才知道，它的背后是有貝葉斯定理這樣的數(shù)學(xué)理論支撐的。

為什么是Sigmoid函數(shù)？

回顧貝葉斯分類器，貝葉斯分類器是一種生成式學(xué)習(xí)方。為了獲取 $P (Y ∣ X)$ ，我們將它轉(zhuǎn)化為 $P (Y)$ 和P(X|Y)，然后從數(shù)據(jù)集中估計(jì)這兩個(gè)參數(shù)。那么問(wèn)題來(lái)了，我們是否可以直接估計(jì) $P (Y ∣ X)$ 呢？

在邏輯回歸模型中，我們做如下假設(shè)：

設(shè) $X$ 是一個(gè)實(shí)數(shù)值矩陣，表示 $n$ 個(gè)特征， $<X1,X2,…,Xn><X_1,X_2, \dots, X_n>$
設(shè) $Y$ 是一個(gè)布爾值矩陣
假設(shè)在給定 $Y$ 后所有的 $X_i$ 之間都是條件獨(dú)立的，即
$P(X∣Y)=P(X1,X2,…,Xn∣Y)=P(X1∣Y)P(X2∣Y)…P(Xn∣Y)P(X|Y)\\ =P(X_1,X_2, \dots ,X_n|Y)\\ =P(X_1|Y)P(X_2|Y) \dots P(X_n|Y)$
假設(shè)在給定 $Y=y_k$ 后，每一個(gè) $X_i$ 都服從高斯分布 $N(μik,σi)N(\mu_{ik}, \sigma_i)$ ，即
$(Xi∣Y=yk)～N(μik,σi)(X_i|Y=y_k) \sim N(\mu_{ik},\sigma_i)$
$\left( X_i|Y=0 \right) =\frac{1}{\sqrt{2\pi}\sigma _i}\exp \left\{ -\frac{\left( X_i-\mu _{i0} \right) ^2}{2\sigma _{i}^{2}} \right\}$
假設(shè)類別 $Y$ 的先驗(yàn)服從伯努利分布，即
$P(Y=1)=π,P(Y=0)=1?πP(Y=1)=\pi,P(Y=0)=1-\pi$

然后我們就可以開(kāi)始推公式了。

$P(Y=1∣X)=P(X∣Y=1)P(Y=1)P(X)=P(X∣Y=1)P(Y=1)P(X∣Y=1)P(Y=1)+P(X∣Y=0)P(Y=0)=11+P(X∣Y=0)P(Y=0)P(X∣Y=1)P(Y=1)=11+1?ππ?P(X∣Y=0)P(X∣Y=1)=11+1?ππ?∏iP(Xi∣Y=0)∏iP(Xi∣Y=1)=11+exp?{ln?(1?ππ?∏iP(Xi∣Y=0)∏iP(Xi∣Y=1))}=11+exp?{ln?(1?ππ)+ln?(∏iP(Xi∣Y=0)∏iP(Xi∣Y=1))}=11+exp?{ln?(1?ππ)+∑i(ln?(P(Xi∣Y=0))?ln?(P(Xi∣Y=1)))}P\left( Y=1|X \right) \\ =\frac{P\left( X|Y=1 \right) P\left( Y=1 \right)}{P\left( X \right)} \\ =\frac{P\left( X|Y=1 \right) P\left( Y=1 \right)}{P\left( X|Y=1 \right) P\left( Y=1 \right) +P\left( X|Y=0 \right) P\left( Y=0 \right)} \\ =\frac{1}{1+\frac{P\left( X|Y=0 \right) P\left( Y=0 \right)}{P\left( X|Y=1 \right) P\left( Y=1 \right)}} \\ =\frac{1}{1+\frac{1-\pi}{\pi}\cdot \frac{P\left( X|Y=0 \right)}{P\left( X|Y=1 \right)}} \\ =\frac{1}{1+\frac{1-\pi}{\pi}\cdot \frac{\prod_i{P\left( X_i|Y=0 \right)}}{\prod_i{P\left( X_i|Y=1 \right)}}} \\ =\frac{1}{1+\exp \left\{ \ln \left( \frac{1-\pi}{\pi}\cdot \frac{\prod_i{P\left( X_i|Y=0 \right)}}{\prod_i{P\left( X_i|Y=1 \right)}} \right) \right\}} \\ =\frac{1}{1+\exp \left\{ \ln \left( \frac{1-\pi}{\pi} \right) +\ln \left( \frac{\prod_i{P\left( X_i|Y=0 \right)}}{\prod_i{P\left( X_i|Y=1 \right)}} \right) \right\}} \\ =\frac{1}{1+\exp \left\{ \ln \left( \frac{1-\pi}{\pi} \right) +\sum_i{\left( \ln \left( P\left( X_i|Y=0 \right) \right) -\ln \left( P\left( X_i|Y=1 \right) \right) \right)} \right\}}$

我們觀察分母的最后一項(xiàng)中的
$ln?(P(Xi∣Y=0))?ln?(P(Xi∣Y=1))\ln \left( P\left( X_i|Y=0 \right) \right) -\ln \left( P\left( X_i|Y=1 \right) \right)$

可以發(fā)現(xiàn)由于我們有概率密度函數(shù)
$P(Xi∣Y=0)=12πσiexp?{?(Xi?μi0)22σi2}P(Xi∣Y=1)=12πσiexp?{?(Xi?μi1)22σi2}P\left( X_i|Y=0 \right) =\frac{1}{\sqrt{2\pi}\sigma _i}\exp \left\{ -\frac{\left( X_i-\mu _{i0} \right) ^2}{2\sigma _{i}^{2}} \right\} \\ P\left( X_i|Y=1 \right) =\frac{1}{\sqrt{2\pi}\sigma _i}\exp \left\{ -\frac{\left( X_i-\mu _{i1} \right) ^2}{2\sigma _{i}^{2}} \right\}$

所以有
$ln?(P(Xi∣Y=0))?ln?(P(Xi∣Y=1))=?(Xi?μi0)22σi2+(Xi?μi1)22σi2=?(Xi?μi0)2+(Xi?μi1)22σi2=?Xi2+2Xiμi0?μi02+Xi2?2Xiμi1+μi122σi2=2(μi0?μi1)Xi?μi02+μi122σi2=μi0?μi1σi2Xi+?μi02+μi122σi2\ln \left( P\left( X_i|Y=0 \right) \right) -\ln \left( P\left( X_i|Y=1 \right) \right) \\ =-\frac{\left( X_i-\mu _{i0} \right) ^2}{2\sigma _{i}^{2}}+\frac{\left( X_i-\mu _{i1} \right) ^2}{2\sigma _{i}^{2}} \\ =\frac{-\left( X_i-\mu _{i0} \right) ^2+\left( X_i-\mu _{i1} \right) ^2}{2\sigma _{i}^{2}} \\ =\frac{-X_{\begin{array}{c} i\\ \end{array}}^{2}+2X_i\mu _{i0}-\mu _{i0}^{2}+X_{\begin{array}{c} i\\ \end{array}}^{2}-2X_i\mu _{i1}+\mu _{i1}^{2}}{2\sigma _{i}^{2}} \\ =\frac{2\left( \mu _{i0}-\mu _{i1} \right) X_i-\mu _{i0}^{2}+\mu _{i1}^{2}}{2\sigma _{i}^{2}} \\ =\frac{\mu _{i0}-\mu _{i1}}{\sigma _{i}^{2}}X_i+\frac{-\mu _{i0}^{2}+\mu _{i1}^{2}}{2\sigma _{i}^{2}}$

因此，

$P(Y=1∣X)=11+exp?{ln?(1?ππ)+∑i(ln?(P(Xi∣Y=0))?ln?(P(Xi∣Y=1)))}=11+exp?{ln?(1?ππ)+∑i(μi0?μi1σi2Xi+?μi02+μi122σi2)}=11+exp?{ln?(1?ππ)+∑i(?μi02+μi122σi2)+∑i(μi0?μi1σi2Xi)}P\left( Y=1|X \right) \\ =\frac{1}{1+\exp \left\{ \ln \left( \frac{1-\pi}{\pi} \right) +\sum_i{\left( \ln \left( P\left( X_i|Y=0 \right) \right) -\ln \left( P\left( X_i|Y=1 \right) \right) \right)} \right\}} \\ =\frac{1}{1+\exp \left\{ \ln \left( \frac{1-\pi}{\pi} \right) +\sum_i{\left( \frac{\mu _{i0}-\mu _{i1}}{\sigma _{i}^{2}}X_i+\frac{-\mu _{i0}^{2}+\mu _{i1}^{2}}{2\sigma _{i}^{2}} \right)} \right\}} \\ =\frac{1}{1+\exp \left\{ \ln \left( \frac{1-\pi}{\pi} \right) +\sum_i{\left( \frac{-\mu _{i0}^{2}+\mu _{i1}^{2}}{2\sigma _{i}^{2}} \right)}+\sum_i{\left( \frac{\mu _{i0}-\mu _{i1}}{\sigma _{i}^{2}}X_i \right)} \right\}}$

即
$P(Y=1∣X)=11+exp?{ln?(1?ππ)+∑i(?μi02+μi122σi2)+∑i(μi0?μi1σi2Xi)}P\left( Y=1|X \right)=\frac{1}{1+\exp \left\{ \ln \left( \frac{1-\pi}{\pi} \right) +\sum_i{\left( \frac{-\mu _{i0}^{2}+\mu _{i1}^{2}}{2\sigma _{i}^{2}} \right)}+\sum_i{\left( \frac{\mu _{i0}-\mu _{i1}}{\sigma _{i}^{2}}X_i \right)} \right\}}$

令
$w0=ln?(1?ππ)+∑i(?μi02+μi122σi2)w_0=\ln \left( \frac{1-\pi}{\pi} \right)+\sum_i{\left( \frac{-\mu _{i0}^{2}+\mu _{i1}^{2}}{2\sigma _{i}^{2}} \right)}$
$wi=μi0?μi1σi2w_i=\frac{\mu _{i0}-\mu _{i1}}{\sigma _{i}^{2}}$
則
$P(Y=1∣X)=11+exp?{w0+∑i(wiXi)}P\left( Y=1|X \right)=\frac{1}{1+\exp \left\{ w_0+\sum_i{\left( w_iX_i \right)} \right\}}$
即
$P(Y=1∣X)=11+ewX+bP\left( Y=1|X \right)=\frac{1}{1+e^{wX+b}}$
也就是我們常說(shuō)的sigmoid函數(shù)。

損失函數(shù)推導(dǎo)

我們采用極大似然估計(jì)(MLE)，但是 $P(<X_i,y_i>|w)$ 很難求，數(shù)據(jù)集中很難找到這樣的數(shù)據(jù)，因此我們采用更弱一些的條件極大似然(MCLE)，求 $P(Y=y_i|X_i,w)$ 。
在這里我們需要一個(gè)真實(shí)的場(chǎng)景。

《新程序員》：云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作，文字、視頻、音頻交互閱讀

總結(jié)

以上是生活随笔為你收集整理的Logistics Regression公式推导的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Sentinel圣天诺加密狗简单使用教程
下一篇：密码学相关知识点