Jensen不等式初步理解及证明
Jensen不等式(Jensen’s inequality)是以丹麥數(shù)學(xué)家Johan Jensen命名的,它在概率論、機(jī)器學(xué)習(xí)、測度論、統(tǒng)計(jì)物理等領(lǐng)域都有相關(guān)應(yīng)用。
在機(jī)器學(xué)習(xí)領(lǐng)域,我目前接觸到的是用Jensen不等式用來證明KL散度大于等于0(以后寫一篇文章總結(jié)一下)。
Jensen不等式是和凸函數(shù)的定義是息息相關(guān)的。
首先介紹什么是凸函數(shù)(convec function)。
凸函數(shù)
凸函數(shù)是一個定義在某個向量空間的凸子集 C(區(qū)間)上的實(shí)值函數(shù) f,如果在其定義域 C 上的任意兩點(diǎn) x1,x2x_1,x_2x1?,x2? , 0≤t≤10 \le t \le 10≤t≤1 ,有
tf(x1)+(1?t)f(x2)≥f(tx1+(1?t)x2)(1)tf(x_1)+(1-t)f(x_2) \geq f(tx_1+(1-t)x_2) \tag{1} tf(x1?)+(1?t)f(x2?)≥f(tx1?+(1?t)x2?)(1)
也就是說凸函數(shù)任意兩點(diǎn)的割線位于函數(shù)圖形上方, 這也是Jensen不等式的兩點(diǎn)形式。
Jensen不等式
若對于任意點(diǎn)集{xi}\{x_i\}{xi?},若 λi≥0\lambda_i \geq 0λi?≥0且 ∑iλi=1\sum_i \lambda_i = 1∑i?λi?=1 ,使用數(shù)學(xué)歸納法,可以證明凸函數(shù) f(x)f (x)f(x)滿足:
f(∑i=1Mλixi)≤∑i=1Mλif(xi)(2)f(\sum_{i=1}^{M}\lambda_{i}x_{i})\leq\sum_{i=1}^{M}\lambda_{i}f(x_{i}) \tag{2} f(i=1∑M?λi?xi?)≤i=1∑M?λi?f(xi?)(2)
公式(2)被稱為 Jensen 不等式,它是式(1)的泛化形式。
證明如下:
(1) 當(dāng)i=1,2i=1,2i=1,2時,由凸函數(shù)的定義成立
(2) 假設(shè)當(dāng)i=Mi=Mi=M時,公式(2)成立
(3) 現(xiàn)在證明則i=M+1i=M+1i=M+1時,Jensen不等式也成立:
f(∑i=1M+1λixi)=f(λM+1xM+1+∑i=1Mλixi)=f(λM+1xM+1+(1?λM+1)∑i=1Mηixi)(3)\begin{aligned} f(\sum_{i=1}^{M+1} \lambda_{i}x_{i})&=f(\lambda_{M+1}x_{M+1}+\sum_{i=1}^{M}\lambda_{i}x_{i})\\ &=f(\lambda_{M+1}x_{M+1}+(1-\lambda_{M+1})\sum_{i=1}^{M}\eta_{i}x_{i}) \tag{3} \end{aligned} f(i=1∑M+1?λi?xi?)?=f(λM+1?xM+1?+i=1∑M?λi?xi?)=f(λM+1?xM+1?+(1?λM+1?)i=1∑M?ηi?xi?)?(3)
其中
ηi=λi1?λM+1\eta_{i}=\frac {\lambda_{i}}{1-\lambda_{M+1}} ηi?=1?λM+1?λi??
由公式(1)的結(jié)論,公式(3)滿足:
f(∑i=1M+1λixi)≤λM+1f(xM+1)+(1?λM+1)f(∑i=1M+1ηixi))f(\sum_{i=1}^{M+1}\lambda_{i}x_{i})\leq\lambda_{M+1}f(x_{M+1})+(1-\lambda_{M+1})f(\sum_{i=1}^{M+1}\eta_{i}x_{i})) f(i=1∑M+1?λi?xi?)≤λM+1?f(xM+1?)+(1?λM+1?)f(i=1∑M+1?ηi?xi?))
注意到 λi\lambda_iλi?滿足:
∑i=1M+1λi=1\sum_{i=1}^{M+1}\lambda_{i}=1 i=1∑M+1?λi?=1
因此:
∑i=1Mλi=1?λM+1\sum_{i=1}^{M}\lambda_{i}=1-\lambda_{M+1} i=1∑M?λi?=1?λM+1?
因此ηi\eta_iηi? 也滿足:
∑iMηi=∑1Mλi1?λM+1(5)\sum_i^M\eta_{i}=\frac{\sum_1^M\lambda_{i}}{1-\lambda_{M+1}} \tag{5} i∑M?ηi?=1?λM+1?∑1M?λi??(5)
由公式(2)和(5)得到:
∑iMf(ηixi)≤∑i=1Mηif(xi)(6)\sum_{i}^{M}f(\eta_{i}x_{i})\leq\sum_{i=1}^M\eta_{i}f(x_i) \tag{6} i∑M?f(ηi?xi?)≤i=1∑M?ηi?f(xi?)(6)
由(4)和(6):
f(∑iM+1λixi)≤λM+1f(xM+1)+(1?λM+1)∑i=1Mηif(xi)=∑i=1M+1λif(xi)f(\sum_{i}^{M+1}\lambda_{i}x_{i})\leq\lambda_{M+1}f(x_{M+1})+(1-\lambda_{M+1})\sum_{i=1}^{M}\eta_{i}f(x_{i})=\sum_{i=1}^{M+1}\lambda_{i}f(x_{i}) f(i∑M+1?λi?xi?)≤λM+1?f(xM+1?)+(1?λM+1?)i=1∑M?ηi?f(xi?)=i=1∑M+1?λi?f(xi?)
因此i=M+1i=M+1i=M+1時,Jensen不等式也成立綜上,Jensen不等式成立。
在概率論中,如果把λi\lambda_iλi?看成取值為 xi{x_i}xi? 的離散變量 xxx 的概率分布,那么公式(2)就可以寫成
f(E[x])≤E[f(x)]f(E[x])\leq E[f(x)] f(E[x])≤E[f(x)]其中,E[?]E[·]E[?]表示期望。
對于連續(xù)變量,Jensen不等式給出了積分的凸函數(shù)值和凸函數(shù)的積分值間的關(guān)系:f(∫xp(x)dx)≤∫f(x)p(x)dxf(\int xp(x)dx)\leq \int f(x)p(x)dx f(∫xp(x)dx)≤∫f(x)p(x)dx
參考文獻(xiàn):
- [1] PRML
- [2] wikipedia Jensen’s inequality
- 以上內(nèi)容來自:清雅的數(shù)學(xué)筆記_Jensen不等式初步理解及證明【知乎】
總結(jié)
以上是生活随笔為你收集整理的Jensen不等式初步理解及证明的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 图论及其应用:第三次作业
- 下一篇: 信息论里的信息熵到底是什么含义?互信息的