凹凸性和Jensen不等式
參照:
- 凹凸性:https://blog.csdn.net/hqh131360239/article/details/82751791
- Jensen不等式:https://blog.csdn.net/phoenix198425/article/details/78388597
1、凹凸性
1.1、同濟大學高等數學定義
\qquad凹凸函數在同濟大學高等數學中的定義符合人們的思維定式。在國際上的定義恰好與同濟大學高等數學中的定義相反。
1.2、國際上的定義:
\qquad國際上的定義剛好與國內的凹凸函數的定義相反。二階導數大于0,則為凸函數,有極小值;二階導數小于0,則為凹函數,有極大值(后面涉及到的凹凸函數,均為國際上的定義);
\qquad例如:exe^xex的二階導數大于0,為凸函數;logxlog\ xlog?x的二階導數小于0,為凹函數;
\qquad一元函數可以很容易的判斷凹凸性,二元函數如何判斷凹凸性?用到了海塞矩陣,根據海塞矩陣的正定性,判斷凹凸性。
\qquad a)海塞矩陣
A=[?2Z?x2?2Z?x?y?2Z?y?x?2Z?y2]A=\left[\begin{matrix} \dfrac{\partial^2Z}{\partial x^2} & \dfrac{\partial^2Z}{\partial x\partial y}\\ \\ \dfrac{\partial^2Z}{\partial y\partial x} & \dfrac{\partial^2Z}{\partial y^2} \end{matrix}\right] A=????????x2?2Z??y?x?2Z???x?y?2Z??y2?2Z?????????
\qquad b)正定矩陣
\qquad判斷海塞矩陣是否為正定矩陣;若所有特征值均不小于零,則稱為半正定。 若所有特征值均大于零,則稱為正定。特征值怎么求?∣λE?A∣=0|\lambda E-A|=0∣λE?A∣=0,可以求出特征值。若除主對角線上的元素都為0,則主對角線上的值為特征值。detA=∣A∣=detA=|A|=detA=∣A∣=對角線元素積。
\qquad c)凹凸性判斷(正定矩陣為凸函數):
\qquad例題1:f(x,y)=x2+5y2?6x+10y+6f(x,y)=x^2+5y^2-6x+10y+6f(x,y)=x2+5y2?6x+10y+6
\qquad海塞矩陣A:
A=[20010]A=\left[\begin{matrix} 2 & 0 \\ \\ 0 & 10 \end{matrix}\right] A=???20?010????
\qquad所有的特征值均大于0,海塞矩陣為正定矩陣,函數為凸函數。
\qquad例題2:f(x,y)=10(y2+4x)2+(1?4y)2f(x,y)=10(y^2+4x)^2+(1-4y)^2f(x,y)=10(y2+4x)2+(1?4y)2
\qquad海塞矩陣A:
A=[320?160y?160y120y2?160x+32]A=\left[\begin{matrix} 320 & -160y \\ \\ -160y & 120y^2-160x+32 \end{matrix}\right] A=???320?160y??160y120y2?160x+32????
\qquad根據特征值,決定函數的凹凸性。
2、Jensen不等式
2.1、特殊形式
\qquad針對于上述的凸函數,直觀意義上的凸函數,有特殊形式:
f(a+b2)≥12(f(a)+f(b))=12f(a)+12f(b)f(\dfrac{a+b}{2}) \ge \dfrac{1}{2}(f(a) + f(b)) = \dfrac{1}{2} f(a) + \dfrac{1}{2} f(b) f(2a+b?)≥21?(f(a)+f(b))=21?f(a)+21?f(b)
2.2、簡單引申
\qquad針對于上述的凸函數,λ\lambdaλ相當于x1x_1x1?的概率,1?λ1-\lambda1?λ相當于x2x_2x2?的概率,則有:
f(λx1+(1?λ)x2)≥λf(x1)+(1?λ)f(x2)f(\lambda x_1 + (1-\lambda) x_2) \ge \lambda f(x_1) + (1-\lambda)f(x_2) f(λx1?+(1?λ)x2?)≥λf(x1?)+(1?λ)f(x2?)
2.3、延申拓展
\qquad針對于上述的凸函數,λj\lambda_jλj?為yjy_jyj?概率,且有∑jλj=1,λj≥0\sum\limits_j\lambda_j=1,\lambda_j \ge 0j∑?λj?=1,λj?≥0,則有:
f(∑jλjyj)≥∑jλjf(yj)f(\sum_j \lambda_jy_j) \ge \sum_j\lambda_jf(y_j) f(j∑?λj?yj?)≥j∑?λj?f(yj?)
2.4、推論
\qquad若 f(x)f(x)f(x) 為區間RRR上的凸函數,g(x):R→Rg(x):R→Rg(x):R→R 為一任意函數,XXX 為一取值范圍有限的離散變量, E[f(g(X))]E[f(g(X))]E[f(g(X))] 與 E[g(X)]E[g(X)]E[g(X)] 都存在,則:
f(E[g(X)])≥E[f(g(X))]f(E[g(X)]) \ge E[f(g(X))] f(E[g(X)])≥E[f(g(X))]
\qquad證明:
f(E[g(X)])=f(∑i=1npig(xi))≥∑i=1npif(g(xi))=E[f(g(X))]f(E[g(X)]) =f(\sum_{i=1}^np_ig(x_i))\ge \sum_{i=1}^np_if(g(x_i)) = E[f(g(X))] f(E[g(X)])=f(i=1∑n?pi?g(xi?))≥i=1∑n?pi?f(g(xi?))=E[f(g(X))]
總結
以上是生活随笔為你收集整理的凹凸性和Jensen不等式的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 信息量为什么要表示成对数的形式
- 下一篇: 黑马程序员软件测试面试宝典