日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

梯度法的收敛性分析

發布時間:2023/12/8 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 梯度法的收敛性分析 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文 是對 Boyd凸優化書第9章內容的摘記。

梯度方法我們都知道可以確保目標函數的單調下降, 然而如果要分析收斂性的話,除了單調性外, 我們更需要知道的是收斂速度。 否則,我們并無法分析算法能否收斂到最優解或是局部最優解。

收斂速度的證明依賴于所謂強凸性的假設: ?2f(x)?mI,?x∈S\nabla^{2} f(x) \succeq m I, \forall x\in S ?2f(x)?mI,?xS
SSSxxx的可行域。

這個假設也可以等價為: Hessian矩陣 ?2f(x)\nabla^2 f(x)?2f(x)的最小特征值為m。

根據泰勒展開或柯西中值定理 https://zhuanlan.zhihu.com/p/25413823, 我們有:
f(y)=f(x)+?f(x)T(y?x)+12(y?x)T?2f(z)(y?x)(1)f(y)=f(x)+\nabla f(x)^{T}(y-x)+\frac{1}{2}(y-x)^{T} \nabla^{2} f(z)(y-x)\tag{1} f(y)=f(x)+?f(x)T(y?x)+21?(y?x)T?2f(z)(y?x)(1)
其中zzz在線[x,y][x,y][x,y]上。
那么基于強凸性假設, 即:f(y)?f(x)+?f(x)T(y?x)+m2∥y?x∥22(2)f(y) \geqslant f(x)+\nabla f(x)^{T}(y-x)+\frac{m}{2}\|y-x\|_{2}^{2}\tag{2} f(y)?f(x)+?f(x)T(y?x)+2m?y?x22?(2)
對(2)式求最值,有:
f(y)?f(x)+?f(x)T(y?x)+m2∥y?x∥22?f(x)+?f(x)T(y~?x)+m2∥y~?x∥22=f(x)?12m∥?f(x)∥22(3)\begin{aligned} f(y) & \geqslant f(x)+\nabla f(x)^{T}(y-x)+\frac{m}{2}\|y-x\|_{2}^{2} \\ & \geqslant f(x)+\nabla f(x)^{T}(\tilde{y}-x)+\frac{m}{2}\|\tilde{y}-x\|_{2}^{2} \\ &=f(x)-\frac{1}{2 m}\|\nabla f(x)\|_{2}^{2} \end{aligned}\tag{3} f(y)??f(x)+?f(x)T(y?x)+2m?y?x22??f(x)+?f(x)T(y~??x)+2m?y~??x22?=f(x)?2m1??f(x)22??(3)
其中yˉ=x?(1/m)?f(x)\bar{y}=x-(1 / m) \nabla f(x)yˉ?=x?(1/m)?f(x), 也即(2)右邊對yyy求導為0的結果。
后續就是基于(3)這個式子進行收斂性的分析。
由于對于任何yyy, (3)都成立, 因此假設最優解位f(y?)=p?f(y^*)=p^*f(y?)=p?, 由(1)和(2)我們有:
p??f(x)?12m∥?f(x)∥22(4)p^{\star} \geqslant f(x)-\frac{1}{2 m}\|\nabla f(x)\|_{2}^{2}\tag{4} p??f(x)?2m1??f(x)22?(4)
由 (4) 可以看出,當梯度足夠小時, 點xxx無限接近于最優點。 有:
∥?f(x)∥2?(2mε)1/2?f(x)?p???\|\nabla f(x)\|_{2} \leqslant(2 m \varepsilon)^{1 / 2} \Longrightarrow f(x)-p^{\star} \leqslant \epsilon ?f(x)2??(2mε)1/2?f(x)?p???

然而這個結論只是證明了梯度為0時的結論, 卻沒有說明,梯度下降法能否在有限次數內達到梯度為0點。因此,繼續分析:
這時候需要用到另一個假設:
?2f(x)?MI\nabla^{2} f(x) \preceq M I ?2f(x)?MI
?2f(x)\nabla^{2} f(x)?2f(x) 最大特征值為 MMM。類似的,我們有:
f(y)?f(x)+?f(x)T(y?x)+M2∥y?x∥22(5)f(y) \leqslant f(x)+\nabla f(x)^{T}(y-x)+\frac{M}{2}\|y-x\|_{2}^{2}\tag{5} f(y)?f(x)+?f(x)T(y?x)+2M?y?x22?(5)
yyy求最值,有:
p??f(x)?12M∥?f(x)∥22(6)p^{\star} \leqslant f(x)-\frac{1}{2 M}\|\nabla f(x)\|_{2}^{2}\tag{6} p??f(x)?2M1??f(x)22?(6)
相比于(4)就是不等式方向變了,因此(4)和(6)分別給出了上下界。

以最速下降法為例, 令 x+=x+tΔxx^{+}=x+t \Delta xx+=x+tΔx, 其中ttt為步長, Δx=??f(x)\Delta x=-\nabla f(x)Δx=??f(x)為負梯度方向。 將y=x+y=x^+y=x+代入 (6) 得到:
f(x+)?f(x)?t∥?f(x)∥22+Mt22∥?f(x)∥22{f}(x^+) \leqslant f(x)-t\|\nabla f(x)\|_{2}^{2}+\frac{M t^{2}}{2}\|\nabla f(x)\|_{2}^{2} f(x+)?f(x)?t?f(x)22?+2Mt2??f(x)22?
上式對ttt求最小值, 可得,最優步長為 t=1Mt=\frac{1}{M}t=M1?,代入得:
f(x+)?f(x)?12M∥?(f(x))∥22f\left(x^{+}\right)\leqslant f(x)-\frac{1}{2 M}\|\nabla(f(x))\|_{2}^{2} f(x+)?f(x)?2M1??(f(x))22?
為了衡量收斂速度, 因此,兩邊均減去最優值 p?p^*p?,有:
f(x+)?p??f(x)?p??12M∥?f(x)∥22f\left(x^{+}\right)-p^{\star} \leqslant f(x)-p^{\star}-\frac{1}{2 M}\|\nabla f(x)\|_{2}^{2} f(x+)?p??f(x)?p??2M1??f(x)22?
而基于(4), 我們可以得到:
∥?f(x)∥22?2m(f(x)?p?)\|\nabla f(x)\|_{2}^{2} \geqslant 2 m\left(f(x)-p^{\star}\right) ?f(x)22??2m(f(x)?p?)
代入可有:
f(x+)?p??(1?m/M)(f(x)?p?)f\left(x^{+}\right)-p^{\star} \leqslant(1-m / M)\left(f(x)-p^{\star}\right) f(x+)?p??(1?m/M)(f(x)?p?)
也就是說,相比于初始點f(x)f(x)f(x)與最優點的差距, 經過一次梯度下降后的點f(x+)f(x^+)f(x+)與最優點的距離縮短了(1?m/M)(1-m/M)(1?m/M)

由這個結論我們可知:

  • 條件數 m/Mm/Mm/M越大, 收斂速度越快。 即一個矩陣最大特征值和最小特征值越接近。
  • 經過log?((f(x(0))?p?)/?)log?(1/c)\frac{\log \left(\left(f\left(x^{(0)}\right)-p^{\star}\right) / \epsilon\right)}{\log (1 / c)}log(1/c)log((f(x(0))?p?)/?)?次迭代,一定能得到f(x(k))?pk??0f\left(x^{(k)}\right)-p^{k} \leqslant \epsilon_{0}f(x(k))?pk??0?

總結

以上是生活随笔為你收集整理的梯度法的收敛性分析的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。