當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

模型优化算法

發(fā)布時(shí)間：2025/1/21 编程问答 110 豆豆

生活随笔收集整理的這篇文章主要介紹了模型优化算法小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、模型的優(yōu)化算法

1.1 基于梯度下降的方法

1.1.1樣本量

批量梯度下降BGD（Batch Gradient Dencent）
隨機(jī)梯度下降SGD（Stochastic Gradient Descent）
mini-batch GD

1.1.2. 學(xué)習(xí)率的更新方法

動(dòng)量法momentum（引入了動(dòng)量項(xiàng)）
Nesterov accelerated gradient（NAG,預(yù)測(cè)下一時(shí)刻的位置）

二階方法，調(diào)整學(xué)習(xí)率

Adagrad（每個(gè)參數(shù)單獨(dú)調(diào)節(jié)）
Adelta（防止Adagrad中的學(xué)習(xí)率一直減小）
RMSprop(Adelta實(shí)例化)
Adam(梯度、梯度方的歷史加權(quán)平均值)
Adamax（Adam的二范數(shù)變?yōu)闊o窮范數(shù)，更穩(wěn)定）

1.2. 牛頓法系列

1.2.1. 牛頓法
1.2.2. 擬牛頓法

DFP
BGFS
L-BGFS(待完成)
Broyden

二. 具體算法

2.1.1批量梯度下降

根據(jù)所有樣本的損失，更新模型參數(shù)。

以邏輯斯蒂回歸模型為例，訓(xùn)練集有m個(gè)樣本 $X({x_{1}},{x_{2}},...,{x_{m}})$ ，誤差函數(shù)是交叉熵誤差函數(shù)，批量梯度下降法的計(jì)算過程如下：

對(duì)于每個(gè)輸入

x

,計(jì)算模型輸出

y^\hat{y}

y^=σ(wTx+b)\hat{y} = \sigma (w^{T}x+b)

.其中

σ(z)=11+e?z\sigma (z) = \frac{1}{1+e^{-z}}

.(注：初始化

w, b

)

計(jì)算

m

個(gè)樣本的交叉熵?fù)p失，取平均值，得到關(guān)于

w, b

的損失值

J(w,b)=1m∑i=1m(L(y^i),yi)=?1m∑i=1m(yilogy^i+(1?yi)log(1?y^i))J(w,b) = \frac{1}{m} \sum_{i=1}^{m}(L(\hat{y}_{i}),y_{i}) = -\frac{1}{m}\sum_{i=1}^{m}(y_{i}log\hat{y}_{i}+(1-y_{i})log(1-\hat{y}_{i}))

計(jì)算

J (w, b)

關(guān)于

w, b

的偏導(dǎo)

\frac{\partial J(w,b)}{\partial w}

\frac{\partial J(w,b)}{\partial b}

更新

w, b

w = w ? l r ? d w, b = b ? l r ? d b

l r

是學(xué)習(xí)率.

重復(fù)步驟1~4，達(dá)到終止條件結(jié)束算法。

2.1.2 隨機(jī)梯度下降

單個(gè)樣本輸入后，計(jì)算得到損失后，更新模型參數(shù)。

以邏輯斯蒂回歸模型為例，訓(xùn)練集有m個(gè)樣本 $X({x_{1}},{x_{2}},...,{x_{m}})$ ，誤差函數(shù)是交叉熵誤差函數(shù)，隨機(jī)梯度下降法的計(jì)算過程如下：

對(duì)于任意一個(gè)輸入

x_{i}

,計(jì)算模型輸出

yi^\hat{y_{i}}

yi^=σ(wTxi+b)\hat{y_{i}} = \sigma (w^{T}x_{i}+b)

.其中

σ(z)=11+e?z\sigma (z) = \frac{1}{1+e^{-z}}

.(注：初始化

w, b

)

計(jì)算輸入

x_{i}

的交叉熵?fù)p失

Ji(w,b)=L(y^i,yi)=yilogy^i+(1?yi)log(1?y^i)J_{i}(w,b) = L(\hat{y}_{i},y_{i})= y_{i}log\hat{y}_{i}+(1-y_{i})log(1-\hat{y}_{i})

計(jì)算

J_{i}(w,b)

關(guān)于

w, b

的偏導(dǎo)

\frac{\partial J_{i}(w,b)}{\partial w}

\frac{\partial J_{i}(w,b)}{\partial b}

更新

w, b

w = w ? l r ? d w, b = b ? l r ? d b

l r

是學(xué)習(xí)率.

重復(fù)步驟1~4，達(dá)到終止條件結(jié)束算法。

2.1.3 mini-Batch梯度下降

根據(jù)小批量n個(gè)樣本的損失，更新模型參數(shù)。

對(duì)于小批量的n個(gè)樣本中的每個(gè)輸入

x

,計(jì)算模型輸出

y^\hat{y}

y^=σ(wTx+b)\hat{y} = \sigma (w^{T}x+b)

.其中

σ(z)=11+e?z\sigma (z) = \frac{1}{1+e^{-z}}

.(注：初始化

w, b

)

計(jì)算

n

個(gè)樣本的交叉熵?fù)p失，取平均值，得到關(guān)于

w, b

的損失值

J(w,b)=1n∑i=1n(L(y^i),yi)=?1n∑i=1nyilogy^i+(1?yi)log(1?y^i)J(w,b) = \frac{1}{n} \sum_{i=1}^{n}(L(\hat{y}_{i}),y_{i})\\ = -\frac{1}{n}\sum_{i=1}^{n}y_{i}log\hat{y}_{i}+(1-y_{i})log(1-\hat{y}_{i})

計(jì)算

J (w, b)

關(guān)于

w, b

的偏導(dǎo)

\frac{\partial J(w,b)}{\partial w}

\frac{\partial J(w,b)}{\partial b}

更新

w, b

w = w ? l r ? d w, b = b ? l r ? d b

l r

是學(xué)習(xí)率.

重復(fù)步驟1~4，達(dá)到終止條件結(jié)束算法。

2.2 梯度更新算法¹

2.2.1 動(dòng)量法

問題背景

下圖所示，紅點(diǎn)是最小值點(diǎn)。為了到達(dá)紅點(diǎn)，如果使用較大的學(xué)習(xí)率，則會(huì)出現(xiàn)紫線畫出的發(fā)散現(xiàn)象，如果使用較小的學(xué)習(xí)率，如藍(lán)線所示，收斂的速度比較慢。因此，希望有種學(xué)習(xí)方法，能在縱軸上減小擺動(dòng)，在橫軸上，希望加快學(xué)習(xí)。這里就需要每次橫軸和縱軸的更新量不同，如果使用 $w = w ? l r ? d w$ ，則達(dá)不到這種效果。

方法引入

動(dòng)量法在原始權(quán)值梯度 $d w$ 的基礎(chǔ)上，增加了上一時(shí)刻的更新量 $υt?1\upsilon _{t-1}$ 。
$υt=γυt?1+η▽?duì)菾(θ)\upsilon _{t} = \gamma \upsilon _{t-1} + \eta \bigtriangledown _{\theta }J(\theta )$
$θ=θ?υt\theta =\theta - \upsilon _{t}$

2.2.2 Nesterov 梯度加速法（Nesterov Accelerated Gradient）

問題背景

尋找最小值的過程，就像小球下山，小球在下山的過程中，速度會(huì)一直增加，這樣會(huì)沖過最低點(diǎn)，然后又沖下來。我們希望小球到山底附近時(shí)，會(huì)自動(dòng)減速，停在最小值處。

方法引入

$θ?υt\theta - \upsilon _{t}$ 是下一時(shí)刻小球所在位置的近似估計(jì)。通過計(jì)算函數(shù)關(guān)于下一時(shí)刻的梯度表示參數(shù)的梯度方向。
$υt=γυt?1+η▽?duì)菾(θ?υt)\upsilon _{t} = \gamma \upsilon _{t-1} + \eta \bigtriangledown _{\theta }J(\theta -\upsilon _{t} )$
$θ=θ?υt\theta =\theta - \upsilon _{t}$

短的藍(lán)色當(dāng)前梯度棕色和長(zhǎng)的藍(lán)色更新的累積梯度綠色最終的更新值

這種更新方法可以阻止更新過快而越過最小值點(diǎn)而使響應(yīng)速度提高。

2.2.3 Adagrad

問題背景

我們能夠根據(jù)誤差函數(shù)的斜率調(diào)整更新量并加速SGD，我們還希望根據(jù)每個(gè)參數(shù)的重要性來調(diào)整每個(gè)參數(shù)的更新量

Adagrad 是一種基于梯度的優(yōu)化算法。它調(diào)整參數(shù)的學(xué)習(xí)率的規(guī)則： larger updates for infrequent and smaller updates for frequent parameters（怎么翻呢？）
SGD的更新規(guī)則如下：

$gt,i=▽?duì)萾J(θt,i)g_{t,i} = \bigtriangledown _{\theta _{t}}J(\theta _{t,i})$
$θt+1,i=θt,i?η?gt,i\theta_{t+1,i} = \theta _{t,i} - \eta \cdot g_{t,i}$
$Gt∈Rd×dG_{t}\in R^{d\times d}$ 是對(duì)角陣，對(duì)角上的元素 $(i, i)$ 是累積到 $t$ 時(shí)刻的梯度的平方。
其中 $g_{t,i}$ 表示參數(shù) $θi\theta _{i}$ 在時(shí)間 $t$ 時(shí)的梯度。
Adagrad算法每次單獨(dú)更新每個(gè)參數(shù):
$θt+1,i=θt,i?ηGt,ii+ε?gt,i\theta_{t+1,i} = \theta _{t,i} - \frac{\eta}{\sqrt {G_{t,ii}+\varepsilon} } \cdot g_{t,i}$
其中 $ε\varepsilon$ 是平滑項(xiàng)，防止除數(shù)為0.

向量化后：

Adagrad的主要缺點(diǎn)是，訓(xùn)練過程中，分母中的梯度平方項(xiàng)一直在增加，這會(huì)使學(xué)習(xí)率越來越小，從而導(dǎo)致模型無法繼續(xù)學(xué)習(xí)。

2.2.4 Adadelta

當(dāng)前時(shí)刻參數(shù)梯度平方的均值
$E[g2]t=γE[g2]t?1+(1?γ)gt2E[g^{2}]_{t} = \gamma E[g^{2}]_{t-1} +(1-\gamma)g_{t}^{2}$
Adagrad參數(shù)的更新量

用 $E[g^{2}]_{t}$ 代替 $G_{t}$ ，得
$Δθt=?ηE[g2]t+εgt\Delta \theta_{t} = - \frac{\eta }{\sqrt{E[g^{2}]_{t}+\varepsilon }} g_{t}$
分母是梯度RMSE的校正，用RMSE代替后：
$Δθt=?ηRMSE([g]t)gt\Delta \theta_{t} = - \frac{\eta }{RMSE([g]_{t})} g_{t}$
完整的Adadelta算法：
$E[g2]t=γE[g2]t?1+(1?γ)gt2(1)E[g^{2}]_{t} = \gamma E[g^{2}]_{t-1} +(1-\gamma)g_{t}^{2} \text(1)$
$Δθt=?ηRMSE([g]t)gt(2)\Delta \theta_{t} = - \frac{\eta }{RMSE([g]_{t})} g_{t} \text(2)$

Adadelta 與 Adagrad相比，在分母上做了處理，避免學(xué)習(xí)率一直減小。

2.2.5 RMSprop

RMSprop是Adadelta的實(shí)例化， $γ=0.9\gamma =0.9$ .
$E[g2]t=0.9E[g2]t?1+0.1gt2(1)E[g^{2}]_{t} = 0.9 E[g^{2}]_{t-1} +0.1g_{t}^{2} \text(1)$
$Δθt=?ηE[g2]t+εgt\Delta \theta_{t} = - \frac{\eta }{\sqrt{E[g^{2}]_{t}+\varepsilon }} g_{t}$

2.2.6 Adam( Adaptive Moment Estimation)

Adam，Adaptive Moment Estimation，自適應(yīng)動(dòng)量評(píng)估。Adam除了像Adadelta和RMSprop那樣保存歷史指數(shù)衰梯度方的均值，還保存了歷史指數(shù)衰減動(dòng)量的均值
$mt=β1mt?1+(1?β1)gtm_{t}=\beta _{1}m_{t-1} + (1-\beta _{1})g_{t}$
$νt=β1νt?1+(1?β2)gt2\nu _{t}=\beta _{1}\nu_{t-1} + (1-\beta _{2})g^{2}_{t}$
$mt，νtm_{t}，\nu _{t}$ 初始化為0，在初始階段這二者趨于0，為了解決這個(gè)問題，引入了偏差修正: $m^t=mt1?β1\hat m_{t} = \frac{m_{t}}{1-\beta _{1}}$ , $νt=νt1?β2\nu _{t} = \frac{\nu_{t}}{1-\beta _{2}}$
Adam的參數(shù)更新規(guī)則：
$Δθt=?ην^t+εm^t\Delta \theta_{t} = - \frac{\eta }{\sqrt{\hat \nu_{t}+\varepsilon }} \hat m_{t}$

2.2.7 AdaMax

AdaMax將Adam中的分母的計(jì)算推廣到了 $∞\infty$ 范數(shù)

Adamax更新規(guī)則

2.3.1 牛頓法

為了便于理解用牛頓法優(yōu)化目標(biāo)函數(shù)，首先介紹單個(gè)變量牛頓法，用于數(shù)值分析中求近似解。具體參考，得到的近似解的推導(dǎo)公式為：
$xn+1=xn?f(xn)f′(xn)x_{n+1} = x_{n} - \frac{f(x^{n})} {f^{'}(x^{n})}$

引入：對(duì)于多元變量，在某點(diǎn)處的導(dǎo)數(shù)變成了海塞矩陣（Hesse matrix）.海塞矩陣是一個(gè)多元函數(shù)二階偏導(dǎo)構(gòu)成的矩陣。 $f (x)$ 具有二階連續(xù)偏導(dǎo)， $f (x)$ 的海塞矩陣 $H (x)$ 為
$[\frac{\partial ^{2}f}{\partial x_{i}\partial x_{j}}]_{n\times n}$

考慮無約束的最優(yōu)化問題
$minx∈Rnf(x)\underset{x\in R^{n}}{min}f(x)$

思考
1. 寫出 $f (x)$ 在 $x_{k}$ 處的泰勒展式 $f(x)=f(xk)+gkT(x?xk)+12(x?xk)H(xk)(x?xk)T+...f(x)=f(x_{k})+g_{k}^{T}(x-x_{k})+\frac{1}{2}(x-x_{k})H(x_{k})(x-x_{k})^{T}+...$
2. 求 $f (x)$ 的極值的必要條件是 $f^{'} (x) = 0$ , $g_{k}^{T}+ H(x_{k})(x-x_{k})=0$ ,
3. 牛頓法求解g(x)=0

以下源自²

2.3.2 擬牛頓法

計(jì)算 $Hk?1H^{-1}_{k}$ 比較麻煩，
（B.12）或（B.13）是擬牛頓的條件

2.3.2.1 擬牛頓法-DFP（Davidon-Fletcher-Powell）算法

DFP算法用 $G_{k}$ 來近似 $Hk?1H^{-1}_{k}$

2.3.2.2 擬牛頓法-BFGS（Broyden-Fletcher-Goldfarb-Shanno）算法

BFGS算法用 $B_{k}$ 來近似 $H_{k}$

2.3.2.3 $?$ 擬牛頓法-Broyden類算法

三、Pytorch中的優(yōu)化器

Pytorch中的優(yōu)化器有以下一些：

Adadelta

Adagrad

Adam

SparseAdam

Adamax

ASGD

LBFGS

RMSprop

Rprop

SGD

一些解釋參考

關(guān)于Adagrad算法，連個(gè)新詞：激勵(lì)收斂和懲罰收斂

安利編輯公式的鏈接：
在線公式編輯
數(shù)學(xué)公式輸入方法

Ruder S . An overview of gradient descent optimization algorithms[J]. 2016. ??

李航. 統(tǒng)計(jì)學(xué)習(xí)方法[M]. 清華大學(xué)出版社, 2012. ??

總結(jié)

以上是生活随笔為你收集整理的模型优化算法的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

编程问答

模型优化算法

一、 模型的優(yōu)化算法

1.1 基于梯度下降的方法

1.1.1樣本量

1.1.2. 學(xué)習(xí)率的更新方法

1.2. 牛頓法系列

二. 具體算法

2.1.1批量梯度下降

2.1.2 隨機(jī)梯度下降

2.1.3 mini-Batch梯度下降

2.2 梯度更新算法1

2.2.1 動(dòng)量法

2.2.2 Nesterov 梯度加速法（Nesterov Accelerated Gradient）

2.2.3 Adagrad

2.2.4 Adadelta

2.2.5 RMSprop

2.2.6 Adam( Adaptive Moment Estimation)

2.2.7 AdaMax

2.3.1 牛頓法

2.3.2 擬牛頓法

2.3.2.1 擬牛頓法-DFP（Davidon-Fletcher-Powell）算法

2.3.2.2 擬牛頓法-BFGS（Broyden-Fletcher-Goldfarb-Shanno）算法

2.3.2.3?*? 擬牛頓法-Broyden類算法

三、Pytorch中的優(yōu)化器

總結(jié)

一、模型的優(yōu)化算法

2.2 梯度更新算法¹

2.3.2.3 $?$ 擬牛頓法-Broyden類算法