梯度、梯度下降,随机梯度下降
一、梯度gradient
http://zh.wikipedia.org/wiki/%E6%A2%AF%E5%BA%A6
在標(biāo)量場(chǎng)f中的一點(diǎn)處存在一個(gè)矢量G,該矢量方向?yàn)閒在該點(diǎn)處變化率最大的方向,其模也等于這個(gè)最大變化率的數(shù)值,則矢量G稱(chēng)為標(biāo)量場(chǎng)f的梯度。
在向量微積分中,標(biāo)量場(chǎng)的梯度是一個(gè)向量場(chǎng)。
標(biāo)量場(chǎng)中某一點(diǎn)上的梯度指向標(biāo)量場(chǎng)增長(zhǎng)最快的方向,梯度的長(zhǎng)度是這個(gè)最大的變化率。
更嚴(yán)格的說(shuō),從歐氏空間Rn到R的函數(shù)的梯度是在Rn某一點(diǎn)最佳的線(xiàn)性近似。在這個(gè)意義上,梯度是雅戈比矩陣的一個(gè)特殊情況。
在單變量的實(shí)值函數(shù)的情況,梯度只是導(dǎo)數(shù),或者,對(duì)于一個(gè)線(xiàn)性函數(shù),也就是線(xiàn)的斜率。
梯度一詞有時(shí)用于斜度,也就是一個(gè)曲面沿著給定方向的傾斜程度。
一個(gè)標(biāo)量函數(shù)的梯度記為:?或?, 其中(nabla)表示矢量微分算子。
?
二、梯度下降法
http://zh.wikipedia.org/wiki/%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95
梯度下降法,基于這樣的觀(guān)察:
如果實(shí)值函數(shù)??在點(diǎn)??處可微且有定義,那么函數(shù)?在??點(diǎn)沿著梯度相反的方向??下降最快。因而,如果
對(duì)于??為一個(gè)夠小數(shù)值時(shí)成立,那么?。
?是向量。
考慮到這一點(diǎn),我們可以從函數(shù)??的局部極小值的初始估計(jì)??出發(fā),并考慮如下序列??使得
因此可得到
如果順利的話(huà)序列??收斂到期望的極值。注意每次迭代步長(zhǎng)??可以改變。
?
梯度下降法的缺點(diǎn)是:
- 靠近極小值時(shí)速度減慢。
- 直線(xiàn)搜索可能會(huì)產(chǎn)生一些問(wèn)題。
- 可能會(huì)'之字型'地下降。
?
三、隨機(jī)梯度下降法stochastic gradient descent,也叫增量梯度下降
由于梯度下降法收斂速度慢,而隨機(jī)梯度下降法會(huì)快很多
–根據(jù)某個(gè)單獨(dú)樣例的誤差增量計(jì)算權(quán)值更新,得到近似的梯度下降搜索(隨機(jī)取一個(gè)樣例)
–可以看作為每個(gè)單獨(dú)的訓(xùn)練樣例定義不同的誤差函數(shù)
–在迭代所有訓(xùn)練樣例時(shí),這些權(quán)值更新的序列給出了對(duì)于原來(lái)誤差函數(shù)的梯度下降的一個(gè)合理近似
–通過(guò)使下降速率的值足夠小,可以使隨機(jī)梯度下降以任意程度接近于真實(shí)梯度下降
?標(biāo)準(zhǔn)梯度下降和隨機(jī)梯度下降之間的關(guān)鍵區(qū)別
–標(biāo)準(zhǔn)梯度下降是在權(quán)值更新前對(duì)所有樣例匯總誤差,而隨機(jī)梯度下降的權(quán)值是通過(guò)考查某個(gè)訓(xùn)練樣例來(lái)更新的
–在標(biāo)準(zhǔn)梯度下降中,權(quán)值更新的每一步對(duì)多個(gè)樣例求和,需要更多的計(jì)算
–標(biāo)準(zhǔn)梯度下降,由于使用真正的梯度,標(biāo)準(zhǔn)梯度下降對(duì)于每一次權(quán)值更新經(jīng)常使用比隨機(jī)梯度下降大的步長(zhǎng)
–如果標(biāo)準(zhǔn)誤差曲面有多個(gè)局部極小值,隨機(jī)梯度下降有時(shí)可能避免陷入這些局部極小值中
from:?http://www.cnblogs.com/549294286/archive/2012/12/13/2817204.html
總結(jié)
以上是生活随笔為你收集整理的梯度、梯度下降,随机梯度下降的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 梯度下降(Gradient Descen
- 下一篇: 如何编写Hadoop调度器