深度学习第三次课-梯度下降与反向传播
生活随笔
收集整理的這篇文章主要介紹了
深度学习第三次课-梯度下降与反向传播
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
梯度下降
損失函數(shù)可視化
得分函數(shù) ? f=W*X 損失函數(shù) ? c=W*X-y ?? 目標(biāo) ? ?損失函數(shù)最小 ? ?最優(yōu)化過程 可視化 ? ?? 一維 二維 ? 熱力圖 如果損失函數(shù)是一個凸函數(shù),例如SVM。 凸函數(shù) 正系數(shù)加和=凸函數(shù) 神經(jīng)網(wǎng)絡(luò) ? ?costfunction ? ?非凸 ? 因為系數(shù)有正有負(fù)。
凸優(yōu)化與最優(yōu)化
神經(jīng)網(wǎng)絡(luò)最優(yōu)化方法是梯度下降。梯度下降策略有: 1 隨機(jī)搜索。隨機(jī)生成一組權(quán)重,與之前的loss相比,小了,就是更更好的權(quán)重。
2 隨機(jī)局部搜索。在現(xiàn)有權(quán)重的周圍隨機(jī)生成一組權(quán)重。選擇最優(yōu)權(quán)重。
3 順著梯度下滑。梯度方向是函數(shù)增長最快的方向。隨意順梯度下降,就是最快能到達(dá)最小值的方式。梯度下降是初始值敏感的,不同的初始值可能到達(dá)的最小值點(diǎn)不同。一般使用高斯分布的隨機(jī)小值。
梯度下降
梯度下降有兩種解決。數(shù)值梯度和解析梯度。 數(shù)值梯度是按照導(dǎo)數(shù)公式 ? f(x0)' = (f(x0+h) - f(x0))/h ? ,h是一個非常小的數(shù)。數(shù)值梯度解法簡單,但是計算和參數(shù)呈線性關(guān)系,計算量大。 解析法:速度快,但是容易出錯。利用f(x)導(dǎo)函數(shù) f(x)' 計算梯度。
梯度下降的實(shí)現(xiàn)過程中有批處理、隨機(jī)梯度、min-batch梯度下降。
梯度下降要理解梯度方向需要弄明白 梯度方向 ? 三垂線 ?幾個概念。我記錄一點(diǎn)雜亂的東西在這里。 梯度:函數(shù)增長最快的方向。 梯度方向是等值曲線的法向量。是函數(shù)在某一點(diǎn)的變化率和變化方向。在一維函數(shù)的時候,梯度方向和
反向傳播
反向轉(zhuǎn)播是一個求偏導(dǎo)的過程。鏈?zhǔn)椒▌t
把 ? f(x,y,z)=(x+y)*z ? ?在給定一個具體值的時候畫一個網(wǎng)絡(luò)結(jié)構(gòu)圖試試吧。前向計算每一步的得分。向后計算每一步的導(dǎo)數(shù)。
Sigmoid例子和公式推導(dǎo)
這個公式推導(dǎo)真心沒推導(dǎo)出來。繼續(xù)加油。
總結(jié)
以上是生活随笔為你收集整理的深度学习第三次课-梯度下降与反向传播的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Jenkins 使用 maven 出现C
- 下一篇: 梳理百年深度学习发展史-七月在线机器学习