日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

2.4 梯度下降法-深度学习-Stanford吴恩达教授

發(fā)布時間:2025/4/5 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2.4 梯度下降法-深度学习-Stanford吴恩达教授 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

←上一篇↓↑下一篇→
2.3 Logistic 回歸損失函數(shù)回到目錄2.5 導數(shù)

梯度下降法 (Gradient Descent)

梯度下降法可以做什么?

在你測試集上,通過最小化代價函數(shù)(成本函數(shù)) J(w,b)J(w,b)J(w,b) 來訓練的參數(shù) wwwbbb


如圖,在第二行給出和之前一樣的邏輯回歸算法的代價函數(shù)(成本函數(shù))

梯度下降法的形象化說明


在這個圖中,橫軸表示你的空間參數(shù) wwwbbb ,在實踐中, www 可以是更高的維度,但是為了更好地繪圖,我們定義 wwwbbb ,都是單一實數(shù),代價函數(shù)(成本函數(shù)) J(w,b)J(w,b)J(w,b) 是在水平軸 wwwbbb 上的曲面,因此曲面的高度就是 J(w,b)J(w,b)J(w,b) 在某一點的函數(shù)值。我們所做的就是找到使得代價函數(shù)(成本函數(shù)) J(w,b)J(w,b)J(w,b) 函數(shù)值是最小值,對應(yīng)的參數(shù) wwwbbb 。

如圖,代價函數(shù)(成本函數(shù)) J(w,b)J(w,b)J(w,b) 是一個凸函數(shù)(convex function),像一個大碗一樣。


如圖,這就與剛才的圖有些相反,因為它是非凸的并且有很多不同的局部最小值。由于邏輯回歸的代價函數(shù)(成本函數(shù)) J(w,b)J(w,b)J(w,b) 特性,我們必須定義代價函數(shù)(成本函數(shù)) J(w,b)J(w,b)J(w,b) 為凸函數(shù)。 初始化 wwwbbb


可以用如圖那個小紅點來初始化參數(shù) wwwbbb ,也可以采用隨機初始化的方法,對于邏輯回歸幾乎所有的初始化方法都有效,因為函數(shù)是凸函數(shù),無論在哪里初始化,應(yīng)該達到同一點或大致相同的點。

我們以如圖的小紅點的坐標來初始化參數(shù) wwwbbb

2. 朝最陡的下坡方向走一步,不斷地迭代

我們朝最陡的下坡方向走一步,如圖,走到了如圖中第二個小紅點處。

我們可能停在這里也有可能繼續(xù)朝最陡的下坡方向再走一步,如圖,經(jīng)過兩次迭代走到第三個小紅點處。

3.直到走到全局最優(yōu)解或者接近全局最優(yōu)解的地方

通過以上的三個步驟我們可以找到全局最優(yōu)解,也就是代價函數(shù)(成本函數(shù)) J(w,b)J(w,b)J(w,b) 這個凸函數(shù)的最小值點。

梯度下降法的細節(jié)化說明(僅有一個參數(shù))

假定代價函數(shù)(成本函數(shù)) J(w)J(w)J(w) 只有一個參數(shù) www ,即用一維曲線代替多維曲線,這樣可以更好畫出圖像。

迭代就是不斷重復做如圖的公式:

:=:=:= 表示更新參數(shù),

α\alphaα 表示學習率(learning rate),用來控制步長(step),即向下走一步的長度 dJ(w)dw\frac{dJ(w)}{dw}dwdJ(w)? 就是函數(shù) J(w)J(w)J(w)www 求導(derivative),在代碼中我們會使用 dwdwdw 表示這個結(jié)果

對于導數(shù)更加形象化的理解就是斜率(slope),如圖該點的導數(shù)就是這個點相切于 J(w)J(w)J(w) 的小三角形的高除寬。假設(shè)我們以如圖點為初始化點,該點處的斜率的符號是正的,即 dJ(w)dw>0\frac{dJ(w)}{dw}>0dwdJ(w)?>0 ,所以接下來會向左走一步。

整個梯度下降法的迭代過程就是不斷地向左走,直至逼近最小值點。

假設(shè)我們以如圖點為初始化點,該點處的斜率的符號是負的,即 dJ(w)dw<0\frac{dJ(w)}{dw}<0dwdJ(w)?<0 ,所以接下來會向右走一步。

整個梯度下降法的迭代過程就是不斷地向右走,即朝著最小值點方向走。

梯度下降法的細節(jié)化說明(兩個參數(shù))

邏輯回歸的代價函數(shù)(成本函數(shù)) J(w,b)J(w,b)J(w,b) 是含有兩個參數(shù)的。

?\partial? 表示求偏導符號,可以讀作round?J(w,b)?w\frac{\partial J(w,b)}{\partial w}?w?J(w,b)? 就是函數(shù) J(w,b)J(w,b)J(w,b)www 求偏導,在代碼中我們會使用 dwdwdw 表示這個結(jié)果, ?J(w,b)?b\frac{\partial J(w,b)}{\partial b}?b?J(w,b)? 就是函數(shù) J(w,b)J(w,b)J(w,b)bbb 求偏導,在代碼中我們會使用 dbdbdb 表示這個結(jié)果, 小寫字母 ddd 用在求導數(shù)(derivative),即函數(shù)只有一個參數(shù), 偏導數(shù)符號 ?\partial? 用在求偏導(partial derivative),即函數(shù)含有兩個以上的參數(shù)。

課程PPT




←上一篇↓↑下一篇→
2.3 Logistic 回歸損失函數(shù)回到目錄2.5 導數(shù)

總結(jié)

以上是生活随笔為你收集整理的2.4 梯度下降法-深度学习-Stanford吴恩达教授的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。