當前位置：首頁 >

2.4 梯度下降法-深度学习-Stanford吴恩达教授

發(fā)布時間：2025/4/5 35 豆豆

生活随笔收集整理的這篇文章主要介紹了 2.4 梯度下降法-深度学习-Stanford吴恩达教授小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

2.3 Logistic 回歸損失函數(shù)

回到目錄

2.5 導數(shù)

梯度下降法 (Gradient Descent)

梯度下降法可以做什么？

在你測試集上，通過最小化代價函數(shù)（成本函數(shù)） $J (w, b)$ 來訓練的參數(shù) $w$ 和 $b$ ，

如圖，在第二行給出和之前一樣的邏輯回歸算法的代價函數(shù)（成本函數(shù)）

梯度下降法的形象化說明

在這個圖中，橫軸表示你的空間參數(shù) $w$ 和 $b$ ，在實踐中， $w$ 可以是更高的維度，但是為了更好地繪圖，我們定義 $w$ 和 $b$ ，都是單一實數(shù)，代價函數(shù)（成本函數(shù)） $J (w, b)$ 是在水平軸 $w$ 和 $b$ 上的曲面，因此曲面的高度就是 $J (w, b)$ 在某一點的函數(shù)值。我們所做的就是找到使得代價函數(shù)（成本函數(shù)） $J (w, b)$ 函數(shù)值是最小值，對應(yīng)的參數(shù) $w$ 和 $b$ 。

如圖，代價函數(shù)（成本函數(shù)） $J (w, b)$ 是一個凸函數(shù)(convex function)，像一個大碗一樣。

如圖，這就與剛才的圖有些相反，因為它是非凸的并且有很多不同的局部最小值。由于邏輯回歸的代價函數(shù)（成本函數(shù)） $J (w, b)$ 特性，我們必須定義代價函數(shù)（成本函數(shù)） $J (w, b)$ 為凸函數(shù)。 初始化 $w$ 和 $b$ ，

可以用如圖那個小紅點來初始化參數(shù) $w$ 和 $b$ ，也可以采用隨機初始化的方法，對于邏輯回歸幾乎所有的初始化方法都有效，因為函數(shù)是凸函數(shù)，無論在哪里初始化，應(yīng)該達到同一點或大致相同的點。

我們以如圖的小紅點的坐標來初始化參數(shù) $w$ 和 $b$ 。

2. 朝最陡的下坡方向走一步，不斷地迭代

我們朝最陡的下坡方向走一步，如圖，走到了如圖中第二個小紅點處。

我們可能停在這里也有可能繼續(xù)朝最陡的下坡方向再走一步，如圖，經(jīng)過兩次迭代走到第三個小紅點處。

3.直到走到全局最優(yōu)解或者接近全局最優(yōu)解的地方

通過以上的三個步驟我們可以找到全局最優(yōu)解，也就是代價函數(shù)（成本函數(shù)） $J (w, b)$ 這個凸函數(shù)的最小值點。

梯度下降法的細節(jié)化說明（僅有一個參數(shù)）

假定代價函數(shù)（成本函數(shù)） $J (w)$ 只有一個參數(shù) $w$ ，即用一維曲線代替多維曲線，這樣可以更好畫出圖像。

迭代就是不斷重復做如圖的公式:

$: =$ 表示更新參數(shù),

$α\alpha$ 表示學習率（learning rate），用來控制步長（step），即向下走一步的長度 $dJ(w)dw\frac{dJ(w)}{dw}$ 就是函數(shù) $J (w)$ 對 $w$ 求導（derivative），在代碼中我們會使用 $d w$ 表示這個結(jié)果

對于導數(shù)更加形象化的理解就是斜率（slope），如圖該點的導數(shù)就是這個點相切于 $J (w)$ 的小三角形的高除寬。假設(shè)我們以如圖點為初始化點，該點處的斜率的符號是正的，即 $dJ(w)dw>0\frac{dJ(w)}{dw}>0$ ，所以接下來會向左走一步。

整個梯度下降法的迭代過程就是不斷地向左走，直至逼近最小值點。

假設(shè)我們以如圖點為初始化點，該點處的斜率的符號是負的，即 $dJ(w)dw<0\frac{dJ(w)}{dw}<0$ ，所以接下來會向右走一步。

整個梯度下降法的迭代過程就是不斷地向右走，即朝著最小值點方向走。

梯度下降法的細節(jié)化說明（兩個參數(shù)）

邏輯回歸的代價函數(shù)（成本函數(shù)） $J (w, b)$ 是含有兩個參數(shù)的。

$?\partial$ 表示求偏導符號，可以讀作round， $?J(w,b)?w\frac{\partial J(w,b)}{\partial w}$ 就是函數(shù) $J (w, b)$ 對 $w$ 求偏導，在代碼中我們會使用 $d w$ 表示這個結(jié)果， $?J(w,b)?b\frac{\partial J(w,b)}{\partial b}$ 就是函數(shù) $J (w, b)$ 對 $b$ 求偏導，在代碼中我們會使用 $d b$ 表示這個結(jié)果，小寫字母 $d$ 用在求導數(shù)（derivative），即函數(shù)只有一個參數(shù)，偏導數(shù)符號 $?\partial$ 用在求偏導（partial derivative），即函數(shù)含有兩個以上的參數(shù)。

課程PPT

2.3 Logistic 回歸損失函數(shù)

回到目錄

2.5 導數(shù)

總結(jié)

以上是生活随笔為你收集整理的2.4 梯度下降法-深度学习-Stanford吴恩达教授的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 2.3 Logistic 回归损失函数-
下一篇： 2.5 导数-深度学习-Stanford

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

2.4 梯度下降法-深度学习-Stanford吴恩达教授

梯度下降法 (Gradient Descent)

課程PPT

總結(jié)