當(dāng)前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

深度学习入门笔记（二）：神经网络基础

發(fā)布時(shí)間：2023/12/14 pytorch 41 豆豆

生活随笔收集整理的這篇文章主要介紹了深度学习入门笔记（二）：神经网络基础小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

歡迎關(guān)注WX公眾號(hào)：【程序員管小亮】

專欄——深度學(xué)習(xí)入門筆記

聲明

1）該文章整理自網(wǎng)上的大牛和機(jī)器學(xué)習(xí)專家無私奉獻(xiàn)的資料，具體引用的資料請(qǐng)看參考文獻(xiàn)。
2）本文僅供學(xué)術(shù)交流，非商用。所以每一部分具體的參考資料并沒有詳細(xì)對(duì)應(yīng)。如果某部分不小心侵犯了大家的利益，還望海涵，并聯(lián)系博主刪除。
3）博主才疏學(xué)淺，文中如有不當(dāng)之處，請(qǐng)各位指出，共同進(jìn)步，謝謝。
4）此屬于第一版本，若有錯(cuò)誤，還需繼續(xù)修正與增刪。還望大家多多指點(diǎn)。大家都共享一點(diǎn)點(diǎn)，一起為祖國科研的推進(jìn)添磚加瓦。

文章目錄

歡迎關(guān)注WX公眾號(hào)：【程序員管小亮】
- 專欄——深度學(xué)習(xí)入門筆記
- 聲明
- 深度學(xué)習(xí)入門筆記（二）：神經(jīng)網(wǎng)絡(luò)基礎(chǔ)
- - 1、二分類
  - 2、邏輯回歸
  - 3、邏輯回歸的代價(jià)函數(shù)
  - 4、梯度下降法
  - - - 梯度下降法可以做什么？
      - 梯度下降法的形象化說明
      - 梯度下降法的細(xì)節(jié)化說明
      - 梯度下降法的具體化說明
  - 5、邏輯回歸的梯度下降
  - 6、m 個(gè)樣本的梯度下降
- 推薦閱讀
- 參考文章

深度學(xué)習(xí)入門筆記（二）：神經(jīng)網(wǎng)絡(luò)基礎(chǔ)

1、二分類

下面要學(xué)習(xí)的是神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識(shí)，其中需要注意的是，當(dāng)實(shí)現(xiàn)一個(gè)神經(jīng)網(wǎng)絡(luò)的時(shí)候，需要知道一些非常重要的技術(shù)和技巧，閑言少敘，直接開搞。

邏輯回歸(logistic regression) 是一個(gè)用于 二分類(binary classification) 的算法。首先從一個(gè)問題——貓咪識(shí)別開始說起，如果識(shí)別這張圖片為貓，則輸出標(biāo)簽1作為結(jié)果；如果識(shí)別出不是貓，那么輸出標(biāo)簽0作為結(jié)果。用字母 $y$ 來表示輸出的結(jié)果標(biāo)簽，如下圖所示：

如上圖所示，一張圖片在計(jì)算機(jī)中對(duì)應(yīng)三個(gè)矩陣，分別對(duì)應(yīng)圖片中的紅、綠、藍(lán)三種顏色通道，且圖片大小與三個(gè)矩陣相同，分別對(duì)應(yīng)圖片中紅、綠、藍(lán)三種像素的強(qiáng)度值。

為了把這些像素值轉(zhuǎn)換為 特征向量 $x$ ，需要定義特征向量表示圖片，把像素都取出來，也就是矩陣中的數(shù)據(jù)，例如255、231等等，取完紅色像素接著是綠色像素，最后是藍(lán)色像素，直到得到特征向量，也就是圖片中紅、綠、藍(lán)像素排列的值。如果圖片的大小為64x64像素，那么 $x$ 的總維度，是64 * 64 * 3，也即是三個(gè)像素矩陣中的像素總量（12288）。

現(xiàn)在用 $n_x=12288$ 來表示輸入特征向量的維度，有時(shí)為了簡潔，直接用小寫的 $n$ 來表示。所以二分類問題中，最終的目標(biāo)就是習(xí)得一個(gè)分類器，以圖片特征向量作輸入，預(yù)測輸出結(jié)果 $y$ 是1還是0，即預(yù)測圖片中是否有貓。

符號(hào)定義 ：

$x$ ：表示一個(gè) $n_x$ 維數(shù)據(jù)，為輸入數(shù)據(jù)，維度為 $n_x,1)$ ；

$y$ ：表示輸出結(jié)果，取值為 $(0, 1)$ ；

$x^{(i)},y^{(i)})$ ：表示第 $i$ 組數(shù)據(jù)，可能是訓(xùn)練數(shù)據(jù)，也可能是測試數(shù)據(jù)，此處默認(rèn)為訓(xùn)練數(shù)據(jù)；

$X=[x^{(1)},x^{(2)},...,x^{(m)}]$ ：表示所有的訓(xùn)練數(shù)據(jù)集的輸入值，放在一個(gè) $n_x×m$ 的矩陣中，其中 $m$ 表示樣本數(shù)目;

$Y=[y^{(1)},y^{(2)},...,y^{(m)}]$ ：對(duì)應(yīng)表示所有訓(xùn)練數(shù)據(jù)集的輸出值，維度為 $1 \times m$ 。

2、邏輯回歸

對(duì)于二元分類問題，給定輸入特征向量 $X$ ，它可能對(duì)應(yīng)一張圖片，如果想識(shí)別這張圖片是否是貓的圖片，怎么做？

定義算法的輸出預(yù)測為 $y^\hat{y}$ ，也就是對(duì)實(shí)際值 $y$ 的估計(jì)。更正式地來說， $y^\hat{y}$ 表示 $y$ 等于1的一種可能性或者是幾率，當(dāng)然，前提條件是給定了輸入特征 $X$ 。

上面說過 $X$ 是一個(gè) $n_x$ 維的向量，相當(dāng)于有 $n_x$ 個(gè)特征的特征向量。 $w$ 表示邏輯回歸的參數(shù)，也是一個(gè) $n_x$ 維向量，因?yàn)? $w$ 實(shí)際上是 特征權(quán)重，維度與特征向量相同。參數(shù)里面還有 $b$ ，是一個(gè)實(shí)數(shù)，表示偏差。所以給出輸入以及參數(shù)后，一個(gè)可以嘗試卻不可行的結(jié)果是 $y^=wTx+b\hat{y}={{w}^{T}}x+b$ 。

為什么說可以嘗試，卻不可行呢？注意，這時(shí)得到的實(shí)際上是線性回歸時(shí)用到的一個(gè)關(guān)于輸入 $x$ 的線性函數(shù)，但這對(duì)二元分類問題來講，卻不是一個(gè)非常好的算法。因?yàn)? $y^\hat{y}$ 表示實(shí)際值 $y$ 等于1的幾率，也就是說 $y^\hat{y}$ 應(yīng)該在0到1之間。

這是一個(gè)需要解決的問題，因?yàn)? ${{w}^{T}}x+b$ 可能比1要大得多，更有甚者，可能是一個(gè)負(fù)值，但是我們想要的是一個(gè)概率。因此，在邏輯回歸中，輸出是 $y^\hat{y}$ 作為自變量的 sigmoid 函數(shù)的輸出值。有點(diǎn)繞，其實(shí)簡單來說， $y^=sigmoid(y)\hat{y} = sigmoid(y)$ 。

如上圖所示，就是 sigmoid 函數(shù)的圖像，它平滑地從0走向1，這里的作用其實(shí)還是把線性函數(shù)轉(zhuǎn)換為非線性函數(shù)。

關(guān)于 sigmoid 函數(shù)的公式是這樣的

$σ(z)=11+e?z\sigma \left( z \right)=\frac{1}{1+{{e}^{-z}}}$

這里要注意的是，從圖像可以看出兩點(diǎn)：

如果 $z$ 非常大，那么 ${{e}^{-z}}$ 將會(huì)接近于0， $σ(z)\sigma \left( z \right)$ 會(huì)非常接近1。
相反地，如果 $z$ 非常小或者一個(gè)絕對(duì)值很大的負(fù)數(shù)，那么 ${{e}^{-z}}$ 會(huì)變得很大， $σ(z)\sigma \left( z \right)$ 就接近于0。

因此當(dāng)實(shí)現(xiàn)邏輯回歸時(shí)， $y^\hat{y}$ 在0到1之間，成為對(duì) $y = 1$ 概率的一個(gè)很好的估計(jì)。

3、邏輯回歸的代價(jià)函數(shù)

為什么需要代價(jià)函數(shù)（也翻譯作成本函數(shù)）？

為了訓(xùn)練邏輯回歸模型，得到參數(shù) $w$ 和參數(shù) $b$ 。

看到這里你可能有點(diǎn)蒙逼，先來看一下?lián)p失函數(shù)吧，你可能會(huì)問那 什么是損失函數(shù)？ 損失函數(shù)又叫做 誤差函數(shù)，用來衡量算法的運(yùn)行情況，Loss function： $L(y^,y)L\left( \hat{y},y \right)$ .。通過這個(gè) $L$ ，也就是損失函數(shù)，來衡量預(yù)測輸出值和實(shí)際值有多接近。

一般的損失函數(shù)有預(yù)測值和實(shí)際值的平方差或者它們平方差的一半，但是通常在邏輯回歸中不這么做，為什么？因?yàn)樵趯W(xué)習(xí)邏輯回歸參數(shù)時(shí)，會(huì)發(fā)現(xiàn)優(yōu)化目標(biāo)不是 凸優(yōu)化（在凸優(yōu)化中局部最優(yōu)值必定是全局最優(yōu)值），只能找到多個(gè)局部最優(yōu)值，很可能找不到全局最優(yōu)值。所以雖然平方差是一個(gè)不錯(cuò)的損失函數(shù)，但在邏輯回歸模型中定義的是另外一個(gè)損失函數(shù)，即

$L(y^,y)=?ylog?(y^)?(1?y)log?(1?y^)L\left( \hat{y},y \right)=-y\log(\hat{y})-(1-y)\log (1-\hat{y})$

為什么要用這個(gè)函數(shù)作為邏輯損失函數(shù)？來舉兩個(gè)例子你就懂了，首先確定一件事，無論解決什么問題，你肯定想要誤差盡可能地小。好了，現(xiàn)在來看例子吧：

當(dāng) $y = 1$ 時(shí)損失函數(shù) $L=?log?(y^)L=-\log (\hat{y})$ ，如果想要損失函數(shù) $L$ 盡可能得小，那么 $y^\hat{y}$ 就要盡可能大，因?yàn)?sigmoid 函數(shù)取值 $[0, 1]$ ，所以 $y^\hat{y}$ 會(huì)無限接近于1。
當(dāng) $y = 0$ 時(shí)損失函數(shù) $L=?log?(1?y^)L=-\log (1-\hat{y})$ ，如果想要損失函數(shù) $L$ 盡可能得小，那么 $y^\hat{y}$ 就要盡可能小，因?yàn)?sigmoid 函數(shù)取值 $[0, 1]$ ，所以 $y^\hat{y}$ 會(huì)無限接近于0。

而在邏輯回歸中，我們期待的輸出就是1或者0，是不是這個(gè)損失函數(shù)更好呢？ 😃

可以看出來，損失函數(shù)是在單個(gè)訓(xùn)練樣本中定義的，它衡量的是算法在單個(gè)訓(xùn)練樣本中表現(xiàn)如何。那么怎么衡量算法在全部訓(xùn)練樣本上的表現(xiàn)如何？

需要定義一個(gè)算法的 代價(jià)函數(shù)，算法的代價(jià)函數(shù)，是對(duì) $m$ 個(gè)樣本的損失函數(shù)求和，然后除以 $m$ ：

$J(w,b)=1m∑i=1mL(y^(i),y(i))=1m∑i=1m(?y(i)log?y^(i)?(1?y(i))log?(1?y^(i)))J\left( w,b \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{L\left( {{{\hat{y}}}^{(i)}},{{y}^{(i)}} \right)}=\frac{1}{m}\sum\limits_{i=1}^{m}{\left( -{{y}^{(i)}}\log {{{\hat{y}}}^{(i)}}-(1-{{y}^{(i)}})\log (1-{{{\hat{y}}}^{(i)}}) \right)}$

在訓(xùn)練邏輯回歸模型時(shí)，找到合適的 $w$ 和 $b$ ，來讓代價(jià)函數(shù) $J$ 的總代價(jià)降到最低即為所求。

4、梯度下降法

梯度下降法可以做什么？

在測試集上，通過最小化 代價(jià)函數(shù)（成本函數(shù)） $J (w, b)$ 來訓(xùn)練的參數(shù) $w$ 和 $b$ 。

梯度下降法的形象化說明

在這個(gè)圖中，橫軸表示空間參數(shù) $w$ 和 $b$ ，代價(jià)函數(shù)（成本函數(shù)） $J (w, b)$ 是曲面，因此曲面高度就是 $J (w, b)$ 在某一點(diǎn)的函數(shù)值。

而深度學(xué)習(xí)的最終目標(biāo)就是找到代價(jià)函數(shù)（成本函數(shù)） $J (w, b)$ 函數(shù)值為最小值時(shí)對(duì)應(yīng)的參數(shù) $w$ 和 $b$ 。梯度下降 可以分為三個(gè)步驟：

1. 隨機(jī)初始化兩個(gè)參數(shù)

以如圖小紅點(diǎn)的坐標(biāo)來初始化參數(shù) $w$ 和 $b$ 。

開始尋找代價(jià)函數(shù)（成本函數(shù)） $J (w, b)$ 函數(shù)值的最小值。

2. 朝最陡的下坡方向走一步，不斷地迭代

朝最陡的下坡方向走一步，如圖，走到了如圖中第二個(gè)小紅點(diǎn)處。

可能停在這里，也有可能繼續(xù)朝最陡的下坡方向再走一步，如圖，經(jīng)過兩次迭代走到第三個(gè)小紅點(diǎn)處。

3.直到走到全局最優(yōu)解或者接近全局最優(yōu)解的地方

通過重復(fù)以上的步驟，可以找到全局最優(yōu)解，也就是代價(jià)函數(shù)（成本函數(shù)） $J (w, b)$ 這個(gè)凸函數(shù)的最小值點(diǎn)。

梯度下降法的細(xì)節(jié)化說明

邏輯回歸的代價(jià)函數(shù)（成本函數(shù)） $J (w, b)$ 是含有兩個(gè)參數(shù)的。

簡要說明一下式子中的符號(hào)， $?\partial$ 表示求偏導(dǎo)符號(hào)，可以讀作 round； $?J(w,b)?w\frac{\partial J(w,b)}{\partial w}$ 就是函數(shù) $J (w, b)$ 對(duì) $w$ 求偏導(dǎo)，在代碼中為 $d w$ ； $?J(w,b)?b\frac{\partial J(w,b)}{\partial b}$ 就是函數(shù) $J (w, b)$ 對(duì) $b$ 求偏導(dǎo)，在代碼中為 $d b$ 。

其實(shí)無論是 $d$ 還是 $?\partial$ 都是求導(dǎo)數(shù)的意思，那么二者的區(qū)別是什么呢？

$d$ 用在 求導(dǎo)數(shù)（derivative），即函數(shù)只有一個(gè)參數(shù)
$?\partial$ 用在 求偏導(dǎo)（partial derivative），即函數(shù)含有兩個(gè)以上的參數(shù)

梯度下降法的具體化說明

梯度下降是如何進(jìn)行的呢？這里任選一參數(shù) $w$ 進(jìn)行舉例：假定代價(jià)函數(shù)（成本函數(shù)） $J (w)$ 只有一個(gè)參數(shù) $w$ ，即用一維曲線代替多維曲線，這樣可以更好畫出如下圖像。

迭代就是不斷重復(fù)做如圖的公式：

其中，:= 表示更新參數(shù)； $a$ 表示 學(xué)習(xí)率（learning rate），用來控制 步長（step）； $dJ(w)dw\frac{dJ(w)}{dw}$ 就是函數(shù) $J (w)$ 對(duì) $w$ 求導(dǎo)（derivative），在代碼中為 $d w$ 。對(duì)于導(dǎo)數(shù)更加形象化的理解就是 斜率（slope）。

如圖該點(diǎn)的導(dǎo)數(shù)就是這個(gè)點(diǎn)相切于 $J (w)$ 的小三角形的高除寬（這是高中數(shù)學(xué)學(xué)過的，不會(huì)的去百度——導(dǎo)數(shù)）。假設(shè)初始化如圖點(diǎn)為起始點(diǎn)，該點(diǎn)處的斜率的符號(hào)是正，即 $dJ(w)dw>0\frac{dJ(w)}{dw}>0$ ，所以接下來會(huì)向左走一步（假設(shè)該點(diǎn)處的斜率的符號(hào)是負(fù)的，則會(huì)向右走一步），如圖：

不斷地向左走，直至逼近最小值點(diǎn)，這就是梯度下降法的迭代過程。

5、邏輯回歸的梯度下降

邏輯回歸的梯度下降算法，關(guān)鍵點(diǎn)是幾個(gè)重要公式，雖然使用計(jì)算圖來計(jì)算邏輯回歸的梯度下降算法有點(diǎn)大材小用了，具體什么是導(dǎo)數(shù)，什么是計(jì)算圖，可以看這個(gè)博客——深度學(xué)習(xí)入門筆記（三）：數(shù)學(xué)基礎(chǔ)之求導(dǎo)數(shù)。

下面來完完整整地進(jìn)行這個(gè)梯度下降算法的過程演示，相信我，跟著你就能全懂了。

假設(shè)，單個(gè)樣本樣本只有兩個(gè)特征 ${{x}_{1}}$ 和 ${{x}_{2}}$ ，為了計(jì)算 $z$ ，需要輸入?yún)?shù) ${{w}_{1}}$ 、 ${{w}_{2}}$ 和 $b$ 。

因此 $z={{w}_{1}}{{x}_{1}}+{{w}_{2}}{{x}_{2}}+b$ 。

回想一下邏輯回歸的公式定義如下： $y^=a=σ(z)\hat{y}=a=\sigma (z)$ ，其中 $z={{w}^{T}}x+b$ 、 $σ(z)=11+e?z\sigma \left( z \right)=\frac{1}{1+{{e}^{-z}}}$ 。

損失函數(shù) $L(y^(i),y(i))=?y(i)log?y^(i)?(1?y(i))log?(1?y^(i))L( {{{\hat{y}}}^{(i)}},{{y}^{(i)}})=-{{y}^{(i)}}\log {{\hat{y}}^{(i)}}-(1-{{y}^{(i)}})\log (1-{{\hat{y}}^{(i)}})$ 。

代價(jià)函數(shù) $J(w,b)=1m∑imL(y^(i),y(i))J\left( w,b \right)=\frac{1}{m}\sum\nolimits_{i}^{m}{L( {{{\hat{y}}}^{(i)}},{{y}^{(i)}})}$ 。

若只考慮單個(gè)樣本，代價(jià)函數(shù)變?yōu)? $L(a,y)=?(ylog?(a)+(1?y)log?(1?a))L(a,y)=-(y\log (a)+(1-y)\log (1-a))$ 。

梯度下降法中 $w$ 和 $b$ 的修正表達(dá)為 $\frac{\partial J(w,b)}{\partial w}$ ， $b:=b?a?J(w,b)?bb:=b-a\frac{\partial J(w,b)}{\partial b}$ 。

現(xiàn)在畫出表示這個(gè)計(jì)算過程的計(jì)算圖，如下：

有了計(jì)算圖，就不需要再寫出公式了，只需修改參數(shù) $w$ 和 $b$ 。前面已經(jīng)講解了前向傳播，現(xiàn)在來說一下反向傳播。

想要計(jì)算出代價(jià)函數(shù) $L (a, y)$ 的導(dǎo)數(shù)，可以使用鏈?zhǔn)椒▌t。

首先計(jì)算出 $L (a, y)$ 關(guān)于 $a$ 的導(dǎo)數(shù)。通過計(jì)算可以得出

$dL(a,y)da=?y/a+(1?y)/(1?a)\frac{dL(a,y)}{da}=-y/a+(1-y)/(1-a)$

而

$dadz=a?(1?a)\frac{da}{dz}=a\cdot (1-a)$

因此將這兩項(xiàng)相乘，得到：

$\frac{{dL}(a,y)}{{dz}} = \frac{{dL}}{{dz}} = \left( \frac{{dL}}{{da}} \right) \cdot \left(\frac{{da}}{{dz}} \right) = ( - \frac{y}{a} + \frac{(1 - y)}{(1 - a)})\cdot a(1 - a) = a - y$

肯定會(huì)有小伙伴說自己不太會(huì)微積分，不知道鏈?zhǔn)椒▌t。Don‘t worry！！！只需知道 $d z = (a ? y)$ 已經(jīng)計(jì)算好了，拿來主義，直接拿過來用就可以了。

最后一步反向推導(dǎo)，也就是計(jì)算 $w$ 和 $b$ 變化對(duì)代價(jià)函數(shù) $L$ 的影響

$dw1=x1?dzd{{w}_{1}}={{x}_{1}}\cdot dz$

$dw2=x2?dzd{{w}_{\text{2}}}={{x}_{2}}\cdot dz$

$d b = d z$

然后更新

${{w}_{1}}={{w}_{1}}-a d{{w}_{1}}$

${{w}_{2}}={{w}_{2}}-a d{{w}_{2}}$

$b=b?αdbb=b-\alpha db$

這就是單個(gè)樣本實(shí)例的梯度下降算法中參數(shù)更新一次的步驟，深度學(xué)習(xí)的過程可以簡單理解為重復(fù)迭代優(yōu)化的過程（肯定不準(zhǔn)確，就是為了先理解一下而已）。吳恩達(dá)老師畫的圖，直觀的體現(xiàn)了整個(gè)過程：

6、m 個(gè)樣本的梯度下降

我們想要的，肯定不是單個(gè)樣本，而是在 $m$ 個(gè)訓(xùn)練樣本上，也就是訓(xùn)練集上。

首先，關(guān)于算法的帶求和的全局代價(jià)函數(shù) $J (w, b)$ 的定義如下：

$J(w,b)=1m∑i=1mL(a(i),y(i))J(w,b)=\frac{1}{m}\sum\limits_{i=1}^{m}{L({{a}^{(i)}},{{y}^{(i)}})}$

實(shí)際上是1到 $m$ 項(xiàng)各個(gè)損失的平均，所以對(duì) ${{w}_{1}}$ 的微分，對(duì) ${{w}_{1}}$ 的微分，也同樣是各項(xiàng)損失對(duì) ${{w}_{1}}$ 微分的平均。

吳恩達(dá)老師手寫稿如下：

而代價(jià)函數(shù)對(duì)權(quán)重向量 $θ$ 求導(dǎo)過程如下，損失函數(shù)為交叉熵?fù)p失函數(shù)，整個(gè)過程如下：

通過 向量化 就可以得到

因此更新公式為：

參考文章

吳恩達(dá)——《神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)》視頻課程

總結(jié)

以上是生活随笔為你收集整理的深度学习入门笔记（二）：神经网络基础的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： ES6-Promise实时获取地址和天气
下一篇：深度学习入门笔记（一）：深度学习引言