深度学习入门笔记(二):神经网络基础
歡迎關(guān)注WX公眾號(hào):【程序員管小亮】
專欄——深度學(xué)習(xí)入門筆記
聲明
1)該文章整理自網(wǎng)上的大牛和機(jī)器學(xué)習(xí)專家無私奉獻(xiàn)的資料,具體引用的資料請(qǐng)看參考文獻(xiàn)。
2)本文僅供學(xué)術(shù)交流,非商用。所以每一部分具體的參考資料并沒有詳細(xì)對(duì)應(yīng)。如果某部分不小心侵犯了大家的利益,還望海涵,并聯(lián)系博主刪除。
3)博主才疏學(xué)淺,文中如有不當(dāng)之處,請(qǐng)各位指出,共同進(jìn)步,謝謝。
4)此屬于第一版本,若有錯(cuò)誤,還需繼續(xù)修正與增刪。還望大家多多指點(diǎn)。大家都共享一點(diǎn)點(diǎn),一起為祖國科研的推進(jìn)添磚加瓦。
文章目錄
- 歡迎關(guān)注WX公眾號(hào):【程序員管小亮】
- 專欄——深度學(xué)習(xí)入門筆記
- 聲明
- 深度學(xué)習(xí)入門筆記(二):神經(jīng)網(wǎng)絡(luò)基礎(chǔ)
- 1、二分類
- 2、邏輯回歸
- 3、邏輯回歸的代價(jià)函數(shù)
- 4、梯度下降法
- 梯度下降法可以做什么?
- 梯度下降法的形象化說明
- 梯度下降法的細(xì)節(jié)化說明
- 梯度下降法的具體化說明
- 5、邏輯回歸的梯度下降
- 6、m 個(gè)樣本的梯度下降
- 推薦閱讀
- 參考文章
深度學(xué)習(xí)入門筆記(二):神經(jīng)網(wǎng)絡(luò)基礎(chǔ)
1、二分類
下面要學(xué)習(xí)的是神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識(shí),其中需要注意的是,當(dāng)實(shí)現(xiàn)一個(gè)神經(jīng)網(wǎng)絡(luò)的時(shí)候,需要知道一些非常重要的技術(shù)和技巧,閑言少敘,直接開搞。
邏輯回歸(logistic regression) 是一個(gè)用于 二分類(binary classification) 的算法。首先從一個(gè)問題——貓咪識(shí)別開始說起,如果識(shí)別這張圖片為貓,則輸出標(biāo)簽1作為結(jié)果;如果識(shí)別出不是貓,那么輸出標(biāo)簽0作為結(jié)果。用字母 yyy 來表示輸出的結(jié)果標(biāo)簽,如下圖所示:
如上圖所示,一張圖片在計(jì)算機(jī)中對(duì)應(yīng)三個(gè)矩陣,分別對(duì)應(yīng)圖片中的紅、綠、藍(lán)三種顏色通道,且圖片大小與三個(gè)矩陣相同,分別對(duì)應(yīng)圖片中紅、綠、藍(lán)三種像素的強(qiáng)度值。
為了把這些像素值轉(zhuǎn)換為 特征向量 xxx,需要定義特征向量表示圖片,把像素都取出來,也就是矩陣中的數(shù)據(jù),例如255、231等等,取完紅色像素接著是綠色像素,最后是藍(lán)色像素,直到得到特征向量,也就是圖片中紅、綠、藍(lán)像素排列的值。如果圖片的大小為64x64像素,那么 xxx 的總維度,是64 * 64 * 3,也即是三個(gè)像素矩陣中的像素總量(12288)。
現(xiàn)在用 nx=12288n_x=12288nx?=12288 來表示輸入特征向量的維度,有時(shí)為了簡潔,直接用小寫的 nnn 來表示。所以二分類問題中,最終的目標(biāo)就是習(xí)得一個(gè)分類器,以圖片特征向量作輸入,預(yù)測輸出結(jié)果 yyy 是1還是0,即預(yù)測圖片中是否有貓。
符號(hào)定義 :
xxx:表示一個(gè) nxn_xnx? 維數(shù)據(jù),為輸入數(shù)據(jù),維度為 (nx,1)(n_x,1)(nx?,1);
yyy:表示輸出結(jié)果,取值為 (0,1)(0,1)(0,1);
(x(i),y(i))(x^{(i)},y^{(i)})(x(i),y(i)):表示第 iii 組數(shù)據(jù),可能是訓(xùn)練數(shù)據(jù),也可能是測試數(shù)據(jù),此處默認(rèn)為訓(xùn)練數(shù)據(jù);
X=[x(1),x(2),...,x(m)]X=[x^{(1)},x^{(2)},...,x^{(m)}]X=[x(1),x(2),...,x(m)]:表示所有的訓(xùn)練數(shù)據(jù)集的輸入值,放在一個(gè) nx×mn_x×mnx?×m 的矩陣中,其中 mmm 表示樣本數(shù)目;
Y=[y(1),y(2),...,y(m)]Y=[y^{(1)},y^{(2)},...,y^{(m)}]Y=[y(1),y(2),...,y(m)]:對(duì)應(yīng)表示所有訓(xùn)練數(shù)據(jù)集的輸出值,維度為 1×m1×m1×m。
2、邏輯回歸
對(duì)于二元分類問題,給定輸入特征向量 XXX,它可能對(duì)應(yīng)一張圖片,如果想識(shí)別這張圖片是否是貓的圖片,怎么做?
定義算法的輸出預(yù)測為 y^\hat{y}y^?,也就是對(duì)實(shí)際值 yyy 的估計(jì)。更正式地來說,y^\hat{y}y^? 表示 yyy 等于1的一種可能性或者是幾率,當(dāng)然,前提條件是給定了輸入特征 XXX。
上面說過 XXX 是一個(gè) nxn_xnx? 維的向量,相當(dāng)于有 nxn_xnx? 個(gè)特征的特征向量。www 表示邏輯回歸的參數(shù),也是一個(gè) nxn_xnx? 維向量,因?yàn)?www 實(shí)際上是 特征權(quán)重,維度與特征向量相同。參數(shù)里面還有 bbb,是一個(gè)實(shí)數(shù),表示偏差。所以給出輸入以及參數(shù)后,一個(gè)可以嘗試卻不可行的結(jié)果是 y^=wTx+b\hat{y}={{w}^{T}}x+by^?=wTx+b。
為什么說可以嘗試,卻不可行呢?注意,這時(shí)得到的實(shí)際上是線性回歸時(shí)用到的一個(gè)關(guān)于輸入 xxx 的線性函數(shù),但這對(duì)二元分類問題來講,卻不是一個(gè)非常好的算法。因?yàn)?y^\hat{y}y^? 表示實(shí)際值 yyy 等于1的幾率,也就是說 y^\hat{y}y^? 應(yīng)該在0到1之間。
這是一個(gè)需要解決的問題,因?yàn)?wTx+b{{w}^{T}}x+bwTx+b 可能比1要大得多,更有甚者,可能是一個(gè)負(fù)值,但是我們想要的是一個(gè)概率。因此,在邏輯回歸中,輸出是 y^\hat{y}y^? 作為自變量的 sigmoid 函數(shù)的輸出值。有點(diǎn)繞,其實(shí)簡單來說, y^=sigmoid(y)\hat{y} = sigmoid(y)y^?=sigmoid(y)。
如上圖所示,就是 sigmoid 函數(shù)的圖像,它平滑地從0走向1,這里的作用其實(shí)還是把線性函數(shù)轉(zhuǎn)換為非線性函數(shù)。
關(guān)于 sigmoid 函數(shù)的公式是這樣的
σ(z)=11+e?z\sigma \left( z \right)=\frac{1}{1+{{e}^{-z}}}σ(z)=1+e?z1?
這里要注意的是,從圖像可以看出兩點(diǎn):
- 如果 zzz 非常大,那么 e?z{{e}^{-z}}e?z 將會(huì)接近于0,σ(z)\sigma \left( z \right)σ(z) 會(huì)非常接近1。
- 相反地,如果zzz 非常小或者一個(gè)絕對(duì)值很大的負(fù)數(shù),那么 e?z{{e}^{-z}}e?z 會(huì)變得很大,σ(z)\sigma \left( z \right)σ(z) 就接近于0。
因此當(dāng)實(shí)現(xiàn)邏輯回歸時(shí),y^\hat{y}y^? 在0到1之間,成為對(duì) y=1y=1y=1 概率的一個(gè)很好的估計(jì)。
3、邏輯回歸的代價(jià)函數(shù)
為什么需要代價(jià)函數(shù)(也翻譯作成本函數(shù))?
為了訓(xùn)練邏輯回歸模型,得到參數(shù) www和參數(shù) bbb。
看到這里你可能有點(diǎn)蒙逼,先來看一下?lián)p失函數(shù)吧,你可能會(huì)問那 什么是損失函數(shù)? 損失函數(shù)又叫做 誤差函數(shù),用來衡量算法的運(yùn)行情況,Loss function:L(y^,y)L\left( \hat{y},y \right)L(y^?,y).。通過這個(gè) LLL,也就是損失函數(shù),來衡量預(yù)測輸出值和實(shí)際值有多接近。
一般的損失函數(shù)有預(yù)測值和實(shí)際值的平方差或者它們平方差的一半,但是通常在邏輯回歸中不這么做,為什么?因?yàn)樵趯W(xué)習(xí)邏輯回歸參數(shù)時(shí),會(huì)發(fā)現(xiàn)優(yōu)化目標(biāo)不是 凸優(yōu)化(在凸優(yōu)化中局部最優(yōu)值必定是全局最優(yōu)值),只能找到多個(gè)局部最優(yōu)值,很可能找不到全局最優(yōu)值。所以雖然平方差是一個(gè)不錯(cuò)的損失函數(shù),但在邏輯回歸模型中定義的是另外一個(gè)損失函數(shù),即
L(y^,y)=?ylog?(y^)?(1?y)log?(1?y^)L\left( \hat{y},y \right)=-y\log(\hat{y})-(1-y)\log (1-\hat{y})L(y^?,y)=?ylog(y^?)?(1?y)log(1?y^?)
為什么要用這個(gè)函數(shù)作為邏輯損失函數(shù)?來舉兩個(gè)例子你就懂了,首先確定一件事,無論解決什么問題,你肯定想要誤差盡可能地小。好了,現(xiàn)在來看例子吧:
-
當(dāng) y=1y=1y=1 時(shí)損失函數(shù) L=?log?(y^)L=-\log (\hat{y})L=?log(y^?),如果想要損失函數(shù) LLL 盡可能得小,那么 y^\hat{y}y^? 就要盡可能大,因?yàn)?sigmoid 函數(shù)取值 [0,1][0,1][0,1],所以 y^\hat{y}y^? 會(huì)無限接近于1。
-
當(dāng) y=0y=0y=0 時(shí)損失函數(shù) L=?log?(1?y^)L=-\log (1-\hat{y})L=?log(1?y^?),如果想要損失函數(shù) LLL 盡可能得小,那么 y^\hat{y}y^? 就要盡可能小,因?yàn)?sigmoid 函數(shù)取值 [0,1][0,1][0,1],所以 y^\hat{y}y^? 會(huì)無限接近于0。
而在邏輯回歸中,我們期待的輸出就是1或者0,是不是這個(gè)損失函數(shù)更好呢? 😃
可以看出來,損失函數(shù)是在單個(gè)訓(xùn)練樣本中定義的,它衡量的是算法在單個(gè)訓(xùn)練樣本中表現(xiàn)如何。那么怎么衡量算法在全部訓(xùn)練樣本上的表現(xiàn)如何?
需要定義一個(gè)算法的 代價(jià)函數(shù),算法的代價(jià)函數(shù),是對(duì) mmm 個(gè)樣本的損失函數(shù)求和,然后除以 mmm:
J(w,b)=1m∑i=1mL(y^(i),y(i))=1m∑i=1m(?y(i)log?y^(i)?(1?y(i))log?(1?y^(i)))J\left( w,b \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{L\left( {{{\hat{y}}}^{(i)}},{{y}^{(i)}} \right)}=\frac{1}{m}\sum\limits_{i=1}^{m}{\left( -{{y}^{(i)}}\log {{{\hat{y}}}^{(i)}}-(1-{{y}^{(i)}})\log (1-{{{\hat{y}}}^{(i)}}) \right)}J(w,b)=m1?i=1∑m?L(y^?(i),y(i))=m1?i=1∑m?(?y(i)logy^?(i)?(1?y(i))log(1?y^?(i)))
在訓(xùn)練邏輯回歸模型時(shí),找到合適的 www 和 bbb,來讓代價(jià)函數(shù) JJJ 的總代價(jià)降到最低即為所求。
4、梯度下降法
梯度下降法可以做什么?
在測試集上,通過最小化 代價(jià)函數(shù)(成本函數(shù)) J(w,b)J(w,b)J(w,b) 來訓(xùn)練的參數(shù) www 和 bbb。
梯度下降法的形象化說明
在這個(gè)圖中,橫軸表示空間參數(shù) www 和 bbb,代價(jià)函數(shù)(成本函數(shù))J(w,b)J(w,b)J(w,b) 是曲面,因此曲面高度就是 J(w,b)J(w,b)J(w,b) 在某一點(diǎn)的函數(shù)值。
而深度學(xué)習(xí)的最終目標(biāo)就是找到代價(jià)函數(shù)(成本函數(shù))J(w,b)J(w,b)J(w,b) 函數(shù)值為最小值時(shí)對(duì)應(yīng)的參數(shù) www 和 bbb。梯度下降 可以分為三個(gè)步驟:
1. 隨機(jī)初始化兩個(gè)參數(shù)
以如圖小紅點(diǎn)的坐標(biāo)來初始化參數(shù) www 和 bbb。
開始尋找代價(jià)函數(shù)(成本函數(shù))J(w,b)J(w,b)J(w,b) 函數(shù)值的最小值。
2. 朝最陡的下坡方向走一步,不斷地迭代
朝最陡的下坡方向走一步,如圖,走到了如圖中第二個(gè)小紅點(diǎn)處。
可能停在這里,也有可能繼續(xù)朝最陡的下坡方向再走一步,如圖,經(jīng)過兩次迭代走到第三個(gè)小紅點(diǎn)處。
3.直到走到全局最優(yōu)解或者接近全局最優(yōu)解的地方
通過重復(fù)以上的步驟,可以找到全局最優(yōu)解,也就是代價(jià)函數(shù)(成本函數(shù))J(w,b)J(w,b)J(w,b) 這個(gè)凸函數(shù)的最小值點(diǎn)。
梯度下降法的細(xì)節(jié)化說明
邏輯回歸的代價(jià)函數(shù)(成本函數(shù))J(w,b)J(w,b)J(w,b) 是含有兩個(gè)參數(shù)的。
簡要說明一下式子中的符號(hào),?\partial? 表示求偏導(dǎo)符號(hào),可以讀作 round;?J(w,b)?w\frac{\partial J(w,b)}{\partial w}?w?J(w,b)? 就是函數(shù) J(w,b)J(w,b)J(w,b) 對(duì)www 求偏導(dǎo),在代碼中為 dwdwdw;?J(w,b)?b\frac{\partial J(w,b)}{\partial b}?b?J(w,b)? 就是函數(shù) J(w,b)J(w,b)J(w,b)對(duì)bbb 求偏導(dǎo),在代碼中為 dbdbdb。
其實(shí)無論是 ddd 還是 ?\partial? 都是求導(dǎo)數(shù)的意思,那么二者的區(qū)別是什么呢?
- ddd 用在 求導(dǎo)數(shù)(derivative),即函數(shù)只有一個(gè)參數(shù)
- ?\partial? 用在 求偏導(dǎo)(partial derivative),即函數(shù)含有兩個(gè)以上的參數(shù)
梯度下降法的具體化說明
梯度下降是如何進(jìn)行的呢?這里任選一參數(shù) www 進(jìn)行舉例:假定代價(jià)函數(shù)(成本函數(shù))J(w)J(w)J(w) 只有一個(gè)參數(shù)www,即用一維曲線代替多維曲線,這樣可以更好畫出如下圖像。
迭代就是不斷重復(fù)做如圖的公式:
其中,:= 表示更新參數(shù);aaa 表示 學(xué)習(xí)率(learning rate),用來控制 步長(step);dJ(w)dw\frac{dJ(w)}{dw}dwdJ(w)? 就是函數(shù) J(w)J(w)J(w) 對(duì) www 求導(dǎo)(derivative),在代碼中為 dwdwdw。對(duì)于導(dǎo)數(shù)更加形象化的理解就是 斜率(slope)。
如圖該點(diǎn)的導(dǎo)數(shù)就是這個(gè)點(diǎn)相切于 J(w)J(w)J(w) 的小三角形的高除寬(這是高中數(shù)學(xué)學(xué)過的,不會(huì)的去百度——導(dǎo)數(shù))。假設(shè)初始化如圖點(diǎn)為起始點(diǎn),該點(diǎn)處的斜率的符號(hào)是正,即 dJ(w)dw>0\frac{dJ(w)}{dw}>0dwdJ(w)?>0,所以接下來會(huì)向左走一步(假設(shè)該點(diǎn)處的斜率的符號(hào)是負(fù)的,則會(huì)向右走一步),如圖:
不斷地向左走,直至逼近最小值點(diǎn),這就是梯度下降法的迭代過程。
5、邏輯回歸的梯度下降
邏輯回歸的梯度下降算法,關(guān)鍵點(diǎn)是幾個(gè)重要公式,雖然使用計(jì)算圖來計(jì)算邏輯回歸的梯度下降算法有點(diǎn)大材小用了,具體什么是導(dǎo)數(shù),什么是計(jì)算圖,可以看這個(gè)博客——深度學(xué)習(xí)入門筆記(三):數(shù)學(xué)基礎(chǔ)之求導(dǎo)數(shù)。
下面來完完整整地進(jìn)行這個(gè)梯度下降算法的過程演示,相信我,跟著你就能全懂了。
假設(shè),單個(gè)樣本樣本只有兩個(gè)特征 x1{{x}_{1}}x1? 和 x2{{x}_{2}}x2?,為了計(jì)算 zzz,需要輸入?yún)?shù) w1{{w}_{1}}w1?、w2{{w}_{2}}w2? 和 bbb。
因此 z=w1x1+w2x2+bz={{w}_{1}}{{x}_{1}}+{{w}_{2}}{{x}_{2}}+bz=w1?x1?+w2?x2?+b。
回想一下邏輯回歸的公式定義如下:y^=a=σ(z)\hat{y}=a=\sigma (z)y^?=a=σ(z),其中z=wTx+bz={{w}^{T}}x+bz=wTx+b、σ(z)=11+e?z\sigma \left( z \right)=\frac{1}{1+{{e}^{-z}}}σ(z)=1+e?z1?。
損失函數(shù) L(y^(i),y(i))=?y(i)log?y^(i)?(1?y(i))log?(1?y^(i))L( {{{\hat{y}}}^{(i)}},{{y}^{(i)}})=-{{y}^{(i)}}\log {{\hat{y}}^{(i)}}-(1-{{y}^{(i)}})\log (1-{{\hat{y}}^{(i)}})L(y^?(i),y(i))=?y(i)logy^?(i)?(1?y(i))log(1?y^?(i))。
代價(jià)函數(shù) J(w,b)=1m∑imL(y^(i),y(i))J\left( w,b \right)=\frac{1}{m}\sum\nolimits_{i}^{m}{L( {{{\hat{y}}}^{(i)}},{{y}^{(i)}})}J(w,b)=m1?∑im?L(y^?(i),y(i))。
若只考慮單個(gè)樣本,代價(jià)函數(shù)變?yōu)?L(a,y)=?(ylog?(a)+(1?y)log?(1?a))L(a,y)=-(y\log (a)+(1-y)\log (1-a))L(a,y)=?(ylog(a)+(1?y)log(1?a))。
梯度下降法中 www 和 bbb 的修正表達(dá)為 w:=w?a?J(w,b)?ww:=w-a \frac{\partial J(w,b)}{\partial w}w:=w?a?w?J(w,b)?,b:=b?a?J(w,b)?bb:=b-a\frac{\partial J(w,b)}{\partial b}b:=b?a?b?J(w,b)?。
現(xiàn)在畫出表示這個(gè)計(jì)算過程的計(jì)算圖,如下:
有了計(jì)算圖,就不需要再寫出公式了,只需修改參數(shù) www 和 bbb。前面已經(jīng)講解了前向傳播,現(xiàn)在來說一下反向傳播。
想要計(jì)算出代價(jià)函數(shù) L(a,y)L(a,y)L(a,y) 的導(dǎo)數(shù),可以使用鏈?zhǔn)椒▌t。
首先計(jì)算出 L(a,y)L(a,y)L(a,y) 關(guān)于 aaa 的導(dǎo)數(shù)。通過計(jì)算可以得出
dL(a,y)da=?y/a+(1?y)/(1?a)\frac{dL(a,y)}{da}=-y/a+(1-y)/(1-a)dadL(a,y)?=?y/a+(1?y)/(1?a)
而
dadz=a?(1?a)\frac{da}{dz}=a\cdot (1-a)dzda?=a?(1?a)
因此將這兩項(xiàng)相乘,得到:
dz=dL(a,y)dz=dLdz=(dLda)?(dadz)=(?ya+(1?y)(1?a))?a(1?a)=a?y{dz} = \frac{{dL}(a,y)}{{dz}} = \frac{{dL}}{{dz}} = \left( \frac{{dL}}{{da}} \right) \cdot \left(\frac{{da}}{{dz}} \right) = ( - \frac{y}{a} + \frac{(1 - y)}{(1 - a)})\cdot a(1 - a) = a - ydz=dzdL(a,y)?=dzdL?=(dadL?)?(dzda?)=(?ay?+(1?a)(1?y)?)?a(1?a)=a?y
肯定會(huì)有小伙伴說自己不太會(huì)微積分,不知道鏈?zhǔn)椒▌t。Don‘t worry!!!只需知道 dz=(a?y)dz=(a-y)dz=(a?y) 已經(jīng)計(jì)算好了,拿來主義,直接拿過來用就可以了。
最后一步反向推導(dǎo),也就是計(jì)算 www 和 bbb 變化對(duì)代價(jià)函數(shù) LLL 的影響
dw1=x1?dzd{{w}_{1}}={{x}_{1}}\cdot dzdw1?=x1??dz
dw2=x2?dzd{{w}_{\text{2}}}={{x}_{2}}\cdot dzdw2?=x2??dz
db=dzdb=dzdb=dz
然后更新
w1=w1?adw1{{w}_{1}}={{w}_{1}}-a d{{w}_{1}}w1?=w1??adw1?
w2=w2?adw2{{w}_{2}}={{w}_{2}}-a d{{w}_{2}}w2?=w2??adw2?
b=b?αdbb=b-\alpha dbb=b?αdb
這就是單個(gè)樣本實(shí)例的梯度下降算法中參數(shù)更新一次的步驟,深度學(xué)習(xí)的過程可以簡單理解為重復(fù)迭代優(yōu)化的過程(肯定不準(zhǔn)確,就是為了先理解一下而已)。吳恩達(dá)老師畫的圖,直觀的體現(xiàn)了整個(gè)過程:
6、m 個(gè)樣本的梯度下降
我們想要的,肯定不是單個(gè)樣本,而是在 mmm 個(gè)訓(xùn)練樣本上,也就是訓(xùn)練集上。
首先,關(guān)于算法的帶求和的全局代價(jià)函數(shù) J(w,b)J(w,b)J(w,b) 的定義如下:
J(w,b)=1m∑i=1mL(a(i),y(i))J(w,b)=\frac{1}{m}\sum\limits_{i=1}^{m}{L({{a}^{(i)}},{{y}^{(i)}})}J(w,b)=m1?i=1∑m?L(a(i),y(i))
實(shí)際上是1到 mmm 項(xiàng)各個(gè)損失的平均,所以對(duì) w1{{w}_{1}}w1? 的微分,對(duì) w1{{w}_{1}}w1? 的微分,也同樣是各項(xiàng)損失對(duì) w1{{w}_{1}}w1? 微分的平均。
吳恩達(dá)老師手寫稿如下:
而代價(jià)函數(shù)對(duì)權(quán)重向量 θθθ 求導(dǎo)過程如下,損失函數(shù)為交叉熵?fù)p失函數(shù),整個(gè)過程如下:
通過 向量化 就可以得到
因此更新公式為:
推薦閱讀
- 深度學(xué)習(xí)入門筆記(一):深度學(xué)習(xí)引言
- 深度學(xué)習(xí)入門筆記(二):神經(jīng)網(wǎng)絡(luò)基礎(chǔ)
- 深度學(xué)習(xí)入門筆記(三):求導(dǎo)和計(jì)算圖
- 深度學(xué)習(xí)入門筆記(四):向量化
- 深度學(xué)習(xí)入門筆記(五):神經(jīng)網(wǎng)絡(luò)的編程基礎(chǔ)
- 深度學(xué)習(xí)入門筆記(六):淺層神經(jīng)網(wǎng)絡(luò)
- 深度學(xué)習(xí)入門筆記(七):深層神經(jīng)網(wǎng)絡(luò)
- 深度學(xué)習(xí)入門筆記(八):深層網(wǎng)絡(luò)的原理
- 深度學(xué)習(xí)入門筆記(九):深度學(xué)習(xí)數(shù)據(jù)處理
- 深度學(xué)習(xí)入門筆記(十):正則化
- 深度學(xué)習(xí)入門筆記(十一):權(quán)重初始化
- 深度學(xué)習(xí)入門筆記(十二):深度學(xué)習(xí)數(shù)據(jù)讀取
- 深度學(xué)習(xí)入門筆記(十三):批歸一化(Batch Normalization)
- 深度學(xué)習(xí)入門筆記(十四):Softmax
- 深度學(xué)習(xí)入門筆記(十五):深度學(xué)習(xí)框架(TensorFlow和Pytorch之爭)
- 深度學(xué)習(xí)入門筆記(十六):計(jì)算機(jī)視覺之邊緣檢測
- 深度學(xué)習(xí)入門筆記(十七):深度學(xué)習(xí)的極限在哪?
- 深度學(xué)習(xí)入門筆記(十八):卷積神經(jīng)網(wǎng)絡(luò)(一)
- 深度學(xué)習(xí)入門筆記(十九):卷積神經(jīng)網(wǎng)絡(luò)(二)
- 深度學(xué)習(xí)入門筆記(二十):經(jīng)典神經(jīng)網(wǎng)絡(luò)(LeNet-5、AlexNet和VGGNet)
參考文章
- 吳恩達(dá)——《神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)》視頻課程
總結(jié)
以上是生活随笔為你收集整理的深度学习入门笔记(二):神经网络基础的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ES6-Promise实时获取地址和天气
- 下一篇: 深度学习入门笔记(一):深度学习引言