3.2 神经网络表示-深度学习-Stanford吴恩达教授
| 3.1 神經(jīng)網(wǎng)絡(luò)概覽 | 回到目錄 | 3.3 計(jì)算神經(jīng)網(wǎng)絡(luò)的輸出 |
神經(jīng)網(wǎng)絡(luò)表示 (Neural Network Representation)
先回顧一下我在上一個(gè)視頻畫幾張神經(jīng)網(wǎng)絡(luò)的圖片,在這次課中我們將討論這些圖片的具體含義,也就是我們畫的這些神經(jīng)網(wǎng)絡(luò)到底代表什么。
我們首先關(guān)注一個(gè)例子,本例中的神經(jīng)網(wǎng)絡(luò)只包含一個(gè)隱藏層(圖3.2.1)。這是一張神經(jīng)網(wǎng)絡(luò)的圖片,讓我們給此圖的不同部分取一些名字。
圖3.2.1
我們有輸入特征 x1、x2、x3x_1、x_2、x_3x1?、x2?、x3? ,它們被豎直地堆疊起來,這叫做神經(jīng)網(wǎng)絡(luò)的輸入層(Input Layer)。它包含了神經(jīng)網(wǎng)絡(luò)的輸入;然后這里有另外一層我們稱之為隱藏層(Hidden Layer)(圖3.2.1的四個(gè)結(jié)點(diǎn))。待會(huì)兒我會(huì)回過頭來講解術(shù)語"隱藏"的意義;在本例中最后一層只由一個(gè)結(jié)點(diǎn)構(gòu)成,而這個(gè)只有一個(gè)結(jié)點(diǎn)的層被稱為輸出層(Output Layer),它負(fù)責(zé)產(chǎn)生預(yù)測值。解釋隱藏層的含義:在一個(gè)神經(jīng)網(wǎng)絡(luò)中,當(dāng)你使用監(jiān)督學(xué)習(xí)訓(xùn)練它的時(shí)候,訓(xùn)練集包含了輸入 xxx 也包含了目標(biāo)輸出 yyy ,所以術(shù)語隱藏層的含義是在訓(xùn)練集中,這些中間結(jié)點(diǎn)的準(zhǔn)確值我們是不知道到的,也就是說你看不見它們?cè)谟?xùn)練集中應(yīng)具有的值。你能看見輸入的值,你也能看見輸出的值,但是隱藏層中的東西,在訓(xùn)練集中你是無法看到的。所以這也解釋了詞語隱藏層,只是表示你無法在訓(xùn)練集中看到他們。
現(xiàn)在我們?cè)僖霂讉€(gè)符號(hào),就像我們之前用向量 xxx 表示輸入特征。這里有個(gè)可代替的記號(hào) a[0]a^{[0]}a[0] 可以用來表示輸入特征。 aaa 表示激活的意思,它意味著網(wǎng)絡(luò)中不同層的值會(huì)傳遞到它們后面的層中,輸入層將 xxx 傳遞給隱藏層,所以我們將輸入層的激活值稱為 a[0]a^{[0]}a[0] ;下一層即隱藏層也同樣會(huì)產(chǎn)生一些激活值,那么我將其記作 a[1]a^{[1]}a[1] ,所以具體地,這里的第一個(gè)單元或結(jié)點(diǎn)我們將其表示為 a1[1]a^{[1]}_1a1[1]? ,第二個(gè)結(jié)點(diǎn)的值我們記為 a2[1]a^{[1]}_2a2[1]? 以此類推。所以這里的是一個(gè)四維的向量如果寫成Python代碼,那么它是一個(gè)規(guī)模為4x1的矩陣或一個(gè)大小為4的列向量,如下公式,它是四維的,因?yàn)樵诒纠?#xff0c;我們有四個(gè)結(jié)點(diǎn)或者單元,或者稱為四個(gè)隱藏層單元; 公式3.7
a[1]=[a1[1]a2[1]a3[1]a4[1]]a^{[1]}=\left[\begin{matrix}a^{[1]}_1\\a^{[1]}_2\\a^{[1]}_3\\a^{[1]}_4\end{matrix}\right]a[1]=??????a1[1]?a2[1]?a3[1]?a4[1]????????
最后輸出層將產(chǎn)生某個(gè)數(shù)值 aaa ,它只是一個(gè)單獨(dú)的實(shí)數(shù),所以 y^\hat{y}y^? 的值將取為 a[2]a^{[2]}a[2] 。這與邏輯回歸很相似,在邏輯回歸中,我們有 y^\hat{y}y^? 直接等于 aaa ,在邏輯回歸中我們只有一個(gè)輸出層,所以我們沒有用帶方括號(hào)的上標(biāo)。但是在神經(jīng)網(wǎng)絡(luò)中,我們將使用這種帶上標(biāo)的形式來明確地指出這些值來自于哪一層,有趣的是在約定俗成的符號(hào)傳統(tǒng)中,在這里你所看到的這個(gè)例子,只能叫做一個(gè)兩層的神經(jīng)網(wǎng)絡(luò)(圖3.2.2)。原因是當(dāng)我們計(jì)算網(wǎng)絡(luò)的層數(shù)時(shí),輸入層是不算入總層數(shù)內(nèi),所以隱藏層是第一層,輸出層是第二層。第二個(gè)慣例是我們將輸入層稱為第零層,所以在技術(shù)上,這仍然是一個(gè)三層的神經(jīng)網(wǎng)絡(luò),因?yàn)檫@里有輸入層、隱藏層,還有輸出層。但是在傳統(tǒng)的符號(hào)使用中,如果你閱讀研究論文或者在這門課中,你會(huì)看到人們將這個(gè)神經(jīng)網(wǎng)絡(luò)稱為一個(gè)兩層的神經(jīng)網(wǎng)絡(luò),因?yàn)槲覀儾粚⑤斎雽涌醋饕粋€(gè)標(biāo)準(zhǔn)的層。
最后,我們要看到的隱藏層以及最后的輸出層是帶有參數(shù)的,這里的隱藏層將擁有兩個(gè)參數(shù) WWW 和 bbb ,我將給它們加上上標(biāo) [1](W[1],b[1])^{[1]}(W^{[1]},b^{[1]})[1](W[1],b[1]) ,表示這些參數(shù)是和第一層這個(gè)隱藏層有關(guān)系的。之后在這個(gè)例子中我們會(huì)看到 WWW 是一個(gè)4x3的矩陣,而 bbb 是一個(gè)4x1的向量,第一個(gè)數(shù)字4源自于我們有四個(gè)結(jié)點(diǎn)或隱藏層單元,然后數(shù)字3源自于這里有三個(gè)輸入特征,我們之后會(huì)更加詳細(xì)地討論這些矩陣的維數(shù),到那時(shí)你可能就更加清楚了。相似的輸出層也有一些與之關(guān)聯(lián)的參數(shù) W[2]W^{[2]}W[2] 以及 b[2]b^{[2]}b[2] 。從維數(shù)上來看,它們的規(guī)模分別是1x4以及1x1。1x4是因?yàn)殡[藏層有四個(gè)隱藏層單元而輸出層只有一個(gè)單元,之后我們會(huì)對(duì)這些矩陣和向量的維度做出更加深入的解釋,所以現(xiàn)在你已經(jīng)知道一個(gè)兩層的神經(jīng)網(wǎng)絡(luò)什么樣的了,即它是一個(gè)只有一個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)。
在下一個(gè)視頻中。我們將更深入地了解這個(gè)神經(jīng)網(wǎng)絡(luò)是如何進(jìn)行計(jì)算的,也就是這個(gè)神經(jīng)網(wǎng)絡(luò)是怎么輸入 xxx ,然后又是怎么得到 y^\hat{y}y^? 。
課程PPT
| 3.1 神經(jīng)網(wǎng)絡(luò)概覽 | 回到目錄 | 3.3 計(jì)算神經(jīng)網(wǎng)絡(luò)的輸出 |
總結(jié)
以上是生活随笔為你收集整理的3.2 神经网络表示-深度学习-Stanford吴恩达教授的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 3.1 神经网络概览-深度学习-Stan
- 下一篇: 3.3 神经网络的输出-深度学习-Sta