1.1 计算机视觉-深度学习第四课《卷积神经网络》-Stanford吴恩达教授
| 2.11 總結(jié)(上一課) | 回到目錄 | 1.2 邊緣檢測示例 |
計(jì)算機(jī)視覺 (Computer Vision)
歡迎參加這次的卷積神經(jīng)網(wǎng)絡(luò)課程,計(jì)算機(jī)視覺是一個飛速發(fā)展的一個領(lǐng)域,這多虧了深度學(xué)習(xí)。深度學(xué)習(xí)與計(jì)算機(jī)視覺可以幫助汽車,查明周圍的行人和汽車,并幫助汽車避開它們。還使得人臉識別技術(shù)變得更加效率和精準(zhǔn),你們即將能夠體驗(yàn)到或早已體驗(yàn)過僅僅通過刷臉就能解鎖手機(jī)或者門鎖。當(dāng)你解鎖了手機(jī),我猜手機(jī)上一定有很多分享圖片的應(yīng)用。在上面,你能看到美食,酒店或美麗風(fēng)景的圖片。有些公司在這些應(yīng)用上使用了深度學(xué)習(xí)技術(shù)來向你展示最為生動美麗以及與你最為相關(guān)的圖片。機(jī)器學(xué)習(xí)甚至還催生了新的藝術(shù)類型。深度學(xué)習(xí)之所以讓我興奮有下面兩個原因,我想你們也是這么想的。
第一,計(jì)算機(jī)視覺的高速發(fā)展標(biāo)志著新型應(yīng)用產(chǎn)生的可能,這是幾年前,人們所不敢想象的。通過學(xué)習(xí)使用這些工具,你也許能夠創(chuàng)造出新的產(chǎn)品和應(yīng)用。
其次,即使到頭來你未能在計(jì)算機(jī)視覺上有所建樹,但我發(fā)現(xiàn),人們對于計(jì)算機(jī)視覺的研究是如此富有想象力和創(chuàng)造力,由此衍生出新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與算法,這實(shí)際上啟發(fā)人們?nèi)?chuàng)造出計(jì)算機(jī)視覺與其他領(lǐng)域的交叉成果。舉個例子,之前我在做語音識別的時候,我經(jīng)常從計(jì)算機(jī)視覺領(lǐng)域中尋找靈感, 并將其應(yīng)用于我的文獻(xiàn)當(dāng)中。所以即使你在計(jì)算機(jī)視覺方面沒有做出成果,我也希望你也可以將所學(xué)的知識應(yīng)用到其他算法和結(jié)構(gòu)。就介紹到這兒,讓我們開始學(xué)習(xí)吧。
這是我們本節(jié)課將要學(xué)習(xí)的一些問題,你應(yīng)該早就聽說過圖片分類,或者說圖片識別。比如給出這張64×64的圖片,讓計(jì)算機(jī)去分辨出這是一只貓。
還有一個例子,在計(jì)算機(jī)視覺中有個問題叫做目標(biāo)檢測,比如在一個無人駕駛項(xiàng)目中,你不一定非得識別出圖片中的物體是車輛,但你需要計(jì)算出其他車輛的位置,以確保自己能夠避開它們。所以在目標(biāo)檢測項(xiàng)目中,首先需要計(jì)算出圖中有哪些物體,比如汽車,還有圖片中的其他東西,再將它們模擬成一個個盒子,或用一些其他的技術(shù)識別出它們在圖片中的位置。注意在這個例子中,在一張圖片中同時有多個車輛,每輛車相對與你來說都有一個確切的距離。
還有一個更有趣的例子,就是神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的圖片風(fēng)格遷移,比如說你有一張圖片,但你想將這張圖片轉(zhuǎn)換為另外一種風(fēng)格。所以圖片風(fēng)格遷移,就是你有一張滿意的圖片和一張風(fēng)格圖片,實(shí)際上右邊這幅畫是畢加索的畫作,而你可以利用神經(jīng)網(wǎng)絡(luò)將它們?nèi)诤系揭黄?#xff0c;描繪出一張新的圖片。它的整體輪廓來自于左邊,卻是右邊的風(fēng)格,最后生成下面這張圖片。這種神奇的算法創(chuàng)造出了新的藝術(shù)風(fēng)格,所以在這門課程中,你也能通過學(xué)習(xí)做到這樣的事情。
但在應(yīng)用計(jì)算機(jī)視覺時要面臨一個挑戰(zhàn),就是數(shù)據(jù)的輸入可能會非常大。舉個例子,在過去的課程中,你們一般操作的都是64×64的小圖片,實(shí)際上,它的數(shù)據(jù)量是64×64×3,因?yàn)槊繌垐D片都有3個顏色通道。如果計(jì)算一下的話,可得知數(shù)據(jù)量為12288,所以我們的特征向量 xxx 維度為12288。這其實(shí)還好,因?yàn)?4×64真的是很小的一張圖片。
如果你要操作更大的圖片,比如一張1000×1000的圖片,它足有1兆那么大,但是特征向量的維度達(dá)到了1000×1000×3,因?yàn)橛?個RGB通道,所以數(shù)字將會是300萬。如果你在尺寸很小的屏幕上觀察,可能察覺不出上面的圖片只有64×64那么大,而下面一張是1000×1000的大圖。
如果你要輸入300萬的數(shù)據(jù)量,這就意味著,特征向量的維度高達(dá)300萬。所以在第一隱藏層中,你也許會有1000個隱藏單元,而所有的權(quán)值組成了矩陣 W[1]W^{[1]}W[1] 。如果你使用了標(biāo)準(zhǔn)的全連接網(wǎng)絡(luò),就像我們在第一門和第二門的課程里說的,這個矩陣的大小將會是1000×300萬。因?yàn)楝F(xiàn)在 xxx 的維度為 3m3m3m , 3m3m3m 通常用來表示300萬。這意味著矩陣 W[1]W^{[1]}W[1] 會有30億個參數(shù),這是個非常巨大的數(shù)字。在參數(shù)如此大量的情況下,難以獲得足夠的數(shù)據(jù)來防止神經(jīng)網(wǎng)絡(luò)發(fā)生過擬合和競爭需求,要處理包含30億參數(shù)的神經(jīng)網(wǎng)絡(luò),巨大的內(nèi)存需求讓人不太能接受。
但對于計(jì)算機(jī)視覺應(yīng)用來說,你肯定不想它只處理小圖片,你希望它同時也要能處理大圖。為此,你需要進(jìn)行卷積計(jì)算,它是卷積神經(jīng)網(wǎng)絡(luò)中非常重要的一塊。下節(jié)課中,我會為你介紹如何進(jìn)行這種運(yùn)算,我將用邊緣檢測的例子來向你說明卷積的含義。
課程板書
| 2.11 總結(jié)(上一課) | 回到目錄 | 1.2 邊緣檢測示例 |
總結(jié)
以上是生活随笔為你收集整理的1.1 计算机视觉-深度学习第四课《卷积神经网络》-Stanford吴恩达教授的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 0.0 目录-深度学习第四课《卷积神经网
- 下一篇: 1.2 边缘检测示例-深度学习第四课《卷