日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

4.11 一维到三维推广-深度学习第四课《卷积神经网络》-Stanford吴恩达教授

發(fā)布時(shí)間:2025/4/5 228 豆豆
生活随笔 收集整理的這篇文章主要介紹了 4.11 一维到三维推广-深度学习第四课《卷积神经网络》-Stanford吴恩达教授 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

←上一篇↓↑下一篇→
4.10 風(fēng)格代價(jià)函數(shù)回到目錄4.12 總結(jié)

一維到三維推廣 (1D and 3D Generalizations of Models)

你已經(jīng)學(xué)習(xí)了許多關(guān)于卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)的知識(shí),從卷積神經(jīng)網(wǎng)絡(luò)框架,到如何使用它進(jìn)行圖像識(shí)別、對(duì)象檢測(cè)、人臉識(shí)別與神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換。即使我們大部分討論的圖像數(shù)據(jù),某種意義上而言都是2D數(shù)據(jù),考慮到圖像如此普遍,許多你所掌握的思想不僅局限于2D圖像,甚至可以延伸至1D,乃至3D數(shù)據(jù)。

讓我們回頭看看在第一周課程中你所學(xué)習(xí)關(guān)于2D卷積,你可能會(huì)輸入一個(gè)14×14的圖像,并使用一個(gè)5×5的過濾器進(jìn)行卷積,接下來你看到了14×14圖像是如何與5×5的過濾器進(jìn)行卷積的,通過這個(gè)操作你會(huì)得到10×10的輸出。

如果你使用了多通道,比如14×14×3,那么相匹配的過濾器可能是5×5×3,如果你使用了多重過濾,比如16,最終你得到的是10×10×16。

事實(shí)證明早期想法也同樣可以用于1維數(shù)據(jù),舉個(gè)例子,左邊是一個(gè)EKG信號(hào),或者說是心電圖,當(dāng)你在你的胸部放置一個(gè)電極,電極透過胸部測(cè)量心跳帶來的微弱電流,正因?yàn)樾呐K跳動(dòng),產(chǎn)生的微弱電波能被一組電極測(cè)量,這就是人心跳產(chǎn)生的EKG,每一個(gè)峰值都對(duì)應(yīng)著一次心跳。

如果你想使用EKG信號(hào),比如醫(yī)學(xué)診斷,那么你將處理1維數(shù)據(jù),因?yàn)?strong>EKG數(shù)據(jù)是由時(shí)間序列對(duì)應(yīng)的每個(gè)瞬間的電壓組成,這次不是一個(gè)14×14的尺寸輸入,你可能只有一個(gè)14尺寸輸入,在這種情況下你可能需要使用一個(gè)1維過濾進(jìn)行卷積,你只需要一個(gè)1×5的過濾器,而不是一個(gè)5×5的。

二維數(shù)據(jù)的卷積是將同一個(gè)5×5特征檢測(cè)器應(yīng)用于圖像中不同的位置(編號(hào)1所示),你最后會(huì)得到10×10的輸出結(jié)果。1維過濾器可以取代你的5維過濾器(編號(hào)2所示),可在不同的位置中應(yīng)用類似的方法(編號(hào)3,4,5所示)。

當(dāng)你對(duì)這個(gè)1維信號(hào)使用卷積,你將發(fā)現(xiàn)一個(gè)14維的數(shù)據(jù)與5維數(shù)據(jù)進(jìn)行卷積,并產(chǎn)生一個(gè)10維輸出。

再一次如果你使用多通道,在這種場(chǎng)景下可能會(huì)獲得一個(gè)14×1的通道。如果你使用一個(gè)EKG,就是5×1的,如果你有16個(gè)過濾器,可能你最后會(huì)獲得一個(gè)10×16的數(shù)據(jù),這可能會(huì)是你卷積網(wǎng)絡(luò)中的某一層。

對(duì)于卷積網(wǎng)絡(luò)的下一層,如果輸入一個(gè)10×16數(shù)據(jù),你也可以使用一個(gè)5維過濾器進(jìn)行卷積,這需要16個(gè)通道進(jìn)行匹配,如果你有32個(gè)過濾器,另一層的輸出結(jié)果就是6×32,如果你使用了32個(gè)過濾器的話。

對(duì)于2D數(shù)據(jù)而言,當(dāng)你處理10×10×16的數(shù)據(jù)時(shí)也是類似的,你可以使用5×5×16進(jìn)行卷積,其中兩個(gè)通道數(shù)16要相匹配,你將得到一個(gè)6×6的輸出,如果你用的是32過濾器,輸出結(jié)果就是6×6×32,這也是32的來源。

所有這些方法也可以應(yīng)用于1維數(shù)據(jù),你可以在不同的位置使用相同的特征檢測(cè)器,比如說,為了區(qū)分EKG信號(hào)中的心跳的差異,你可以在不同的時(shí)間軸位置使用同樣的特征來檢測(cè)心跳。

所以卷積網(wǎng)絡(luò)同樣可以被用于1D數(shù)據(jù),對(duì)于許多1維數(shù)據(jù)應(yīng)用,你實(shí)際上會(huì)使用遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行處理,這個(gè)網(wǎng)絡(luò)你會(huì)在下一個(gè)課程中學(xué)到,但是有些人依舊愿意嘗試使用卷積網(wǎng)絡(luò)解決這些問題。

下一門課將討論序列模型,包括遞歸神經(jīng)網(wǎng)絡(luò)、LCM與其他類似模型。我們將探討使用1D卷積網(wǎng)絡(luò)的優(yōu)缺點(diǎn),對(duì)比于其它專門為序列數(shù)據(jù)而精心設(shè)計(jì)的模型。

這也是2D1D的進(jìn)化,對(duì)于3D數(shù)據(jù)來說如何呢?什么是3D數(shù)據(jù)?與1D數(shù)列或數(shù)字矩陣不同,你現(xiàn)在有了一個(gè)3D塊,一個(gè)3D輸入數(shù)據(jù)。以你做CT掃描為例,這是一種使用X光照射,然后輸出身體的3D模型,CT掃描實(shí)現(xiàn)的是它可以獲取你身體不同片段(圖片信息)。

當(dāng)你進(jìn)行CT掃描時(shí),與我現(xiàn)在做的事情一樣,你可以看到人體軀干的不同切片(整理者注:圖中所示為人體軀干中不同層的切片,附CT掃描示意圖,圖片源于互聯(lián)網(wǎng)),本質(zhì)上這個(gè)數(shù)據(jù)是3維的。

一種對(duì)這份數(shù)據(jù)的理解方式是,假設(shè)你的數(shù)據(jù)現(xiàn)在具備一定長(zhǎng)度、寬度與高度,其中每一個(gè)切片都與軀干的切片對(duì)應(yīng)。

如果你想要在3D掃描或CT掃描中應(yīng)用卷積網(wǎng)絡(luò)進(jìn)行特征識(shí)別,你也可以從第一張幻燈片(Convolutions in 2D and 1D)里得到想法,并將其應(yīng)用到3D卷積中。為了簡(jiǎn)單起見,如果你有一個(gè)3D對(duì)象,比如說是14×14×14,這也是輸入CT掃描的寬度與深度(后兩個(gè)14)。再次提醒,正如圖像不是必須以矩形呈現(xiàn),3D對(duì)象也不是一定是一個(gè)完美立方體,所以長(zhǎng)和寬可以不一樣,同樣CT掃描結(jié)果的長(zhǎng)寬高也可以是不一致的。為了簡(jiǎn)化討論,我僅使用14×14×14為例。

如果你現(xiàn)在使用5×5×5過濾器進(jìn)行卷積,你的過濾器現(xiàn)在也是3D的,這將會(huì)給你一個(gè)10×10×10的結(jié)果輸出,技術(shù)上來說你也可以再×1(編號(hào)1所示),如果這有一個(gè)1的通道。這僅僅是一個(gè)3D模塊,但是你的數(shù)據(jù)可以有不同數(shù)目的通道,那種情況下也是乘1(編號(hào)2所示),因?yàn)橥ǖ赖臄?shù)目必須與過濾器匹配。如果你使用16過濾器處理5×5×5×1,接下來的輸出將是10×10×10×16,這將成為你3D數(shù)據(jù)卷積網(wǎng)絡(luò)上的一層。

如果下一層卷積使用5×5×5×16維度的過濾器再次卷積,通道數(shù)目也與往常一樣匹配,如果你有32個(gè)過濾器,操作也與之前相同,最終你得到一個(gè)6×6×6×32的輸出。

某種程度上3D數(shù)據(jù)也可以使用3D卷積網(wǎng)絡(luò)學(xué)習(xí),這些過濾器實(shí)現(xiàn)的功能正是通過你的3D數(shù)據(jù)進(jìn)行特征檢測(cè)。CT醫(yī)療掃描是3D數(shù)據(jù)的一個(gè)實(shí)例,另一個(gè)數(shù)據(jù)處理的例子是你可以將電影中隨時(shí)間變化的不同視頻切片看作是3D數(shù)據(jù),你可以將這個(gè)技術(shù)用于檢測(cè)動(dòng)作及人物行為。

總而言之這就是1D2D3D數(shù)據(jù)處理,圖像數(shù)據(jù)無處不在,以至于大多數(shù)卷積網(wǎng)絡(luò)都是基于圖像上的2D數(shù)據(jù),但我希望其他模型同樣會(huì)對(duì)你有幫助。

這是本周最后一次視頻,也是最后一次關(guān)于卷積神經(jīng)網(wǎng)絡(luò)的課程,你已經(jīng)學(xué)習(xí)了許多關(guān)于卷積網(wǎng)絡(luò)的知識(shí),我希望你能夠在未來工作中發(fā)現(xiàn)許多思想對(duì)你有所裨益,祝賀你完成了這些視頻學(xué)習(xí),我希望你能喜歡這周的課后練習(xí),接下來關(guān)于順序模型的課程我們不見不散。

參考文獻(xiàn):

  • Florian Schroff, Dmitry Kalenichenko, James Philbin (2015). FaceNet: A Unified Embedding for Face Recognition and Clustering

  • Yaniv Taigman, Ming Yang, Marc’Aurelio Ranzato, Lior Wolf (2014). DeepFace: Closing the gap to human-level performance in face verification

  • The pretrained model we use is inspired by Victor Sy Wang’s implementation and was loaded using his code: https://github.com/iwantooxxoox/Keras-OpenFace
    .

  • Our implementation also took a lot of inspiration from the official FaceNet github repository: https://github.com/davidsandberg/facenet

  • Leon A. Gatys, Alexander S. Ecker, Matthias Bethge, (2015). A Neural Algorithm of Artistic Style (https://arxiv.org/abs/1508.06576
    )

  • Harish Narayanan, Convolutional neural networks for artistic style transfer. https://harishnarayanan.org/writing/artistic-style-transfer/

  • Log0, TensorFlow Implementation of “A Neural Algorithm of Artistic Style”. http://www.chioka.in/tensorflow-implementation-neural-algorithm-of-artistic-style

  • Karen Simonyan and Andrew Zisserman (2015). Very deep convolutional networks for large-scale image recognition (https://arxiv.org/pdf/1409.1556.pdf
    )

  • MatConvNet. http://www.vlfeat.org/matconvnet/pretrained/

課程板書





←上一篇↓↑下一篇→
4.10 風(fēng)格代價(jià)函數(shù)回到目錄4.12 總結(jié)

總結(jié)

以上是生活随笔為你收集整理的4.11 一维到三维推广-深度学习第四课《卷积神经网络》-Stanford吴恩达教授的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。