日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > 卷积神经网络 >内容正文

卷积神经网络

理解卷积神经网络的利器:9篇重要的深度学习论文(下)

發(fā)布時間:2024/8/23 卷积神经网络 104 豆豆
生活随笔 收集整理的這篇文章主要介紹了 理解卷积神经网络的利器:9篇重要的深度学习论文(下) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

摘要:?為了更好地幫助你理解卷積神經網絡,在這里,我總結了計算機視覺和卷積神經網絡領域內許多新的重要進步及有關論文。

? ? ??手把手教你理解卷積神經網絡(一)

? ? ??手把手教你理解卷積神經網絡(二)


繼“理解卷積神經網絡的利器:9篇重要的深度學習論文(上)”文章,本文繼續(xù)介紹過去五年內發(fā)表的一些重要論文,并探討其重要性。論文1—5涉及通用網絡架構的發(fā)展論文6—9則是其他網絡架構的論文。點擊原文即可查看更詳細的內容。

5.Microsoft ResNet(2015)

現(xiàn)在,將一個深度卷積神經網絡的層數(shù)增加一倍,再增加幾層,也仍然不可能達到2015年微軟亞洲研究院提出的ResNet架構的深度。ResNet是一種新的包含152層的網絡架構,它使用一個特殊的結構記錄分類、檢測和定位。除了在層數(shù)方面進行創(chuàng)新外,ResNet還贏得了2015年ImageNet大規(guī)模視覺識別挑戰(zhàn)賽的冠軍,誤差率低達3.6%(在現(xiàn)有的技術水平上,誤差率通常在5-10%)

殘差塊

殘差塊的原理是,輸入x通過卷積-殘差函數(shù)-卷積系列,得到輸出F(x)然后將該結果加到原始輸入x,用H(x)= F(x)+ x表示。在傳統(tǒng)的卷積神經網絡中,H(x)=F(x)。因此,我們不只計算從xF(x)變換,而是計算H(x)= F(x)+ x下圖中的最小模塊正在計算一個“增量”或對原始輸入x輕微改變以獲得輕微改變后的表示。作者認為,“優(yōu)化殘差映射比優(yōu)化原始未引用的映射容易?!?/span>


殘差塊可能比較有效的另一個原因是,在反向傳播的后向傳遞期間,由于加法運算可以作用于梯度,梯度將會更容易地通過殘差塊。

主要論點

1.極端深度” - Yann LeCun。

2.包含152層

3.有趣的是,僅在經過前兩層之后,將數(shù)組從224*224壓縮56x56。

4.在普通網絡中,單純的增加層數(shù)會導致更高的訓練和測試誤差(詳細請看論文。

5.該模型嘗試構建了一個1202層網絡,可能是由于過擬合,測試精度較低。

重要性

3.6%的誤差率!這一點足夠重要。ResNet模型是目前我們所擁有的最好的卷積神經網絡架構,殘差學習理念的一個偉大創(chuàng)新。我相信即使在彼此之上堆疊更多層,性能也不會再有大幅度的提升了,但肯定會有像過去兩年那樣有創(chuàng)意的新架構。

6.基于區(qū)域的卷積神經網絡:R-CNN(2013年);Fast R-CNN(2015年); Faster R-CNN(2015年)

有些人可能會說,R-CNN的出現(xiàn)比以前任何與新網絡架構有關的論文都更具影響力。隨著第一篇論述R-CNN的論文被引用超過1600次,加州大學伯克利分校的Ross Girshick團隊創(chuàng)造出了計算機視覺領域最有影響力的進展之一:研究表明Fast R-CNNFaster R-CNN更適合對象檢測,且速度更快。

R-CNN架構的目標解決對象檢測問題。現(xiàn)在,我們想給定的圖像上所包含的所有對象繪制邊界框,可分為兩步候選區(qū)域的選擇和分類。

作者指出,任何類不可知候選區(qū)域方法都應該適用。選擇性搜索專門用于R-CNN,能夠產生2000個不同的最有可能包含指定對象的區(qū)域,候選區(qū)域產生后,會被“轉換”為圖像大小的區(qū)域,送入一個訓練好的卷積神經網絡(在這種情況下為AlexNet),為每個區(qū)域提取特征向量。然后,這組向量作為一組線性支持向量機的輸入,這些線性支持向量機對每個類進行訓練并輸出一個分類。向量也被送入邊界框回歸器以便獲得最準確的位置坐標。最后,使用非極大值抑制來抑制彼此具有明顯重疊的邊界框。

??

Fast?R-CNN

對原始模型進行改進原因有三:模型訓練需要經歷多個步驟(ConvNets支持向量機邊界框回歸器)計算成本很高,運行速度很慢(R-CNN處理一張圖像需要53秒)。為了提高運行速度,Fast R-CNN共享不同候選區(qū)域之間卷積層的計算交換了候選區(qū)域的生成順序,同時運行卷積神經網絡。在這個模型中,圖像圖像首先送入卷積網絡,然后從卷積網絡的最后一個特征映射獲得候選區(qū)域的特征,最后被送入全連接層、回歸以及分類頭部

?

Faster R-CNN

Faster R-CNN致力于R-CNN和Fast R-CNN比較復雜的訓練步驟簡單化。作者在最后一個卷積層后插入候選區(qū)域生成網絡,該網絡能夠查看最后的卷積特征映射并產生候選區(qū)域。后面使用與R-CNN相同的方法:感興趣區(qū)域化、全連接層、分類和回歸頭。

?

重要性

除了能夠準確識別圖像中的特定對象Faster R-CNN能夠該對象進行準確定位,這是一個質的飛躍現(xiàn)在,Faster R-CNN已經成為對象檢測程序一個標準。

7.生成敵對網絡(2014)

據Yann LeCun稱網絡可能是下一重大進展。在介紹這篇文章前,我們先個對抗的例子:將一個經過擾動的圖像經過卷積神經網絡(已經在ImageNet數(shù)據集訓練且運行良好,以使預測誤差最大化。因此,預測出來的對象類別有所改變,而圖像看起來與沒有經過擾動的圖像相同。從某種意義上來說對抗就是用圖像愚弄卷積網絡。

?

這個對抗的例子著實讓很多研究人員感到驚訝,并且迅速成為一個大家感興趣的話題?,F(xiàn)在讓我們來談談生成對抗網絡,它包含兩個模型:一個生成模型和一個判別模型。判別器用來確定給定的圖像是否真的自數(shù)據集,還是人為創(chuàng)建的;生成器用來是創(chuàng)建圖像,以便判別器得到訓練生成正確的輸出。這可以看作一個博弈游戲,打個比方:生成模型就像“偽造者團隊,試圖制造和使用假幣”判別模型就像“警察,試圖檢測假幣”。生成器試圖欺騙判別器,而判別器努力不被欺騙。隨著模型訓練,兩種方法都得到改進,直到“真幣假幣無法區(qū)分”。

重要性

這看起來很簡單,但為什么我們很看重網絡?正如Yan Le Leun在Quora中所說的那樣,現(xiàn)在判別器已經意識到“數(shù)據的內在表示”,因為它已經被訓練的能夠了解數(shù)據集中真實圖像與人工創(chuàng)建圖像之間的差異。因此,可以像卷積神經網絡那樣,將它用作特征提取器。另外,你可以創(chuàng)建很逼真的人造圖像(鏈接)。

8.Generating Image Descriptions(2014)

卷積神經網絡循環(huán)神經網絡結合起來會發(fā)生什么?Andrej Karpathy團隊研究了卷積神經網絡雙向循環(huán)神經網絡的組合,并撰寫了一篇論文用來生成圖像不同區(qū)域的自然語言描述?;旧?#xff0c;圖像經過該模型后輸出效果如下

?

這真是令人難以置信!我們來看看這與普通的卷積神經網絡有何區(qū)別。傳統(tǒng)的卷積神經網絡上,訓練數(shù)據中每個圖像都有一個明確的標簽。論文中描述的模型已經訓練樣例,該樣例具有與每個圖像相關聯(lián)的文本。這種類型的標簽被稱為弱標簽,其中文本片段指圖像的未知部分。使用這些訓練數(shù)據,深層神經網絡能夠“推斷出文本片段和他們所要描述的區(qū)域之間的潛在關系”(引自論文)。另一個神經網絡將圖像轉換成一個文本描述。讓我們分別看看這兩個部分:對齊模型和生成模型。

對齊模型

對齊模型的目標是能夠將視覺圖像和文本描述對齊,該模型圖像和文本轉化為二者之間的相似性度量值。

首先將圖像輸入R-CNN模型,檢測單個對象,該模型在ImageNet數(shù)據集上進行訓練,排名前19位(加上原始圖像)的對象區(qū)域嵌入500維空間現(xiàn)在在每個圖像中,我們有20個不同的500維向量(用v表示),用來描述圖像的信息?,F(xiàn)在我們需要關于文本的信息,將文本嵌入到同一個多維度空間中一步驟采用雙向遞歸神經網絡完成。從高層次來看,這是為了解釋給定文本中單詞的上下文信息。由于圖像和文本的信息都在相同的空間中,因此我們可以計算內部表示,來輸出相似性度量。

生成模型

對齊模型的主要目的是創(chuàng)建一個數(shù)據集:包含圖像區(qū)域和對應的文本。生成模型將從該數(shù)據集中進行學習,生成給定圖像的描述。該模型將圖像送入一個卷積神經網絡,由于全連接層的輸出成為另一個循環(huán)神經網絡的輸入,softmax層則可以被忽略。對于那些不熟悉循環(huán)神經網絡的人來說,該模型可以理解為產生句子中不同單詞的概率分布(循環(huán)神經網絡也需要像卷積神經網絡一樣進行訓練)。

?

重要性

Generating Image Descriptions的創(chuàng)新之處在于:使用看似不同的循環(huán)神經網絡和卷積神經網絡模型創(chuàng)建一個非常實用的應用程序,它以某種方式將計算機視覺和自然語言處理領域結合在一起。在處理跨越不同領域的任務時如何使計算機和模型變得更加智能方面,它的新想法為我們打開一扇新的大門。

9.空間變換網絡Spatial Transformer?Network)(2015年)

最后,我們來介紹一篇同樣很重要的論文,該模型的主要亮點就是引入了一個變換模塊,它以某種方式輸入圖像進行變換,以便后續(xù)網絡能夠容易對圖像進行分類。作者不再對卷積神經網絡的主要架構進行修改,而是在圖像輸入到特定的卷積層之前對圖像進行變換。這個模塊希望糾正姿態(tài)規(guī)范化(針對對象傾斜或縮放的場景)和空間注意力(擁擠圖像中關注需要分類的對象)。對于傳統(tǒng)的卷積神經網絡來說,如果希望模型能夠同時適用于不同尺度和旋轉的圖像,那么需要大量的訓練樣例才能使模型進行正確的學習。這個變換模塊是如何解決這個問題的呢?

處理空間不變性的傳統(tǒng)卷積神經網絡模型中的實體是最大池化一旦我們知道原始輸入數(shù)組(具有較高激活值)中的特定特征,其確切位置就不如相對于其他特征的相對位置那么重要。這種新的空間變換器是動態(tài)的,它會針對每個輸入圖像產生不同的變換,而并像傳統(tǒng)的最大池化那樣簡簡單和預定義。我們來看看這個變換模塊是如何運行的。該模塊包括:

1.定位網絡,輸入數(shù)組轉化并輸出必須使用的空間變換參數(shù)。對于仿射變換來說,參數(shù)或θ可以是六維的。

2采樣網格,這是使用本地化網絡中創(chuàng)建的仿射變換(θ)常規(guī)網格進行變形的結果。

3.采樣器,輸入特征映射進行變形。

?

這個模塊可以卷積神經網絡的任何一個節(jié)點,基本上可以幫助網絡學習如何特征映射進行變換,從而最大限度地減少訓練期間的成本函數(shù)。

?

重要性

這篇文章之所以能夠引起我的注意,其主要原因對卷積神經網絡的改進不一定需要對網絡的整體架構做巨大的改變,我們不需要再創(chuàng)建下一個ResNet或Inception架構。本文對輸入圖像進行仿射變換這一思路,使模型更加適用于圖像的平移縮放和旋轉。

?

以上為譯文。

文章原標題《A Beginner's Guide to Understanding Convolutional Neural Networks》,

譯者:Mags,審校:袁虎。

原文鏈接

干貨好文,請關注掃描以下二維碼:



總結

以上是生活随笔為你收集整理的理解卷积神经网络的利器:9篇重要的深度学习论文(下)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。