日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

1个字,绝! -- CNN中十大令人拍案叫绝的操作

發(fā)布時(shí)間:2025/3/15 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 1个字,绝! -- CNN中十大令人拍案叫绝的操作 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

前言

近十年是深度學(xué)習(xí)飛速發(fā)展的十年,自LeNet、AlexNet發(fā)展至今,通道注意力、空間注意力、生成對(duì)抗網(wǎng)絡(luò)等技術(shù)層出不窮,最近大火的Transformer技術(shù)也在屠殺各種深度學(xué)習(xí)比賽的榜單,經(jīng)過(guò)科學(xué)家的不懈努力,網(wǎng)絡(luò)深度越來(lái)越深,網(wǎng)絡(luò)模型的精度逐漸上升,網(wǎng)絡(luò)的參數(shù)逐漸減少,模型越來(lái)越輕量化。該篇文章可以看作是我在研一的學(xué)習(xí)過(guò)程中所看上百部論文的精華所在,純干貨,建議收藏起來(lái)慢慢品味!

一、殘差神經(jīng)網(wǎng)絡(luò)

殘差神經(jīng)網(wǎng)絡(luò)(ResNet)是CVPR2016的最佳論文,說(shuō)它是CVPR近二十年最佳論文也不為過(guò),被引頻次達(dá)70000+,這是我把殘差神經(jīng)網(wǎng)絡(luò)排在第一位的原因。

另外,殘差神經(jīng)網(wǎng)絡(luò)發(fā)現(xiàn)了深度神經(jīng)網(wǎng)絡(luò)中“退化”的問(wèn)題,在ResNet出現(xiàn)之前,人們普遍認(rèn)為神經(jīng)網(wǎng)絡(luò)深度越深,性能會(huì)越好,但ResNet的橫空出世給了這些科學(xué)家當(dāng)頭一棒,隨著網(wǎng)絡(luò)層次越來(lái)越深,網(wǎng)絡(luò)會(huì)出現(xiàn)“退化”的現(xiàn)象,什么是“退化”現(xiàn)象呢?簡(jiǎn)單來(lái)說(shuō),就是隨著網(wǎng)絡(luò)層次的加深,網(wǎng)絡(luò)模型性能反而會(huì)出現(xiàn)下降的現(xiàn)象。ResNet的提出在一定程度上解決了深度神經(jīng)網(wǎng)絡(luò)中梯度消失和梯度爆炸的問(wèn)題,對(duì)卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展起到了非常重要作用。


推薦論文:

《Deep Residual Learning for Image Recognition》

二、2個(gè)疊加的3*3卷積 <=> 5*5卷積

33卷積最早出現(xiàn)在VGGNet、GoogleNet中,之前的CNN中卷積核的大小一般為55或者77,這樣的卷積核雖然會(huì)在一定程度上獲得比33卷積核更大的感受野,但隨之而來(lái)的是網(wǎng)絡(luò)參數(shù)的劇增,使得網(wǎng)絡(luò)層次難以疊加,網(wǎng)絡(luò)難以運(yùn)行。于是在VGG和GoogleNet中,使用疊加的33卷積獲得的感受野與一個(gè)55卷積獲得的感受野相同,但是參數(shù)卻降低了,由 5×5×1+1 -->3×3×2+1。所以,之后出現(xiàn)的CNN網(wǎng)絡(luò)模型中,很大再見(jiàn)到大的卷積核,絕大部分都是3*3卷積核了。

推薦論文:

《VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION》

三、Inception結(jié)構(gòu)

Inception結(jié)構(gòu)的提出可以說(shuō)在很大程度上打破了人們的思維定勢(shì)的“陋習(xí)”,人類(lèi)之前一直以為一層卷積上只能有一個(gè)尺寸的卷積核,也就是認(rèn)為網(wǎng)絡(luò)是一層一層堆積起來(lái)的,但I(xiàn)nception結(jié)構(gòu)的提出打破了這一規(guī)則,同一層上可以有多個(gè)不同的卷積核來(lái)提取不同感受野的特征信息,使不同感受野的特征信息融合在一塊,提升模型的性能。自我認(rèn)為,該結(jié)構(gòu)的提出也在一定程度上促進(jìn)了何凱明大神金字塔池化的產(chǎn)生。但這個(gè)結(jié)構(gòu)會(huì)存在一個(gè)致命的問(wèn)題:參數(shù)量比單個(gè)尺寸的卷積核要多多,如此龐大的計(jì)算量會(huì)使得模型效率低下,一般的GPU上難以運(yùn)行,這就引出了一個(gè)新的結(jié)構(gòu)。

推薦論文:

《Rethinking the Inception Architecture for Computer Vision》

四、Bottleneck(1*1卷積)

這一結(jié)構(gòu)是針對(duì)上述Inception結(jié)構(gòu)的弊端而提出,但我選進(jìn)Bottleneck到這個(gè)榜單里的理由絕不僅于此。自我認(rèn)為,Bottleneck提出的最大意義在于它發(fā)現(xiàn)了11卷積這個(gè)“萬(wàn)能”的卷積核,該卷積核不僅可以減少參數(shù)量,改變特征圖通道的數(shù)量、而且還可以增加網(wǎng)絡(luò)模型的非線性。因此,1×1卷積核也被認(rèn)為是影響深遠(yuǎn)的操作,之后大型的網(wǎng)絡(luò)模型為了降低參數(shù)量都會(huì)應(yīng)用上1×1卷積核,以我目前的深度學(xué)習(xí)經(jīng)驗(yàn)來(lái)講,11卷積核幾乎存在于任何一個(gè)可運(yùn)行的網(wǎng)絡(luò)模型中,它是一個(gè)網(wǎng)絡(luò)模型必不可少的組成部分。

推薦論文:

《Going deeper with convolutions》

五、密集連接

DenseNet是2017CVPR上的最佳論文,對(duì)后來(lái)的卷積神經(jīng)網(wǎng)絡(luò)也有很大的貢獻(xiàn),首先,DenseNet重新定義了一種新的跳過(guò)連接(skip connection)-- 密集跳過(guò)連接。DenseNet讓網(wǎng)絡(luò)中的每一層都直接與其前面層相連,實(shí)現(xiàn)特征的重復(fù)利用;同時(shí)把網(wǎng)絡(luò)的每一層設(shè)計(jì)得特別「窄」,即只學(xué)習(xí)非常少的特征圖(最極端情況就是每一層只學(xué)習(xí)一個(gè)特征圖),達(dá)到降低冗余性的目的。如果沒(méi)有密集連接,DenseNet是不可能把網(wǎng)絡(luò)設(shè)計(jì)得太窄的,否則訓(xùn)練會(huì)出現(xiàn)欠擬合(under-fitting)現(xiàn)象。

DenseNet的優(yōu)勢(shì)簡(jiǎn)單來(lái)說(shuō)有三點(diǎn):

  • ①減少參數(shù)
  • ②節(jié)省計(jì)算資源
  • ③抗過(guò)擬合

推薦論文:

《Densely Connected Convolutional Networks》

六、空間金字塔池化

空間金字塔池化是深度學(xué)習(xí)大神何凱明的又一力作,在一般的CNN結(jié)構(gòu)中,在卷積層后面通常連接著全連接。而全連接層的神經(jīng)元數(shù)目是固定的,所以在網(wǎng)絡(luò)輸入的時(shí)候,會(huì)固定輸入的大小(fixed-size)。但在現(xiàn)實(shí)中,我們的輸入的圖像尺寸總是不能滿(mǎn)足輸入時(shí)要求的大小。然而通常的手法就是裁剪和拉伸。但是裁剪和拉伸會(huì)破壞原始圖像的特征信息,而空間金字塔池化能夠很好地解決這個(gè)問(wèn)題。

具體內(nèi)容可以參考這位大神的一篇文章[空間金字塔池化網(wǎng)絡(luò)SPPNet詳解]。(https://cloud.tencent.com/developer/article/1441559)


推薦論文:

《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》

七、空洞卷積

空洞卷積也被稱(chēng)為膨脹卷積。感受野是卷積神經(jīng)網(wǎng)絡(luò)中非常重要的概念,空洞卷積的目的就在于擴(kuò)大感受野,以提升模型的性能??斩淳矸e的運(yùn)行原理跟卷積非常類(lèi)似,唯一不同之處在于空洞卷積引入了一個(gè)**擴(kuò)張率(dilated rate)**的概念,可以認(rèn)為,普通卷積是空洞卷積的一種情形,普通卷積的擴(kuò)張率默認(rèn)為1。


以下分別是dilated rate=1、dilated rate=6、dilated rate=24的空洞卷積。

推薦論文:

《DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs》
《Rethinking Atrous Convolution for Semantic Image Segmentation》

八、注意力機(jī)制

在SENet橫空出世之前,所有的網(wǎng)絡(luò)模型都認(rèn)為通道是等權(quán)重的,即沒(méi)有重要與非重要之分,SENet的工作就是對(duì)各個(gè)通道進(jìn)行加權(quán),以分辨出哪些通道包含更重要的特征,哪些通道包含不太重要的特征就顯而易見(jiàn)了。
之后陸陸續(xù)續(xù)出現(xiàn)了各種各樣的注意力,例如CBAM、Criss-Cross Attention、空間注意力等等,這些也會(huì)出現(xiàn)在我的【都2021年了,不會(huì)還有人不了解深度學(xué)習(xí)吧?】專(zhuān)欄中,請(qǐng)大家多多關(guān)注!
輸入一組特征圖,這時(shí)分兩條支路分別對(duì)特征圖進(jìn)行以下操作:

  • ①第一條支路直接讓特征圖通過(guò)
  • ②第二條首先進(jìn)行Squeeze操作(Global Average Pooling),把每個(gè)通道2維的特征壓縮成一個(gè)1維,從而得到一個(gè)特征通道向量(每個(gè)數(shù)字代表對(duì)應(yīng)通道的特征)。然后進(jìn)行Excitation操作,把這一列特征通道向量輸入兩個(gè)全連接層和sigmoid,建模出特征通道間的相關(guān)性,得到的輸出就是每個(gè)通道對(duì)應(yīng)的權(quán)重,然后把每個(gè)通道對(duì)應(yīng)的特征權(quán)重與輸入特征圖(即第一條路)進(jìn)行相乘,這樣就完成了特征通道的權(quán)重分配。更加詳細(xì)的過(guò)程請(qǐng)參考論文!

推薦論文:

《Squeeze-and-Excitation Networks》

九、Batch Normalization

BN的基本思想其實(shí)相當(dāng)直觀:因?yàn)樯顚由窠?jīng)網(wǎng)絡(luò)在做非線性變換前的激活輸入值(就是那個(gè)x=WU+B,U是輸入)隨著網(wǎng)絡(luò)深度加深或者在訓(xùn)練過(guò)程中,其分布逐漸發(fā)生偏移或者變動(dòng),之所以訓(xùn)練收斂慢,一般是整體分布逐漸往非線性函數(shù)的取值區(qū)間的上下限兩端靠近(對(duì)于Sigmoid函數(shù)來(lái)說(shuō),意味著激活輸入值WU+B是大的負(fù)值或正值),所以這導(dǎo)致反向傳播時(shí)低層神經(jīng)網(wǎng)絡(luò)的梯度消失,這是訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)收斂越來(lái)越慢的本質(zhì)原因。

而B(niǎo)N就是通過(guò)一定的規(guī)范化手段,把每層神經(jīng)網(wǎng)絡(luò)任意神經(jīng)元這個(gè)輸入值的分布強(qiáng)行拉回到均值為0方差為1的標(biāo)準(zhǔn)正態(tài)分布,其實(shí)就是把越來(lái)越偏的分布強(qiáng)制拉回比較標(biāo)準(zhǔn)的分布,這樣使得激活輸入值落在非線性函數(shù)對(duì)輸入比較敏感的區(qū)域,這樣輸入的小變化就會(huì)導(dǎo)致?lián)p失函數(shù)較大的變化,意思是這樣讓梯度變大,避免梯度消失問(wèn)題產(chǎn)生,而且梯度變大意味著學(xué)習(xí)收斂速度快,能大大加快訓(xùn)練速度。

除去BN之外,之后出現(xiàn)了很多歸一化的方法,例如GN、LN、SN、IN等,關(guān)于歸一化的方法,會(huì)在我的專(zhuān)欄【都2021年了,不會(huì)還有人不了解深度學(xué)習(xí)吧?】中陸續(xù)更新,請(qǐng)大家多多關(guān)注!

推薦論文:

《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》

十、全卷積神經(jīng)網(wǎng)絡(luò)

CNN能夠?qū)D片進(jìn)行分類(lèi),可是怎么樣才能識(shí)別圖片中特定部分的物體,在2015年之前還是一個(gè)世界難題。直到神經(jīng)網(wǎng)絡(luò)大神Jonathan Long發(fā)表了FCN,在圖像語(yǔ)義分割挖了一個(gè)坑,于是無(wú)窮無(wú)盡的人往這個(gè)坑里面跳。之所以把FCN選進(jìn)這個(gè)榜單,是因?yàn)镕CN的識(shí)別是像素級(jí)的識(shí)別 ,對(duì)輸入圖像的每一個(gè)像素在輸出上都有對(duì)應(yīng)的判斷標(biāo)注,標(biāo)明這個(gè)像素最可能是屬于一個(gè)什么物體/類(lèi)別。

推薦論文:

《Fully Convolutional Networks for Semantic Segmentation》

參考文獻(xiàn)

《Deep Residual Learning for Image Recognition》
《VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION》
《Rethinking the Inception Architecture for Computer Vision》
《Going deeper with convolutions》
《DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs》
《Rethinking Atrous Convolution for Semantic Image Segmentation》
《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》
《Squeeze-and-Excitation Networks》
《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》
《Fully Convolutional Networks for Semantic Segmentation》
https://blog.csdn.net/qqliuzihan/article/details/81217766
https://cloud.tencent.com/developer/article/1441559

以上純屬個(gè)人意見(jiàn),如有不同看法,歡迎在評(píng)論區(qū)留言!

覺(jué)得寫(xiě)的不錯(cuò)的話,歡迎點(diǎn)贊+評(píng)論+收藏,這對(duì)我?guī)椭娴暮艽蠛艽蠛艽?#xff01;歡迎關(guān)注我的公眾號(hào)!

文章持續(xù)更新,可以關(guān)注微信公眾號(hào)【醫(yī)學(xué)圖像人工智能實(shí)戰(zhàn)營(yíng)】獲取最新動(dòng)態(tài),一個(gè)專(zhuān)注于醫(yī)學(xué)圖像處理領(lǐng)域前沿科技的公眾號(hào)。堅(jiān)持以實(shí)踐為主,手把手帶你做項(xiàng)目,打比賽,寫(xiě)論文。凡原創(chuàng)文章皆提供理論講解,實(shí)驗(yàn)代碼,實(shí)驗(yàn)數(shù)據(jù)。更有上百部深度學(xué)習(xí)入門(mén)資料免費(fèi)等你來(lái)拿,只有實(shí)踐才能成長(zhǎng)的更快,關(guān)注我們,一起學(xué)習(xí)進(jìn)步~

總結(jié)

以上是生活随笔為你收集整理的1个字,绝! -- CNN中十大令人拍案叫绝的操作的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。