日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

从alexnet到resnet,初探深度学习算法玩摄影

發(fā)布時間:2025/3/20 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 从alexnet到resnet,初探深度学习算法玩摄影 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

編輯:葉琰

簡介

今天說的是初探,那就是說,目的是為了讓大家先有一個比較直觀的感受,主要集中在有監(jiān)督算法上。

總體來說,就是指在底層特征的提取上,利用了從Alexnet開始,到最新的模型的方法,來替換掉早期的大量手動設(shè)計的特征。

主要從兩大內(nèi)容上讓大家有一個直觀的感受

1.從簡單網(wǎng)絡(luò)到復(fù)雜網(wǎng)絡(luò)的升級,將分別舉一個alexnet,googlenet,resnet的代表性paper。

2.說說網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計思路以及發(fā)展,以及主要使用的loss function。

?

下面的內(nèi)容,如果有聽不太懂的地方,就回到之前的一系列文章,去對著讀。

1.1?Alexnet (2015年)


這篇文章研究的是一個二分類的問題。

是比較早期的應(yīng)用,采用了一個雙通道的網(wǎng)絡(luò),雖然不是直接的alexnet的網(wǎng)絡(luò),但是基本上也沒有什么差異了,網(wǎng)絡(luò)結(jié)構(gòu)如下。

從輸入上,也是典型的兩個子網(wǎng)絡(luò)的操作,分別輸入global view和local view。local view是多個random crop,可以學(xué)習(xí)到多個局部響應(yīng)。

從上面的網(wǎng)絡(luò)結(jié)構(gòu)和輸入你就可以想到,這基本上也就是拿來做做分類了。實際上也是如此,上文就是拿來做二分類,以及圖像風(fēng)格的分類,特征直接抽取全連接層的特征。


1.2 GoogleNet【2】 (2017年)


這也是研究一個二分類的問題。


這篇文章,相對于上面的alexnet文章,更加直接,直接采用了googlenet v1的1/3部分,其中共3個inception module,前兩個用于提取local feature,最后一個用于提取global feature。


最后,直接concatenate local feature與global feature層,輸入softmax做分類。


也是直接粗暴的應(yīng)用,不過通過觀察feature map的響應(yīng)特點,他們總結(jié)高質(zhì)量圖和低質(zhì)量圖的規(guī)律,并認為前者會有更多的激活。

1.3 ResNet (2017年)


前面的兩個,都是研究分類問題。但是到后來,美學(xué)質(zhì)量的問題,已經(jīng)轉(zhuǎn)換為回歸問題之后,文【3】就利用上了最新的resnet,一股腦研究了分數(shù)的分布特性。


網(wǎng)絡(luò)結(jié)構(gòu)本身,沒什么變化。就是幾個卷積+全連接層,但是因為為了適應(yīng)不同的輸入尺度,消除由于resize,crop等造成的精度損失,采用了自適應(yīng)的spp layer(adaptive spatial pyramid pooling ),同時添加了語義分類信息作為弱監(jiān)督,也提出了huber loss,與通用的回歸問題loss,euclidnean loss做了比較。


取得了當(dāng)下最好的結(jié)果,AVA上分類超過了80%,這也是當(dāng)下state-of-out的水平了。

2.1 DMA-Net【4】(2015年)


前面說的有些網(wǎng)絡(luò)【2-3】,都是single column,也就是只有一個通道的輸入。


實際上,從網(wǎng)絡(luò)結(jié)構(gòu)上來看,可以分為兩大類。即single column與multi column,下面就說這個multi column。


DMA是其中一個代表。它的網(wǎng)絡(luò)結(jié)構(gòu)也很簡單,4個卷積層和3個全連接層,每次送進去多個隨機crop的圖。

隨后,通過各種pool的組合(min,max,median,averaging),將各個patch的cnn特征進行組合,輸出到softmax,隨機進行分類。


怎么組合這些patch?由于不是直接采用全組合,所以文章說貢獻了兩個network layer,即statistics layer,與sorting layer。Statistics layer,學(xué)習(xí)到的是與順序無關(guān)的,而sorting layer則是與順序有關(guān)的。


雖然上面看起來是multi column,但實際上是共享權(quán)重的,所以嚴格說來,不是真正的multi column網(wǎng)絡(luò)。


2.2 MNA-Net (2016年)


【5】是典型的mutli-column了。

總共有5個columns。由于采用了sppnet,所以可以接受任意大小的圖片輸入,通過改變kernel尺寸的大小,可以學(xué)習(xí)到多尺度的信息。


3.1 multi-task loss【6】(2016年)


這部分,主要是說說多任務(wù)的loss,在其中的應(yīng)用。


由于美學(xué)的評價標(biāo)準(zhǔn),跟圖像的主體是什么,以及圖像的攝影風(fēng)格,是有很大的關(guān)系的,所以style loss,content loss的應(yīng)用,在后來是很廣泛的。


【6】是直接使用alexnet,將輸出的1000的fc8,變成了2分類的美學(xué)layer,和29類的semantic layer,也就是直接融合了兩類loss,但是有個很大的隱患,loss的平衡也就是相對權(quán)重,是一個非常需要經(jīng)驗的問題。


rapid【1】中就加入了style loss做正則,相對于【6】來說,訓(xùn)練會更加容易。【7】更是猛,直接3分類。將任務(wù)拆解成3個,object,scene,texture。


Scene的輸入:wrapped global image,

Object:wrapped global image與檢測到的salient region。


Texture:16個隨機cropped patchs,當(dāng)然了,訓(xùn)練的細節(jié),我們可以在課程中詳細講述。

?

?

重點說說AADB【8】的文章,他們的網(wǎng)絡(luò)訓(xùn)練的時候是成對訓(xùn)練的。核心思想是要整合語義級別的內(nèi)容,與visual content屬性。學(xué)習(xí)到的是一個相對的分數(shù)。


學(xué)習(xí)分為3個階段:


利用euclidean loss,學(xué)習(xí)美學(xué)分數(shù)。


加入attribute,然后進行分類。


加入class content branch,繼續(xù)學(xué)習(xí)。


多階段的學(xué)習(xí),是能夠收斂的保障。

?

就這么多,看完大家應(yīng)該已經(jīng)有個大致的印象了。

總結(jié)

以上是生活随笔為你收集整理的从alexnet到resnet,初探深度学习算法玩摄影的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。