日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人工智能 > pytorch >内容正文

pytorch

【论文解读】深度学习网络架构新视角:通过相关图表达理解神经网络(何恺明团队新作)...

發(fā)布時(shí)間:2025/3/8 pytorch 17 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【论文解读】深度学习网络架构新视角:通过相关图表达理解神经网络(何恺明团队新作)... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章來(lái)源于極市平臺(tái),作者Happy

標(biāo)題&作者團(tuán)隊(duì)

導(dǎo)語(yǔ):愷明大神出品,必屬精品。Facebook的研究員從一個(gè)新奇的角度對(duì)神經(jīng)網(wǎng)絡(luò)的表示與設(shè)計(jì)進(jìn)行探索,提出了一種新穎的相關(guān)圖表示方式。它有助于對(duì)現(xiàn)有網(wǎng)絡(luò)架構(gòu)進(jìn)行更深層次的分析與性能評(píng)價(jià)。這種相關(guān)圖的表示方式、實(shí)驗(yàn)發(fā)現(xiàn)等確實(shí)挺有意思,也與現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)有一定相通之處,故推薦各位同學(xué)。

Abstract

神經(jīng)網(wǎng)絡(luò)通用被表示成圖的形式(即神經(jīng)元之間通過(guò)邊進(jìn)行鏈接),盡管這種表示方式得到了廣泛應(yīng)用,但關(guān)于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與性能之間的關(guān)系卻鮮少有所了解。

作者系統(tǒng)的研究了神經(jīng)網(wǎng)絡(luò)的圖結(jié)構(gòu)是如何影響其性能的,為達(dá)成該目的,作者開發(fā)了一種新穎的稱之為relational graph(相關(guān)圖)的圖表示方式,神經(jīng)網(wǎng)絡(luò)的層沿圖像結(jié)構(gòu)進(jìn)行多次信息交互。基于這種圖表示方式,作者發(fā)現(xiàn)了這樣幾點(diǎn)有意思發(fā)現(xiàn):

  • 相關(guān)圖的靶點(diǎn)(sweet spot)可以促使神經(jīng)網(wǎng)絡(luò)的性能極大提升;

  • 神經(jīng)網(wǎng)絡(luò)的性能與聚類系數(shù)、平均路徑長(zhǎng)度成平滑函數(shù)關(guān)系;

  • 該發(fā)現(xiàn)具有跨數(shù)據(jù)集、跨任務(wù)一致性;

  • 優(yōu)秀的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與真實(shí)生物神經(jīng)網(wǎng)絡(luò)具有驚人的相似性。

  • 該文為神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)與理解提供了一種新方向。

Introduction

神經(jīng)網(wǎng)絡(luò)可以通過(guò)計(jì)算圖方式進(jìn)行表示,神經(jīng)元可以表示為節(jié)點(diǎn),不同層神經(jīng)網(wǎng)絡(luò)之間的連接可以通過(guò)有向邊表示。這種圖表示方式說(shuō)明了神經(jīng)網(wǎng)絡(luò)如何進(jìn)行信息傳遞。

已有研究表明:神經(jīng)網(wǎng)絡(luò)的性能嚴(yán)重依賴于網(wǎng)絡(luò)架構(gòu)。但是網(wǎng)絡(luò)架構(gòu)與性能之間的關(guān)聯(lián)性卻鮮少有所研究,而這對(duì)于NAS尤為重要。從這個(gè)角度出發(fā),有這樣幾個(gè)開放性的問(wèn)題:(1) 網(wǎng)絡(luò)架構(gòu)與其性能之間是否存在系統(tǒng)性的聯(lián)系?(2) 具有優(yōu)秀性能的神經(jīng)網(wǎng)絡(luò)具有什么樣的結(jié)構(gòu)形式?(3)這種結(jié)構(gòu)形式跨數(shù)據(jù)集、跨任務(wù)的泛化性能如何?(4)是否存在一種有效的方式可以確認(rèn)給定網(wǎng)絡(luò)具有優(yōu)秀性能?

構(gòu)建這樣一種關(guān)聯(lián)性同時(shí)具有科學(xué)與使用價(jià)值,因其有助于設(shè)計(jì)更高效、更高精度額網(wǎng)絡(luò)架構(gòu),同時(shí)有助于新硬件架構(gòu)的設(shè)計(jì),理解神經(jīng)網(wǎng)絡(luò)的圖結(jié)構(gòu)有助于促進(jìn)深度學(xué)習(xí)的前進(jìn)。

然而,由于如何將神經(jīng)網(wǎng)絡(luò)映射為圖形式并不清晰明了,進(jìn)而構(gòu)建這樣一種關(guān)聯(lián)性是非常困難的。計(jì)算圖方式一種自然的選擇,但其存在這樣兩個(gè)局限性:(1)泛化性能缺失;(2)生物神經(jīng)元與神經(jīng)網(wǎng)絡(luò)的聯(lián)系缺失(生物神經(jīng)網(wǎng)絡(luò)不能通過(guò)簡(jiǎn)單的有向無(wú)環(huán)圖表示)。

為系統(tǒng)的研究神經(jīng)網(wǎng)絡(luò)的圖結(jié)構(gòu)與性能之間的關(guān)聯(lián)性,作者設(shè)計(jì)了一種稱之為相關(guān)圖的神經(jīng)網(wǎng)絡(luò)圖表示方式。關(guān)鍵聚焦于信息交互,而非交單的有向數(shù)據(jù)流。下圖a給出了示意圖,神經(jīng)元之間進(jìn)行多次信息交互,進(jìn)而可以確保新的表示方式具有更豐富多樣性的網(wǎng)絡(luò)表示。

作者同時(shí)還設(shè)計(jì)了一種稱之為"WS-flex"的圖生成器,它有助于神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)空間的系統(tǒng)探索。基于神經(jīng)科學(xué)的發(fā)現(xiàn),作者通過(guò)聚類系數(shù)與平均路徑長(zhǎng)度描述神經(jīng)網(wǎng)絡(luò),這種網(wǎng)絡(luò)架構(gòu)具有靈活性與通用性,可以將其轉(zhuǎn)換為多層感知器與卷積神經(jīng)網(wǎng)絡(luò)(見上圖c和d)。

基于圖像分類數(shù)據(jù)集CIFAR10與ImageNet,作者針對(duì)網(wǎng)絡(luò)結(jié)構(gòu)與性能之間的關(guān)聯(lián)性進(jìn)行了系統(tǒng)研究并得到了這樣幾點(diǎn)發(fā)現(xiàn):

  • 相關(guān)圖的靶點(diǎn)(sweet spot)可以促使神經(jīng)網(wǎng)絡(luò)的性能極大提升;

  • 神經(jīng)網(wǎng)絡(luò)的性能與聚類系數(shù)、平均路徑長(zhǎng)度成平滑函數(shù)關(guān)系;

  • 該發(fā)現(xiàn)具有跨數(shù)據(jù)集、跨任務(wù)一致性;

  • 相關(guān)圖的靶點(diǎn)可以進(jìn)行高效辨別,僅需要少量的相關(guān)圖與少量訓(xùn)練;

  • 優(yōu)秀的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與真實(shí)生物神經(jīng)網(wǎng)絡(luò)具有驚人的相似性。

Relational Graph

為更好的探索神經(jīng)網(wǎng)絡(luò)的圖結(jié)構(gòu),我們首先介紹一下相關(guān)圖的概念,并說(shuō)明相關(guān)圖的可以靈活的表示不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)。

Message Exchange over Graph

首先從圖的結(jié)果對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行回顧,定義圖,其中表示圖的節(jié)點(diǎn),表示節(jié)點(diǎn)之間的邊,同時(shí)每個(gè)節(jié)點(diǎn)具有一個(gè)節(jié)點(diǎn)特征。當(dāng)神經(jīng)元之間存在信息交互時(shí),我們稱上述圖定義為相關(guān)圖。信息交互通過(guò)信息函數(shù)(輸入為節(jié)點(diǎn)特征,輸出為信息)與匯聚函數(shù)(輸入為信息集合,輸出為節(jié)點(diǎn)特征)進(jìn)行定義。在每一輪信息交互過(guò)程中,每個(gè)節(jié)點(diǎn)向其近鄰節(jié)點(diǎn)發(fā)送信息,并對(duì)收到的信息進(jìn)行匯聚。每個(gè)信息通過(guò)信息函數(shù)進(jìn)行變換并在每個(gè)節(jié)點(diǎn)通過(guò)匯聚函數(shù)進(jìn)行集成。假設(shè)進(jìn)行了R輪信息交互,那么第r次的信息交互可以描述為:

其中表示近鄰節(jié)點(diǎn)集合,注:每個(gè)節(jié)點(diǎn)都與自身存在連接邊。上式提供了一種廣義的信息交互。下表給出了不同結(jié)構(gòu)的相關(guān)圖的表示配置。

下圖示出了具有4層64維的多層感知器的相關(guān)圖表示示意圖。

Fixed-width MLPs as Relational Graph

多層感知器由多個(gè)多層神經(jīng)元構(gòu)成,每個(gè)神經(jīng)元進(jìn)行輸入的加權(quán)求和,同時(shí)后接激活層。假設(shè)MLP的第r層以作為輸入,作為輸出,那么神經(jīng)元的計(jì)算可以描述為:

我們來(lái)考慮一種極端情況(輸入與輸出具有相同的維度),此時(shí)的多層感知器可以描述為完整相關(guān)圖(complete relational graph),它的每個(gè)節(jié)點(diǎn)與其他所有節(jié)點(diǎn)相關(guān)聯(lián)。定長(zhǎng)全連接MLP具有特殊的信息交互定義,。定長(zhǎng)MLP是更廣義模型下的一種特例,此時(shí)信息函數(shù)、匯聚函數(shù)以及相關(guān)圖結(jié)構(gòu)具有可變性。基于上述信息交互定義,此時(shí)有:

General Neural Networks as Relational Graph

前述公式描述奠定了定長(zhǎng)MLP表示為相關(guān)圖的基礎(chǔ),在這部分內(nèi)容中,我們將進(jìn)一步討論如何將其擴(kuò)展為更廣義的神經(jīng)網(wǎng)絡(luò)。

  • Variable-width MLP. 變長(zhǎng)MLP是一種更通用的形式,無(wú)論在MLP中還是在CNN中,特征維度通常是變長(zhǎng)的。作者提出通過(guò)Concat方式將特征擴(kuò)展為特征向量,同時(shí)將信息函數(shù)擴(kuò)展為矩陣形式,此時(shí)的變換過(guò)程描述為:

同時(shí)允許(1) 不同層的相同階段具有不同的維度;(2) 同一層內(nèi),不同節(jié)點(diǎn)具有不同的維度。這種更廣義的定義可以得到更靈活的圖表示。

  • CNN as relational graph. 我們進(jìn)一步將相關(guān)圖應(yīng)用到CNN,它的輸入為張量,信息函數(shù)同樣進(jìn)行類似擴(kuò)展,此時(shí)的變換過(guò)程可以描述為:

前述Table1給出了更詳細(xì)的節(jié)點(diǎn)特征、信息函數(shù)以及匯聚函數(shù)在不同網(wǎng)絡(luò)中的表現(xiàn)形式。

Exploring Relational Graph

在該部分內(nèi)容中,我們將描述如何設(shè)計(jì)與探索相關(guān)圖空間以更好的研究神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與其性能之間的關(guān)聯(lián)性。需要從三個(gè)維度進(jìn)行考慮:

  • Graph Measures;

  • Graph Generators;

  • Control Computational Budget

Selection of Graph Measure

給定復(fù)雜的圖結(jié)構(gòu),GraphMeasures將用于對(duì)圖屬性進(jìn)行描述。該文主要聚焦于一個(gè)全局圖度量(average path length)與一個(gè)局部圖度量(clustering coefficient)。注:這兩個(gè)度量方式已被廣泛應(yīng)用與神經(jīng)科學(xué)領(lǐng)域。更詳細(xì)定義如下:

  • Average path length measure the average shortest path distance between any pairs of nodes;

  • clustering coefficient measure the proportion of edges between the nodes within a given node's neighborhood, divided by the number of edges that could possibly exist between them, averaged over all the nodes.

Design of Graph Generators

給定所選擇的圖度量方式后,我們期望生成大量的滿足圖度量空間的相關(guān)圖,此時(shí)需要一個(gè)圖生成器。然而,傳統(tǒng)的圖生成器僅僅能生成有限類別的圖,而基于學(xué)習(xí)的方法則主要用于模仿樣板圖。

上圖左說(shuō)明了現(xiàn)有圖生成技術(shù)的局限性:僅能生成特定類型的圖。為此作者提出了一種新的圖生成器WS-flex,它可以生成更廣義的圖結(jié)果(考考上圖右)。關(guān)于WS-flex圖像生成器的描述見下圖,為避免誤導(dǎo)各位同學(xué),直接將原文搬移過(guò)來(lái):

WS-flex可以生成更多樣性的相關(guān)圖,也就是說(shuō)它幾乎可以覆蓋所有經(jīng)典圖生成方法所生成的圖,見上示意圖。它通過(guò)松弛節(jié)點(diǎn)的約束性得生成WS模型。特別的,WS-flex可以通過(guò)節(jié)點(diǎn)參數(shù)n、平均自由度k以及重置概率p進(jìn)行描述。而圖中的邊數(shù)量可以通過(guò)決定。WS-flex首先常見了一個(gè)包含節(jié)點(diǎn)連接的圖,然后隨機(jī)挑選e與n節(jié)點(diǎn)并進(jìn)行連接,最后所有邊以概率p重置。作者采用WS-flex生成器在相應(yīng)空間進(jìn)行均勻平滑采樣,最終得到了3942個(gè)圖,見Figure1c。

Controlling Computational Budget

為更好的對(duì)不同圖表示的神經(jīng)網(wǎng)絡(luò)進(jìn)行比較,我們需要確保所有的網(wǎng)絡(luò)具有相同的復(fù)雜度,從而確保了其性能差異僅源自結(jié)構(gòu)的差異。作者提出采用FLOPS作為度量準(zhǔn)則,首先計(jì)算baseline網(wǎng)絡(luò)的FLOPS,然后將其作為參考調(diào)節(jié)不同的網(wǎng)絡(luò)以匹配該復(fù)雜度(容差0.5%)。

Experimental Setup

在CIFAR10實(shí)驗(yàn)過(guò)程中,作者采用具有5層512隱層神經(jīng)元的MLP作為baseline,輸入為3072維,每個(gè)MLP層具有ReLU激活與BatchNorm。Batch=128,合計(jì)訓(xùn)練200epoch,初始學(xué)習(xí)率為0.1,學(xué)習(xí)率衰減機(jī)制為cosine。采用不同種子點(diǎn)訓(xùn)練5次取平均。

在ImageNet實(shí)驗(yàn)過(guò)程中,采用了三種類型的ResNet(ResNet34,ResNet34-sep,ResNet50)、EfficientNet-B0以及簡(jiǎn)單的類似VGG的8層CNN。所有模型分別訓(xùn)練100epoch,學(xué)習(xí)率方面同前,ResNet的Batch=256,EfficientNet-B0的batch=512。采用了不同種子點(diǎn)訓(xùn)練三次取平均。

下圖給出了不同實(shí)驗(yàn)結(jié)果的系統(tǒng)性效果圖,acf則給出了圖度量的熱圖與性能的示意圖。

總而言之,上圖顯示出了現(xiàn)有圖結(jié)構(gòu)優(yōu)于完整圖baseline,而最佳相關(guān)圖在CIFAR10上以1.4%指標(biāo)優(yōu)于完整圖baseline,在ImageNet上0.5%~1.2%的指標(biāo)優(yōu)于完整圖baseline。

與此同時(shí),我們可以看到:具有優(yōu)異性能的相關(guān)圖傾向于聚焦于靶點(diǎn)附近(見上圖f)。可以通過(guò)這樣幾個(gè)步驟尋找該靶點(diǎn):

  • 將上圖a中的3942圖下采樣為52個(gè)粗粒度的區(qū)域,每個(gè)區(qū)域記錄了對(duì)應(yīng)區(qū)域圖的性能;

  • 記錄具有最佳平均性能的粗粒度區(qū)域;

  • 與此同時(shí)記錄下與最佳平均性能相關(guān)的其他區(qū)域;

  • 覆蓋上述區(qū)域的最小面積框即為靶點(diǎn)。CIFAR10數(shù)據(jù)集上的對(duì)于5層MLP而言,它的靶點(diǎn)區(qū)域?yàn)椤?/p>

如上圖bd所示,模型性能與圖度量準(zhǔn)則之間存在二階多項(xiàng)式關(guān)系,呈現(xiàn)平滑U型相關(guān)性。

接下來(lái),我們?cè)賮?lái)分析一下相關(guān)圖跨跨數(shù)據(jù)集方面的一致性。從上圖f可以看到:靶點(diǎn)位置具有跨網(wǎng)絡(luò)結(jié)構(gòu)一致性。

全文到此結(jié)束,更多實(shí)驗(yàn)結(jié)果建議去查看原文。作者在文中進(jìn)行了大量的消融實(shí)驗(yàn)、關(guān)聯(lián)性討論、實(shí)現(xiàn)探討以及神經(jīng)網(wǎng)絡(luò)與GNN的關(guān)聯(lián)性。為避免誤導(dǎo)各位同學(xué),這里就不對(duì)實(shí)驗(yàn)部分進(jìn)行過(guò)多介紹,前面主要針對(duì)核心實(shí)驗(yàn)結(jié)果進(jìn)行了說(shuō)明。更多的實(shí)驗(yàn)分析建議各位同學(xué)去查看原文,以更好的理解作者想要表達(dá)的意思,上文僅為筆者的一點(diǎn)點(diǎn)記錄,難免有理解錯(cuò)誤之處,還望擔(dān)待。

Conclusion

該文提出了一種新的視角:采用相關(guān)圖表達(dá)分析理解神經(jīng)網(wǎng)絡(luò)。該文為傳統(tǒng)計(jì)算架構(gòu)到圖架構(gòu)研究提供了一種信息過(guò)渡。與此同時(shí),其他科學(xué)領(lǐng)域的的優(yōu)秀圖結(jié)構(gòu)與方法可以為深度神經(jīng)網(wǎng)絡(luò)的理解與設(shè)計(jì)提供幫助,該文所提方法有助于深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)的理解與設(shè)計(jì),為未來(lái)高效而輕量的網(wǎng)絡(luò)設(shè)計(jì)提供了一種引導(dǎo)。

◎作者檔案

Happy,一個(gè)愛“胡思亂想”的AI行者

個(gè)人公眾號(hào):AIWalker

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯獲取一折本站知識(shí)星球優(yōu)惠券,復(fù)制鏈接直接打開:https://t.zsxq.com/yFQV7am本站qq群1003271085。加入微信群請(qǐng)掃碼進(jìn)群:

總結(jié)

以上是生活随笔為你收集整理的【论文解读】深度学习网络架构新视角:通过相关图表达理解神经网络(何恺明团队新作)...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。