當(dāng)前位置：首頁(yè) > 人工智能 > pytorch >内容正文

pytorch

【论文解读】深度学习网络架构新视角：通过相关图表达理解神经网络（何恺明团队新作）...

發(fā)布時(shí)間：2025/3/8 pytorch 17 豆豆

生活随笔收集整理的這篇文章主要介紹了【论文解读】深度学习网络架构新视角：通过相关图表达理解神经网络（何恺明团队新作）... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章來(lái)源于極市平臺(tái)，作者Happy

標(biāo)題&作者團(tuán)隊(duì)

導(dǎo)語(yǔ)：愷明大神出品，必屬精品。Facebook的研究員從一個(gè)新奇的角度對(duì)神經(jīng)網(wǎng)絡(luò)的表示與設(shè)計(jì)進(jìn)行探索，提出了一種新穎的相關(guān)圖表示方式。它有助于對(duì)現(xiàn)有網(wǎng)絡(luò)架構(gòu)進(jìn)行更深層次的分析與性能評(píng)價(jià)。這種相關(guān)圖的表示方式、實(shí)驗(yàn)發(fā)現(xiàn)等確實(shí)挺有意思，也與現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)有一定相通之處，故推薦各位同學(xué)。

Abstract

神經(jīng)網(wǎng)絡(luò)通用被表示成圖的形式(即神經(jīng)元之間通過(guò)邊進(jìn)行鏈接)，盡管這種表示方式得到了廣泛應(yīng)用，但關(guān)于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與性能之間的關(guān)系卻鮮少有所了解。

作者系統(tǒng)的研究了神經(jīng)網(wǎng)絡(luò)的圖結(jié)構(gòu)是如何影響其性能的，為達(dá)成該目的，作者開發(fā)了一種新穎的稱之為relational graph(相關(guān)圖)的圖表示方式，神經(jīng)網(wǎng)絡(luò)的層沿圖像結(jié)構(gòu)進(jìn)行多次信息交互。基于這種圖表示方式，作者發(fā)現(xiàn)了這樣幾點(diǎn)有意思發(fā)現(xiàn)：

相關(guān)圖的靶點(diǎn)(sweet spot)可以促使神經(jīng)網(wǎng)絡(luò)的性能極大提升；
神經(jīng)網(wǎng)絡(luò)的性能與聚類系數(shù)、平均路徑長(zhǎng)度成平滑函數(shù)關(guān)系；
該發(fā)現(xiàn)具有跨數(shù)據(jù)集、跨任務(wù)一致性；
優(yōu)秀的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與真實(shí)生物神經(jīng)網(wǎng)絡(luò)具有驚人的相似性。
該文為神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)與理解提供了一種新方向。

Introduction

神經(jīng)網(wǎng)絡(luò)可以通過(guò)計(jì)算圖方式進(jìn)行表示，神經(jīng)元可以表示為節(jié)點(diǎn)，不同層神經(jīng)網(wǎng)絡(luò)之間的連接可以通過(guò)有向邊表示。這種圖表示方式說(shuō)明了神經(jīng)網(wǎng)絡(luò)如何進(jìn)行信息傳遞。

已有研究表明：神經(jīng)網(wǎng)絡(luò)的性能嚴(yán)重依賴于網(wǎng)絡(luò)架構(gòu)。但是網(wǎng)絡(luò)架構(gòu)與性能之間的關(guān)聯(lián)性卻鮮少有所研究，而這對(duì)于NAS尤為重要。從這個(gè)角度出發(fā)，有這樣幾個(gè)開放性的問(wèn)題：(1) 網(wǎng)絡(luò)架構(gòu)與其性能之間是否存在系統(tǒng)性的聯(lián)系？(2) 具有優(yōu)秀性能的神經(jīng)網(wǎng)絡(luò)具有什么樣的結(jié)構(gòu)形式？(3)這種結(jié)構(gòu)形式跨數(shù)據(jù)集、跨任務(wù)的泛化性能如何？(4)是否存在一種有效的方式可以確認(rèn)給定網(wǎng)絡(luò)具有優(yōu)秀性能？

構(gòu)建這樣一種關(guān)聯(lián)性同時(shí)具有科學(xué)與使用價(jià)值，因其有助于設(shè)計(jì)更高效、更高精度額網(wǎng)絡(luò)架構(gòu)，同時(shí)有助于新硬件架構(gòu)的設(shè)計(jì)，理解神經(jīng)網(wǎng)絡(luò)的圖結(jié)構(gòu)有助于促進(jìn)深度學(xué)習(xí)的前進(jìn)。

然而，由于如何將神經(jīng)網(wǎng)絡(luò)映射為圖形式并不清晰明了，進(jìn)而構(gòu)建這樣一種關(guān)聯(lián)性是非常困難的。計(jì)算圖方式一種自然的選擇，但其存在這樣兩個(gè)局限性：(1)泛化性能缺失；(2)生物神經(jīng)元與神經(jīng)網(wǎng)絡(luò)的聯(lián)系缺失(生物神經(jīng)網(wǎng)絡(luò)不能通過(guò)簡(jiǎn)單的有向無(wú)環(huán)圖表示)。

為系統(tǒng)的研究神經(jīng)網(wǎng)絡(luò)的圖結(jié)構(gòu)與性能之間的關(guān)聯(lián)性，作者設(shè)計(jì)了一種稱之為相關(guān)圖的神經(jīng)網(wǎng)絡(luò)圖表示方式。關(guān)鍵聚焦于信息交互，而非交單的有向數(shù)據(jù)流。下圖a給出了示意圖，神經(jīng)元之間進(jìn)行多次信息交互，進(jìn)而可以確保新的表示方式具有更豐富多樣性的網(wǎng)絡(luò)表示。

作者同時(shí)還設(shè)計(jì)了一種稱之為"WS-flex"的圖生成器，它有助于神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)空間的系統(tǒng)探索。基于神經(jīng)科學(xué)的發(fā)現(xiàn)，作者通過(guò)聚類系數(shù)與平均路徑長(zhǎng)度描述神經(jīng)網(wǎng)絡(luò)，這種網(wǎng)絡(luò)架構(gòu)具有靈活性與通用性，可以將其轉(zhuǎn)換為多層感知器與卷積神經(jīng)網(wǎng)絡(luò)(見上圖c和d)。

基于圖像分類數(shù)據(jù)集CIFAR10與ImageNet，作者針對(duì)網(wǎng)絡(luò)結(jié)構(gòu)與性能之間的關(guān)聯(lián)性進(jìn)行了系統(tǒng)研究并得到了這樣幾點(diǎn)發(fā)現(xiàn)：

相關(guān)圖的靶點(diǎn)(sweet spot)可以促使神經(jīng)網(wǎng)絡(luò)的性能極大提升；
神經(jīng)網(wǎng)絡(luò)的性能與聚類系數(shù)、平均路徑長(zhǎng)度成平滑函數(shù)關(guān)系；
該發(fā)現(xiàn)具有跨數(shù)據(jù)集、跨任務(wù)一致性；
相關(guān)圖的靶點(diǎn)可以進(jìn)行高效辨別，僅需要少量的相關(guān)圖與少量訓(xùn)練；
優(yōu)秀的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與真實(shí)生物神經(jīng)網(wǎng)絡(luò)具有驚人的相似性。

Relational Graph

為更好的探索神經(jīng)網(wǎng)絡(luò)的圖結(jié)構(gòu)，我們首先介紹一下相關(guān)圖的概念，并說(shuō)明相關(guān)圖的可以靈活的表示不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)。

Message Exchange over Graph

首先從圖的結(jié)果對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行回顧，定義圖，其中表示圖的節(jié)點(diǎn)，表示節(jié)點(diǎn)之間的邊，同時(shí)每個(gè)節(jié)點(diǎn)具有一個(gè)節(jié)點(diǎn)特征。當(dāng)神經(jīng)元之間存在信息交互時(shí)，我們稱上述圖定義為相關(guān)圖。信息交互通過(guò)信息函數(shù)(輸入為節(jié)點(diǎn)特征，輸出為信息)與匯聚函數(shù)(輸入為信息集合，輸出為節(jié)點(diǎn)特征)進(jìn)行定義。在每一輪信息交互過(guò)程中，每個(gè)節(jié)點(diǎn)向其近鄰節(jié)點(diǎn)發(fā)送信息，并對(duì)收到的信息進(jìn)行匯聚。每個(gè)信息通過(guò)信息函數(shù)進(jìn)行變換并在每個(gè)節(jié)點(diǎn)通過(guò)匯聚函數(shù)進(jìn)行集成。假設(shè)進(jìn)行了R輪信息交互，那么第r次的信息交互可以描述為：

其中表示近鄰節(jié)點(diǎn)集合，注：每個(gè)節(jié)點(diǎn)都與自身存在連接邊。上式提供了一種廣義的信息交互。下表給出了不同結(jié)構(gòu)的相關(guān)圖的表示配置。

下圖示出了具有4層64維的多層感知器的相關(guān)圖表示示意圖。

Fixed-width MLPs as Relational Graph

多層感知器由多個(gè)多層神經(jīng)元構(gòu)成，每個(gè)神經(jīng)元進(jìn)行輸入的加權(quán)求和，同時(shí)后接激活層。假設(shè)MLP的第r層以作為輸入，作為輸出，那么神經(jīng)元的計(jì)算可以描述為：

我們來(lái)考慮一種極端情況(輸入與輸出具有相同的維度)，此時(shí)的多層感知器可以描述為完整相關(guān)圖(complete relational graph),它的每個(gè)節(jié)點(diǎn)與其他所有節(jié)點(diǎn)相關(guān)聯(lián)。定長(zhǎng)全連接MLP具有特殊的信息交互定義，。定長(zhǎng)MLP是更廣義模型下的一種特例，此時(shí)信息函數(shù)、匯聚函數(shù)以及相關(guān)圖結(jié)構(gòu)具有可變性。基于上述信息交互定義，此時(shí)有：

General Neural Networks as Relational Graph

前述公式描述奠定了定長(zhǎng)MLP表示為相關(guān)圖的基礎(chǔ)，在這部分內(nèi)容中，我們將進(jìn)一步討論如何將其擴(kuò)展為更廣義的神經(jīng)網(wǎng)絡(luò)。

Variable-width MLP. 變長(zhǎng)MLP是一種更通用的形式，無(wú)論在MLP中還是在CNN中，特征維度通常是變長(zhǎng)的。作者提出通過(guò)Concat方式將特征擴(kuò)展為特征向量，同時(shí)將信息函數(shù)擴(kuò)展為矩陣形式，此時(shí)的變換過(guò)程描述為：

同時(shí)允許(1) 不同層的相同階段具有不同的維度；(2) 同一層內(nèi)，不同節(jié)點(diǎn)具有不同的維度。這種更廣義的定義可以得到更靈活的圖表示。

CNN as relational graph. 我們進(jìn)一步將相關(guān)圖應(yīng)用到CNN，它的輸入為張量，信息函數(shù)同樣進(jìn)行類似擴(kuò)展，此時(shí)的變換過(guò)程可以描述為：

前述Table1給出了更詳細(xì)的節(jié)點(diǎn)特征、信息函數(shù)以及匯聚函數(shù)在不同網(wǎng)絡(luò)中的表現(xiàn)形式。

Exploring Relational Graph

在該部分內(nèi)容中，我們將描述如何設(shè)計(jì)與探索相關(guān)圖空間以更好的研究神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與其性能之間的關(guān)聯(lián)性。需要從三個(gè)維度進(jìn)行考慮：

Graph Measures;
Graph Generators;
Control Computational Budget

Selection of Graph Measure

給定復(fù)雜的圖結(jié)構(gòu)，GraphMeasures將用于對(duì)圖屬性進(jìn)行描述。該文主要聚焦于一個(gè)全局圖度量(average path length)與一個(gè)局部圖度量(clustering coefficient)。注：這兩個(gè)度量方式已被廣泛應(yīng)用與神經(jīng)科學(xué)領(lǐng)域。更詳細(xì)定義如下：

Average path length measure the average shortest path distance between any pairs of nodes;
clustering coefficient measure the proportion of edges between the nodes within a given node's neighborhood, divided by the number of edges that could possibly exist between them, averaged over all the nodes.

Design of Graph Generators

給定所選擇的圖度量方式后，我們期望生成大量的滿足圖度量空間的相關(guān)圖，此時(shí)需要一個(gè)圖生成器。然而，傳統(tǒng)的圖生成器僅僅能生成有限類別的圖，而基于學(xué)習(xí)的方法則主要用于模仿樣板圖。

上圖左說(shuō)明了現(xiàn)有圖生成技術(shù)的局限性：僅能生成特定類型的圖。為此作者提出了一種新的圖生成器WS-flex，它可以生成更廣義的圖結(jié)果(考考上圖右)。關(guān)于WS-flex圖像生成器的描述見下圖，為避免誤導(dǎo)各位同學(xué)，直接將原文搬移過(guò)來(lái)：

WS-flex可以生成更多樣性的相關(guān)圖，也就是說(shuō)它幾乎可以覆蓋所有經(jīng)典圖生成方法所生成的圖，見上示意圖。它通過(guò)松弛節(jié)點(diǎn)的約束性得生成WS模型。特別的，WS-flex可以通過(guò)節(jié)點(diǎn)參數(shù)n、平均自由度k以及重置概率p進(jìn)行描述。而圖中的邊數(shù)量可以通過(guò)決定。WS-flex首先常見了一個(gè)包含節(jié)點(diǎn)連接的圖，然后隨機(jī)挑選e與n節(jié)點(diǎn)并進(jìn)行連接，最后所有邊以概率p重置。作者采用WS-flex生成器在相應(yīng)空間進(jìn)行均勻平滑采樣，最終得到了3942個(gè)圖，見Figure1c。

Controlling Computational Budget

為更好的對(duì)不同圖表示的神經(jīng)網(wǎng)絡(luò)進(jìn)行比較，我們需要確保所有的網(wǎng)絡(luò)具有相同的復(fù)雜度，從而確保了其性能差異僅源自結(jié)構(gòu)的差異。作者提出采用FLOPS作為度量準(zhǔn)則，首先計(jì)算baseline網(wǎng)絡(luò)的FLOPS，然后將其作為參考調(diào)節(jié)不同的網(wǎng)絡(luò)以匹配該復(fù)雜度(容差0.5%)。

Experimental Setup

在CIFAR10實(shí)驗(yàn)過(guò)程中，作者采用具有5層512隱層神經(jīng)元的MLP作為baseline，輸入為3072維，每個(gè)MLP層具有ReLU激活與BatchNorm。Batch=128，合計(jì)訓(xùn)練200epoch，初始學(xué)習(xí)率為0.1，學(xué)習(xí)率衰減機(jī)制為cosine。采用不同種子點(diǎn)訓(xùn)練5次取平均。

在ImageNet實(shí)驗(yàn)過(guò)程中，采用了三種類型的ResNet(ResNet34,ResNet34-sep，ResNet50)、EfficientNet-B0以及簡(jiǎn)單的類似VGG的8層CNN。所有模型分別訓(xùn)練100epoch，學(xué)習(xí)率方面同前，ResNet的Batch=256，EfficientNet-B0的batch=512。采用了不同種子點(diǎn)訓(xùn)練三次取平均。

下圖給出了不同實(shí)驗(yàn)結(jié)果的系統(tǒng)性效果圖，acf則給出了圖度量的熱圖與性能的示意圖。

總而言之，上圖顯示出了現(xiàn)有圖結(jié)構(gòu)優(yōu)于完整圖baseline，而最佳相關(guān)圖在CIFAR10上以1.4%指標(biāo)優(yōu)于完整圖baseline，在ImageNet上0.5%~1.2%的指標(biāo)優(yōu)于完整圖baseline。

與此同時(shí)，我們可以看到：具有優(yōu)異性能的相關(guān)圖傾向于聚焦于靶點(diǎn)附近(見上圖f)。可以通過(guò)這樣幾個(gè)步驟尋找該靶點(diǎn)：

將上圖a中的3942圖下采樣為52個(gè)粗粒度的區(qū)域，每個(gè)區(qū)域記錄了對(duì)應(yīng)區(qū)域圖的性能；
記錄具有最佳平均性能的粗粒度區(qū)域；
與此同時(shí)記錄下與最佳平均性能相關(guān)的其他區(qū)域；
覆蓋上述區(qū)域的最小面積框即為靶點(diǎn)。CIFAR10數(shù)據(jù)集上的對(duì)于5層MLP而言，它的靶點(diǎn)區(qū)域?yàn)椤?/p>

如上圖bd所示，模型性能與圖度量準(zhǔn)則之間存在二階多項(xiàng)式關(guān)系，呈現(xiàn)平滑U型相關(guān)性。

接下來(lái)，我們?cè)賮?lái)分析一下相關(guān)圖跨跨數(shù)據(jù)集方面的一致性。從上圖f可以看到：靶點(diǎn)位置具有跨網(wǎng)絡(luò)結(jié)構(gòu)一致性。

全文到此結(jié)束，更多實(shí)驗(yàn)結(jié)果建議去查看原文。作者在文中進(jìn)行了大量的消融實(shí)驗(yàn)、關(guān)聯(lián)性討論、實(shí)現(xiàn)探討以及神經(jīng)網(wǎng)絡(luò)與GNN的關(guān)聯(lián)性。為避免誤導(dǎo)各位同學(xué)，這里就不對(duì)實(shí)驗(yàn)部分進(jìn)行過(guò)多介紹，前面主要針對(duì)核心實(shí)驗(yàn)結(jié)果進(jìn)行了說(shuō)明。更多的實(shí)驗(yàn)分析建議各位同學(xué)去查看原文，以更好的理解作者想要表達(dá)的意思，上文僅為筆者的一點(diǎn)點(diǎn)記錄，難免有理解錯(cuò)誤之處，還望擔(dān)待。

Conclusion

該文提出了一種新的視角：采用相關(guān)圖表達(dá)分析理解神經(jīng)網(wǎng)絡(luò)。該文為傳統(tǒng)計(jì)算架構(gòu)到圖架構(gòu)研究提供了一種信息過(guò)渡。與此同時(shí)，其他科學(xué)領(lǐng)域的的優(yōu)秀圖結(jié)構(gòu)與方法可以為深度神經(jīng)網(wǎng)絡(luò)的理解與設(shè)計(jì)提供幫助，該文所提方法有助于深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)的理解與設(shè)計(jì)，為未來(lái)高效而輕量的網(wǎng)絡(luò)設(shè)計(jì)提供了一種引導(dǎo)。

◎作者檔案

Happy，一個(gè)愛“胡思亂想”的AI行者

個(gè)人公眾號(hào)：AIWalker

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯獲取一折本站知識(shí)星球優(yōu)惠券，復(fù)制鏈接直接打開：https://t.zsxq.com/yFQV7am本站qq群1003271085。加入微信群請(qǐng)掃碼進(jìn)群：

總結(jié)

以上是生活随笔為你收集整理的【论文解读】深度学习网络架构新视角：通过相关图表达理解神经网络（何恺明团队新作）...的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：【机器学习基础】机器学习模型的度量选择（
下一篇：【机器学习基础】机器学习模型的度量选择（