當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

AOGNet：基于深度 AND-OR 语法网络的目标识别方法 | PaperDaily #28

發(fā)布時間：2024/10/8 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了 AOGNet：基于深度 AND-OR 语法网络的目标识别方法 | PaperDaily #28 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

在碎片化閱讀充斥眼球的時代，越來越少的人會去關(guān)注每篇論文背后的探索和思考。

在這個欄目里，你會快速 get 每篇精選論文的亮點和痛點，時刻緊跟 AI 前沿成果。

點擊本文底部的「閱讀原文」即刻加入社區(qū)，查看更多最新論文推薦。

這是 PaperDaily 的第?28?篇文章

本期推薦的論文筆記來自 PaperWeekly 社區(qū)用戶 @duinodu。本文研究的問題是深度學習中的網(wǎng)絡工程問題。如何設計更好的網(wǎng)絡結(jié)構(gòu)，是目前的一個研究熱點。這樣的網(wǎng)絡結(jié)構(gòu)一旦被設計出來，可以馬上用于很多其他任務。

本文貢獻主要有兩點：

1. 把語法模型和深度神經(jīng)網(wǎng)絡模型結(jié)合起來，設計的模型同時兼顧特征的 exploration and exploitation（探索和利用），并在網(wǎng)絡的深度和寬度上保持平衡；

2. 設計的網(wǎng)絡結(jié)構(gòu)，在分類任務和目標檢測任務上，都比基于殘差結(jié)構(gòu)的方法要好。

如果你對本文工作感興趣，點擊底部的閱讀原文即可查看原論文。

關(guān)于作者：杜敏，華中科技大學碩士生，研究方向為模式識別與智能系統(tǒng)。

■?論文 | AOGNets: Deep AND-OR Grammar Networks for Visual Recognition

■ 鏈接 | https://www.paperweekly.site/papers/1315

■ 作者 | duinodu

論文亮點

網(wǎng)絡工程問題，屬于深度學習中比較基礎的問題。網(wǎng)絡工程的最大難點在于，由于缺乏對深度神經(jīng)網(wǎng)絡的理論理解，無法根據(jù)某種理論來設計網(wǎng)絡結(jié)構(gòu)，實際中更多的不斷地嘗試，根據(jù)實驗反饋來確定某種結(jié)構(gòu)是不是好。

而使用像增強學習、進化算法等自動學習網(wǎng)絡結(jié)構(gòu)的方法，搜索空間巨大。有兩個子空間，一個是結(jié)構(gòu)連接子空間，一個是運算符子空間，搜索空間是這兩個空間的乘積，自動學習網(wǎng)絡結(jié)構(gòu)的算法需要昂貴的計算資源。?

本文的解決辦法是，把語法模型（grammer model）放到神經(jīng)網(wǎng)絡的設計中來，在分類和目標檢測任務中，均取得比基于殘差結(jié)構(gòu)的模型更好的效果。

模型介紹

整個模型概覽圖如下：

中間有 4 個 AOG 構(gòu)建塊，每個 AOG 塊的結(jié)構(gòu)如下圖所示：

AOG 的全稱叫 AND-OR graph，是一種語法模型（grammer model）。在人工智能的發(fā)展歷程中，大體有兩種解決辦法：一種是自底向上，即目前非常流形的深度神經(jīng)網(wǎng)絡方法，另一種方法是自頂向下，語法模型可以認為是一種自頂向下的方法。

所謂的語法模型，即規(guī)定 3-4 條規(guī)則，構(gòu)建 graph，graph 可以認為是一種特征表達的范式，它沒有具體規(guī)定特征表達是什么形式，但是如果遵循這種規(guī)則構(gòu)建特征表達，卻能達到比較好的效果。本文使用如下三條語法規(guī)則：

AOGNet 的構(gòu)建流程如下：

可以配合視頻[1]，看這個流程圖。?

網(wǎng)絡工程分為兩個部分：設計連接結(jié)構(gòu)和設計運算操作符（structure space 和 operator space）。

整個的 CNN 發(fā)展歷程，都可以歸結(jié)到這兩點。論文的相關(guān)工作部分，很好地對 CNN 網(wǎng)絡結(jié)構(gòu)的演變，梳理了一番，有如下網(wǎng)絡結(jié)構(gòu)：

LeNet-5（20 年前）
AlexNet（8 層，在 operator space 提出兩種新的操作符：ReLU 和 Dropout)）
VGG Net（19 層，多個連續(xù)的重復的小卷積核，且卷積的 stride 很小）
network-in-network（用 1x1 的卷積，在層層之間，增大或者較少特征的維數(shù)）
GoogleNet（inception, bottleneck）
Highway network（skip connection）
Residual Network（Residual connection）
Fractal Net（another short path without residual）
DenseNet（concatenation scheme）
Dual Path Network SE-Net（channel-wise encoding）
Hourglass（subsampling & upsampling）

使用三條語法規(guī)則構(gòu)建了網(wǎng)絡連接方式，網(wǎng)絡中每個節(jié)點的運算操作符采用 Bottleneck + Conv_BN_ReLU 的方式。

其實可以不同的節(jié)點，設計不同的運算符，作者這里都統(tǒng)一成一樣的。處理上面統(tǒng)一的運算符，各個不同的節(jié)點還要分別做下面的運算。

實驗結(jié)果

在 CIFAR 和 ImageNet-1k 上做了分類的實驗，在 VOC0712 做了目標檢測的實驗（使用 fasterRCNN 框架）。

文章評價

本文作者團隊是朱松純教授[2]組的，他們組一直在做語法模型。之前讀過他寫的《人工智能的現(xiàn)狀、任務、架構(gòu)和統(tǒng)一》[3]，看到這篇文章以及了解了語法模型，才算是了解朱松純組到底要做什么樣的事情。?

語法模型和深度神經(jīng)網(wǎng)絡，是可以相互融合的方法，前者基于規(guī)則，后者基于大量數(shù)據(jù)擬合。本文只是語法模型的冰山一角，另一篇論文?Interpretable R-CNN?[4]，也用到了語法模型，和 RFCN 方法結(jié)合，獲得一種目標的 part configuration。

這種語法模型目前還在探索之中，尤其是和深度神經(jīng)網(wǎng)絡結(jié)合的工作，以及和 GAN、RL 等不同范式的深度學習方法結(jié)合，應該會有有趣的工作。

生活随笔