AOGNet:基于深度 AND-OR 语法网络的目标识别方法 | PaperDaily #28
在碎片化閱讀充斥眼球的時代,越來越少的人會去關(guān)注每篇論文背后的探索和思考。
在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。
點擊本文底部的「閱讀原文」即刻加入社區(qū),查看更多最新論文推薦。
這是 PaperDaily 的第?28?篇文章 本期推薦的論文筆記來自 PaperWeekly 社區(qū)用戶 @duinodu。本文研究的問題是深度學習中的網(wǎng)絡工程問題。如何設計更好的網(wǎng)絡結(jié)構(gòu),是目前的一個研究熱點。這樣的網(wǎng)絡結(jié)構(gòu)一旦被設計出來,可以馬上用于很多其他任務。
本文貢獻主要有兩點:
1. 把語法模型和深度神經(jīng)網(wǎng)絡模型結(jié)合起來,設計的模型同時兼顧特征的 exploration and exploitation(探索和利用),并在網(wǎng)絡的深度和寬度上保持平衡;
2. 設計的網(wǎng)絡結(jié)構(gòu),在分類任務和目標檢測任務上,都比基于殘差結(jié)構(gòu)的方法要好。
如果你對本文工作感興趣,點擊底部的閱讀原文即可查看原論文。
關(guān)于作者:杜敏,華中科技大學碩士生,研究方向為模式識別與智能系統(tǒng)。
■?論文 | AOGNets: Deep AND-OR Grammar Networks for Visual Recognition
■ 鏈接 | https://www.paperweekly.site/papers/1315
■ 作者 | duinodu
論文亮點
網(wǎng)絡工程問題,屬于深度學習中比較基礎的問題。網(wǎng)絡工程的最大難點在于,由于缺乏對深度神經(jīng)網(wǎng)絡的理論理解,無法根據(jù)某種理論來設計網(wǎng)絡結(jié)構(gòu),實際中更多的不斷地嘗試,根據(jù)實驗反饋來確定某種結(jié)構(gòu)是不是好。
而使用像增強學習、進化算法等自動學習網(wǎng)絡結(jié)構(gòu)的方法,搜索空間巨大。有兩個子空間,一個是結(jié)構(gòu)連接子空間,一個是運算符子空間,搜索空間是這兩個空間的乘積,自動學習網(wǎng)絡結(jié)構(gòu)的算法需要昂貴的計算資源。?
本文的解決辦法是,把語法模型(grammer model)放到神經(jīng)網(wǎng)絡的設計中來,在分類和目標檢測任務中,均取得比基于殘差結(jié)構(gòu)的模型更好的效果。
模型介紹
整個模型概覽圖如下:
中間有 4 個 AOG 構(gòu)建塊,每個 AOG 塊的結(jié)構(gòu)如下圖所示:
AOG 的全稱叫 AND-OR graph,是一種語法模型(grammer model)。在人工智能的發(fā)展歷程中,大體有兩種解決辦法:一種是自底向上,即目前非常流形的深度神經(jīng)網(wǎng)絡方法,另一種方法是自頂向下,語法模型可以認為是一種自頂向下的方法。
所謂的語法模型,即規(guī)定 3-4 條規(guī)則,構(gòu)建 graph,graph 可以認為是一種特征表達的范式,它沒有具體規(guī)定特征表達是什么形式,但是如果遵循這種規(guī)則構(gòu)建特征表達,卻能達到比較好的效果。本文使用如下三條語法規(guī)則:
AOGNet 的構(gòu)建流程如下:
可以配合視頻[1],看這個流程圖。?
網(wǎng)絡工程分為兩個部分:設計連接結(jié)構(gòu)和設計運算操作符(structure space 和 operator space)。
整個的 CNN 發(fā)展歷程,都可以歸結(jié)到這兩點。論文的相關(guān)工作部分,很好地對 CNN 網(wǎng)絡結(jié)構(gòu)的演變,梳理了一番,有如下網(wǎng)絡結(jié)構(gòu):
LeNet-5(20 年前)
AlexNet(8 層,在 operator space 提出兩種新的操作符:ReLU 和 Dropout))
VGG Net(19 層,多個連續(xù)的重復的小卷積核,且卷積的 stride 很小)
network-in-network(用 1x1 的卷積,在層層之間,增大或者較少特征的維數(shù))
GoogleNet(inception, bottleneck)
Highway network(skip connection)
Residual Network(Residual connection)
Fractal Net(another short path without residual)
DenseNet(concatenation scheme)
Dual Path Network SE-Net(channel-wise encoding)
Hourglass(subsampling & upsampling)
使用三條語法規(guī)則構(gòu)建了網(wǎng)絡連接方式,網(wǎng)絡中每個節(jié)點的運算操作符采用 Bottleneck + Conv_BN_ReLU 的方式。
其實可以不同的節(jié)點,設計不同的運算符,作者這里都統(tǒng)一成一樣的。處理上面統(tǒng)一的運算符,各個不同的節(jié)點還要分別做下面的運算。
實驗結(jié)果
在 CIFAR 和 ImageNet-1k 上做了分類的實驗,在 VOC0712 做了目標檢測的實驗(使用 fasterRCNN 框架)。
文章評價
本文作者團隊是朱松純教授[2]組的,他們組一直在做語法模型。之前讀過他寫的《人工智能的現(xiàn)狀、任務、架構(gòu)和統(tǒng)一》[3],看到這篇文章以及了解了語法模型,才算是了解朱松純組到底要做什么樣的事情。?
語法模型和深度神經(jīng)網(wǎng)絡,是可以相互融合的方法,前者基于規(guī)則,后者基于大量數(shù)據(jù)擬合。本文只是語法模型的冰山一角,另一篇論文?Interpretable R-CNN?[4],也用到了語法模型,和 RFCN 方法結(jié)合,獲得一種目標的 part configuration。
這種語法模型目前還在探索之中,尤其是和深度神經(jīng)網(wǎng)絡結(jié)合的工作,以及和 GAN、RL 等不同范式的深度學習方法結(jié)合,應該會有有趣的工作。
相關(guān)鏈接
[1] AOGNet 構(gòu)建流程視頻
http://v.youku.com/v_show/id_XMzIxNDU4MTQ4NA
[2] 朱松純教授主頁
http://www.stat.ucla.edu/~sczhu/
[3] 人工智能的現(xiàn)狀、任務、架構(gòu)和統(tǒng)一
http://www.stat.ucla.edu/~sczhu/Blog_articles/淺談人工智能.pdf
[4] Interpretable R-CNN
https://www.paperweekly.site/papers/1215
本文由 AI 學術(shù)社區(qū) PaperWeekly 精選推薦,社區(qū)目前已覆蓋自然語言處理、計算機視覺、人工智能、機器學習、數(shù)據(jù)挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區(qū)!
??我是彩蛋?
解鎖新功能:熱門職位推薦!
PaperWeekly小程序升級啦
今日arXiv√猜你喜歡√熱門職位√
找全職找實習都不是問題
?
?解鎖方式?
1. 識別下方二維碼打開小程序
2. 用PaperWeekly社區(qū)賬號進行登陸
3. 登陸后即可解鎖所有功能
?職位發(fā)布?
請?zhí)砑有≈治⑿?#xff08;pwbot01)進行咨詢
?
長按識別二維碼,使用小程序
*點擊閱讀原文即可注冊
? ? ? ? ???
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 查看原論文
總結(jié)
以上是生活随笔為你收集整理的AOGNet:基于深度 AND-OR 语法网络的目标识别方法 | PaperDaily #28的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Github 本周最热的 10 款「机器
- 下一篇: 触类旁通,专业技能热度智能分析 | 论文