CVPR2020论文解读:手绘草图卷积网络语义分割
CVPR2020論文解讀:手繪草圖卷積網(wǎng)絡(luò)語義分割
Sketch GCN: Semantic Sketch Segmentation with
Graph Convolutional Networks
論文鏈接:https://arxiv.org/pdf/2003.00678.pdf
摘要
介紹了一種用于手繪草圖語義分割和標注的圖形卷積神經(jīng)網(wǎng)絡(luò)SketchGCN。我們將輸入草圖視為二維點集,并將筆劃結(jié)構(gòu)信息編碼為圖形節(jié)點/邊緣表示。為了預(yù)測每個點的標簽,我們的SketchGCN使用圖卷積和全局分支網(wǎng)絡(luò)結(jié)構(gòu)來提取筆劃內(nèi)和筆劃間的特征。SketchGCN顯著提高了語義草圖分割的最新方法的準確性(在基于像素的度量中提高了11.4%,在基于組件的度量中提高了18.2%,在大規(guī)模具有挑戰(zhàn)性的SPG數(shù)據(jù)集上),并且比基于圖像和基于序列的方法具有更少的參數(shù)。
Introduction
隨著數(shù)字觸摸設(shè)備(如智能手機、平板電腦)和各種基于草圖的界面的不斷迭代,手繪草圖正成為人與機器之間常見的交互手段之一。然而,由于用戶草圖中固有的模糊性和稀疏性,草圖的解釋對于計算機來說仍然是困難的,因為草圖通常是以不同的抽象層次、藝術(shù)形式和繪圖風格創(chuàng)建的。雖然許多以前的工作試圖解釋整個草圖(例如,用于草圖分類和基于草圖的檢索[6,7,39,27]),但在多個草圖應(yīng)用中,部件級草圖分析越來越需要,包括草圖標題[28]、草圖生成[24,31]、基于草圖的三維建模[38],以及三維草圖重建[18]。在本文中,我們主要關(guān)注草圖對象的語義分割和標記,這是內(nèi)部草圖分析的一個基本任務(wù)。
我們提出了一個雙分支網(wǎng)絡(luò):一個使用原始稀疏結(jié)構(gòu)的分支,另一個使用動態(tài)邊緣,以平衡正確性和效率。我們的主要貢獻如下:
(1)
提出了第一種基于GCN的草圖對象語義分割和標注方法;
(2)
與基于圖像的方法和基于序列的方法相比,我們的方法顯著地提高了最新技術(shù)的準確性,并且具有更少的參數(shù)。
Related Work
Sketch Grouping.
草圖分組將筆劃劃分為多個簇,每個簇對應(yīng)于一個對象零件。
Semantic Sketch Segmentation.
語義草圖分割方法將數(shù)據(jù)標記成語義組。
Graph Convolutional Networks.
圖卷積網(wǎng)絡(luò)(GCNs)在許多應(yīng)用中得到了應(yīng)用,例如處理社交網(wǎng)絡(luò)[32]、推薦引擎[20,40]和自然語言處理[1]。GCN也適用于處理二維和三維點云數(shù)據(jù)。
為了更好地捕捉全局和局部特征,我們將采用兩分支網(wǎng)絡(luò),并使用靜態(tài)和動態(tài)圖形卷積。最近,李等人
[14] 利用殘余連接、稠密連接和擴張卷積來解決GCN中的梯度消失和過光滑問題[19,13,37]。我們的方法在構(gòu)建多層gcn時也利用了類似的思想。
Overview
圖1顯示了我們網(wǎng)絡(luò)的管道。給定一個輸入草圖,我們首先從基本筆劃結(jié)構(gòu)構(gòu)造一個圖形,并使用信息中的絕對坐標作為圖形節(jié)點的特征(第4.1節(jié))。然后將圖和節(jié)點特征輸入兩個分支(第4.2節(jié)):局部分支由多個靜態(tài)圖卷積單元組成;全局分支由動態(tài)圖卷積單元和混合池塊(第4.3節(jié))組成,包括最大池操作和筆劃池操作。將兩個分支的學習特征串接到多層感知器(MLP)中進行最終的分割和標記。兩個分支結(jié)構(gòu)根據(jù)草圖結(jié)構(gòu)的獨特性進行裁剪,學習草圖的筆劃內(nèi)特征和筆劃間特征。在局部分支中,信息只在單個筆劃中流動,因為不同筆劃在輸入圖中沒有連接。與全局分支相比,我們增加了與擴張的KNN函數(shù)發(fā)現(xiàn)的節(jié)點的額外連接。我們使用兩個池操作來聚合草圖級信息和筆劃級信息,以提供層次化的全局特征。在我們的實驗中,使用筆劃水平聚合的筆劃池操作被證明對任務(wù)有很大好處(第5.3節(jié))。
- Methodology
在本節(jié)中,我們首先解釋基于圖形的草圖表示作為網(wǎng)絡(luò)的輸入。然后介紹了在兩個分支中分別使用的兩個圖卷積單元,然后描述了我們在全局分支的混合池塊中的新的筆劃池操作。
4.1. Input Representation
將一個素描表示為n點集P= {PI=(Xi,Yi)} I=1,2,……,n,其中席席和Yi是點PI的2D絕對坐標。
4.2. Graph Convolutional Unit
在我們的網(wǎng)絡(luò)中,我們使用兩種類型的圖卷積單元:用于局部分支的靜態(tài)圖卷積單元(簡稱SConv)和用于全局分支的動態(tài)圖卷積單元(簡稱DConv)。兩個單元使用相同的圖卷積運算。
Graph Convolution Operation.
我們使用與[34]中相同的圖形卷積操作,為了便于閱讀,brie fley在這里解釋了該操作。給定第l層的圖,其中Vl和El分別是圖Gl中的頂點和邊,是一組節(jié)點特征,每個特征都在第l層的頂點處定義。
Graph Updating Strategy.
4.3. Mix Pooling Block
混合池塊設(shè)計用于通過最大池操作學習草圖級特征,并通過草圖池操作學習筆劃級特征。在應(yīng)用兩種合并操作之前,我們分別使用具有可學習權(quán)重的不同多層感知器來轉(zhuǎn)換全局特征。我們使用max pooling操作來聚合草圖級別的特征,類似于三維點云分析中使用的許多現(xiàn)有方法[2,30],
對于筆劃級別的特征,我們提出了一個新的池操作,稱為筆劃池,來聚合每個筆劃上的特征,
Sr是草圖中的第r個筆劃,s是草圖中的筆劃數(shù)。注:對于同一筆劃內(nèi)的點,筆劃池產(chǎn)生相同的fstroke。最終MLP層中使用的全部特性是混合池塊輸出(即筆劃級特性Fstroke和草圖級特性Fsketch)和本地分支輸出(即本地特性fslocal)的連接:
- Experiments Results
如圖1所示,我們的網(wǎng)絡(luò)在本地分支和全局分支中都使用L=4的圖卷積單元。每個圖形卷積單元通過首先連接點特征,然后使用隱藏大小為32的多層感知器,從連接點對計算邊緣特征。然后,它通過聚集相鄰的邊緣特征來更新點特征。在全局分支中,我們分別使用最近鄰數(shù)K=8和層0到3的擴張率d=1,4,8,16的有向KNN函數(shù)找到的動態(tài)邊。在混合池塊中,我們在每個池操作之前應(yīng)用隱藏大小為128的多層感知器。將全局特征與局部特征合并并重復后,輸入隱藏大小為[128,64,C]的多層感知器,得到最終的預(yù)測結(jié)果。
表1和表2列出了SPG和SketchSeg-150K數(shù)據(jù)集上不同方法的定量結(jié)果。我們使用與[16,36]中相同的數(shù)據(jù)分割集。我們的方法在很大程度上優(yōu)于其他方法:在像素度量方面平均比FastSeg+GC[17]高11.4%,在SPG數(shù)據(jù)集上平均比FastSeg+GC[17]高18.2%,后者在現(xiàn)有方法中表現(xiàn)最好,在SketchSeg150K數(shù)據(jù)集上,像素度量平均提高3%,組件度量平均提高6%。SketchSeg-150K數(shù)據(jù)集的性能增益較小,主要是因為該數(shù)據(jù)集的標記粗糙,每個類別的語義標簽較少(SketchSeg-150K中每個類別有2-4個標簽,而SPG中每個類別有3-7個標簽),因此對現(xiàn)有方法的挑戰(zhàn)較小。
圖2顯示了我們的方法與[16]和[17]的方法之間的一些有代表性的視覺比較。基于序列的表示[16]使用點繪制順序及其相對坐標,忽略了筆劃之間的接近性,導致結(jié)果不令人滿意(圖2,第一列)。基于圖像的方法[17]不知道筆劃結(jié)構(gòu),因此主要依賴于局部圖像結(jié)構(gòu),這也導致較差的結(jié)果。
表3和表4顯示了各自的定量結(jié)果。在Huang14數(shù)據(jù)集中,獨立行程通常包含許多寬敞的小段(如圖3,頂行)。
總的來說,我們的方法+GC在Huang14數(shù)據(jù)集上的像素度量平均提高了0.7%,分量度量平均提高了2.2%(比FastSeg+GC),在TU Berlin數(shù)據(jù)集上的像素度量平均提高了5.0%,分量度量平均提高了5.0%。
在黃14數(shù)據(jù)集上,我們的結(jié)果只是稍微好一點比基于CNN的方法FastSeg+GC[17]更糟(在某些類別中,甚至更糟,見表3)。
這主要是由于從3D模型渲染的合成數(shù)據(jù)與真實的手繪數(shù)據(jù)之間存在較大的域間隙,如圖3所示。對于基于GCN的方法來說,大的域間隙可能會導致較大的結(jié)構(gòu)噪聲,從而完全捕獲筆劃結(jié)構(gòu)。然而,我們的方法仍然能夠達到最先進的性能。
圖4示出了具有分割誤差的若干分割結(jié)果。我們方法的不完善主要是由兩個因素引起的。首先,由于手繪草圖在零件位置和形狀上固有的模糊性,我們的模型可能會給筆劃指定錯誤的標簽。例如,在圖4(a)中,仙人掌的樹枝被錯誤地指定為刺,(b)袋子頂部的帶子被標記為把手。其次,列車數(shù)據(jù)和測試數(shù)據(jù)之間的巨大差異也可能誤導我們的模型(圖4(d)):列車數(shù)據(jù)中的黃油味總是展開機翼,而本圖中的測試示例中黃油味折疊其機翼,視角不同。我們認為領(lǐng)域差距是當前基于學習的方法的一個共同問題。然而,圖2中的可視化結(jié)果以及黃14和圖柏林數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)(表3和表4)表明了我們模型的泛化能力。最后,由于我們的圖形表示只扭曲節(jié)點位置和鄰近度等特征,因此我們的模型不知道一些高級語義,例如“人臉只能有一個鼻子”(見圖4(c))。我們相信這個問題可以通過在我們的圖形表示中加入更多的語義特征而得到緩解,我們將留待以后的工作。
- Conclusion
在這項工作中,我們提出了第一個用于語義草圖分割和標記的圖形卷積網(wǎng)絡(luò)。我們的SketchGCN使用靜態(tài)圖形卷積單元和動態(tài)圖形卷積單元,分別使用兩個分支架構(gòu)來提取筆劃內(nèi)和筆劃間的特征。通過一種新的筆劃池操作,使得筆劃內(nèi)標記更加一致,我們的方法在多個草圖數(shù)據(jù)集中的參數(shù)顯著減少的情況下,比最新的方法獲得更高的精度。在我們目前的實驗中,我們只使用絕對位置作為圖形節(jié)點的特征,而忽略了筆劃的順序、方向、空間關(guān)系等信息,未來我們將以更加靈活的圖形結(jié)構(gòu)來開發(fā)這些信息。另一種可能是利用遞歸模塊來學習完整的圖形表示。最后,為場景級草圖分割和草圖識別任務(wù)重塑我們的體系結(jié)構(gòu)可能是一個有趣的方向。
總結(jié)
以上是生活随笔為你收集整理的CVPR2020论文解读:手绘草图卷积网络语义分割的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CVPR2020论文解析:视频语义检索
- 下一篇: 图像分类:CVPR2020论文解读