CVPR 2020 《PhraseCut: Language-based Image Segmentation in the Wild》论文笔记
目錄
- 簡介
- 動機(jī)
- 貢獻(xiàn)
- 方法
- 實(shí)驗(yàn)
簡介
本文是一篇poster,作者來自馬薩諸塞大學(xué)阿姆赫斯特分校和Adobe研究院。
明確一下本文的task:在圖片中分割出給定的短語。
下載鏈接
動機(jī)
現(xiàn)有的數(shù)據(jù)集缺乏在實(shí)際應(yīng)用中出現(xiàn)的概念的規(guī)模和多樣性(lack the scale and diversity of concepts that appear in real-world applications.),基于此問題,本文提出了VGPHRASECUT數(shù)據(jù)集。作者使用了幾個(gè) state of-the-art referring approaches在此數(shù)據(jù)集上進(jìn)行了測試,結(jié)果都不盡人意。通過分析,作者認(rèn)為這是由于數(shù)據(jù)集中的罕見類別和罕見屬性造成的(長尾效應(yīng))。
貢獻(xiàn)
方法
本文方法的整體框架如下圖所示,整個(gè)framework還是很清楚的。
Backbone encoders,對于image,使用MaskRCNN;對于phrase,使用 bi-directional LSTMs。
Category module,這部分分為三個(gè)步驟進(jìn)行。①. 基于instances features生成category channel score,假設(shè)原圖片大小為w×hw\times hw×h,共有NNN個(gè)類,生成的category channel score大小為12w×12h×N\frac{1}{2}w\times\frac{1}{2}h\times N21?w×21?h×N。②. 基于phrase embedding生成channel attention。③. 將前兩步的結(jié)果相乘,然后再做一個(gè)仿射變換,再激活一下,就得到了結(jié)果。
Attribute module,和Category module一樣,只不過通道數(shù)不一樣,這里通道數(shù)應(yīng)該是100×20100 \times 20100×20,100代表top100個(gè)objects,20代表attributes。
Relationship module,也和上文差不多,這里用的是空洞卷積,用來提高感受野。
Combining the modules,這部分有點(diǎn)似懂非懂,按照我理解的來寫吧。作者對上述得到的三個(gè)輸出進(jìn)行elementwise product and normalization,然后得到一個(gè)10-channel的score map。將category、attribute和relationship的embedding進(jìn)行concat,學(xué)得一個(gè)attention。將score map和attention結(jié)合,得到最終輸出。
實(shí)驗(yàn)
在VGPHRASECUT數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,感覺rel沒啥用呀。。。
總結(jié)
以上是生活随笔為你收集整理的CVPR 2020 《PhraseCut: Language-based Image Segmentation in the Wild》论文笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2020-07-08 CVPR2020
- 下一篇: CVPR 2020 《Where Doe