ICCV 2019 论文解读 | 基于层次解析的Image Captioning
?PaperWeekly 原創(chuàng) ·?作者|蔡文杰
學(xué)校|華南理工大學(xué)
研究方向|計(jì)算機(jī)視覺
目前大多數(shù)的 image captioning 模型采用的都是 encoder-decoder 的框架。本文在 encoder 的部分加入了層次解析(Hierarchy Parsing, HIP)結(jié)構(gòu)。HIP 把圖片解析成樹狀結(jié)構(gòu):根節(jié)點(diǎn)是整個(gè)圖片,中間節(jié)點(diǎn)則是通過把圖片分解成一系列 Region-level 的區(qū)域來(lái)得到的,而葉子節(jié)點(diǎn)則是在 Region-level 的基礎(chǔ)上應(yīng)用圖像分割,得到 Instance-level 的區(qū)域,如下圖所示。
由于這樣的過程建立起了一個(gè)樹狀的結(jié)構(gòu),文章應(yīng)用了 Tree-LSTM 來(lái)增強(qiáng)性能。最后,文章還用了 GCN 對(duì) Region-level 和 Instance-level 之間的關(guān)系進(jìn)行編碼,把 CIDEr-D 提高到了 130.6。?
文章的主要貢獻(xiàn)就是在 Image capioning 任務(wù)中提出了 HIP 對(duì)圖像進(jìn)行層級(jí)架構(gòu)的解析。實(shí)際上,文章把 HIP 認(rèn)為是一種 feature optimizer,對(duì) Image-level、Region-level、Instance Level 的特征做整合。這也是大多數(shù)做 image captioning 文章的思路,包括各種 attention 機(jī)制、利用更豐富的圖像信息等,主要目的都是為了增強(qiáng)圖像特征。本文發(fā)表在 ICCV 2019 上。
論文標(biāo)題:Hierarchy Parsing for Image Captioning
論文鏈接:https://arxiv.org/abs/1909.03918
論文方法
Hierarchy Parsing in Images?
本節(jié)首先介紹如何對(duì)圖像進(jìn)行層次解析。
Regions and Instances of Image?
文章分別使用了兩個(gè) Faster R-CNN 來(lái)分別提取 region 和 instance 的特征。?
對(duì)于 region 特征的提取,文章用的就是 Up-Down Attention [3] 里面的方法:在 Visual Genome 數(shù)據(jù)集上訓(xùn)練一個(gè) backbone 為 ResNet-101 的 Faster R-CNN,提取里面 pool 5 層的特征。?
對(duì)于 instance 的特征,文章則是訓(xùn)練了另一個(gè) Faster R-CNN 來(lái)進(jìn)行提取。如下圖所示,首先使用 Mask R-CNN 提取圖像的前景區(qū)域圖像(通過 Mask 與原圖點(diǎn)乘),然后再用 Faster R-CNN 來(lái)提取對(duì)應(yīng)前景的每個(gè) instance 的特征。其中兩個(gè) Faster R-CNN 的輸入、參數(shù)都不共享。
Hierarchy Structure of an Image?
對(duì)于圖像層級(jí)關(guān)系的建立,文章是通過下列方式確立的:由于圖像中的 regions 會(huì)包含一些從屬關(guān)系(例如,glasses 和 hat 都屬于 man 的區(qū)域),如果某個(gè) region 與比它小的 region 的 IoU 大于某個(gè)閾值 ?,那么這個(gè)小的 region 就成為大的 region 的子節(jié)點(diǎn)。通過對(duì)所有 region 根據(jù)面積進(jìn)行降序排列并遍歷后續(xù) region 計(jì)算 IoU,可以把圖像的層級(jí)關(guān)系建立起來(lái)。最后,再把 instance 連接到每個(gè) region 后作為最終的葉子節(jié)點(diǎn)。?
Image Encoder with Tree-LSTM?
文章使用了 Tree-LSTM 來(lái)對(duì)三個(gè)層次的特征進(jìn)行編碼,可以促進(jìn)層次結(jié)構(gòu)內(nèi)的上下文信息挖掘,從而通過整體層次結(jié)構(gòu)來(lái)增強(qiáng)圖像特征。傳統(tǒng)的 LSTM 只通過上一個(gè)時(shí)刻的隱狀態(tài)??更新記憶單元?,而 Tree-LSTM 的更新則是依賴于多個(gè)子節(jié)點(diǎn)??的隱狀態(tài)。如圖所示:
Tree-LSTM 公式如下:
對(duì)于 region-level 和 instance-level 的節(jié)點(diǎn),它們的輸入則分別是它們的特征??和?,對(duì)于 image-level 的根節(jié)點(diǎn),它的輸入則是 region-level 和 instance-level 特征的平均:,其中?,。
最終,通過用 Tree-LSTM 的方式進(jìn)行編碼,每一個(gè) region 的輸出特征包含了它的 instance 區(qū)域特征以及子節(jié)點(diǎn)的 region 區(qū)域特征,表示為?。而 image-level 的輸出特征則表示為?。?
Image Captioning with Hierarchy Parsing?
接下來(lái),本節(jié)介紹如何把解析后的層次特征運(yùn)用到 Image captioning 任務(wù)里。文章分別把這些特征用到了 Up-Down Attention [1] 以及 GCN-LSTM [3] 里,如下圖所示。
首先簡(jiǎn)單回顧一下 Up-Down Attention。Up-Down Attention 包含兩個(gè) LSTM,分別是:?
1. Attention LSTM,接收全局圖像特征、上一時(shí)刻生成的單詞和 Language LSTM 的隱狀態(tài)來(lái)分配 attention 權(quán)重;
2. Language LSTM,接收加權(quán)后的區(qū)域特征和 Attention LSTM 的隱狀態(tài)來(lái)產(chǎn)生 caption。
把 HIP 得到的特征應(yīng)用到 Up-Down Attention,其實(shí)也就是把兩個(gè) LSTM 的輸入作替換。其中 Attention LSTM 中原來(lái)輸入的全局圖像特征替換為 HIP 得到的全局圖像特征的拼接?。
每一個(gè) region 的特征表示為?,那么 Language LSTM 原來(lái)輸入的加權(quán)后的區(qū)域特征則替換為對(duì)加權(quán)后的 HIP 區(qū)域特征?,其中??為對(duì)應(yīng)的注意力權(quán)重。?
當(dāng)應(yīng)用到 GCN-LSTM 中時(shí),GCN 中用到的場(chǎng)景圖就是 HIP 過程中生成的樹,然后也是類似 Up-Down Attention 的方法對(duì)特征作替換,不再贅述。
實(shí)驗(yàn)
文章使用了 Visual Genome 以及 MSCOCO 數(shù)據(jù)集進(jìn)行訓(xùn)練。值得一提的是,VG 數(shù)據(jù)集包含一些 stuff 類的 bounding box 標(biāo)注,能夠提供更豐富的場(chǎng)景信息,但 VG 數(shù)據(jù)集并沒有給出對(duì)應(yīng)的分割標(biāo)注。
對(duì)于這個(gè)問題,作者參考了 Learning to segment every thing [4] 里面 partially supervised training 的方法來(lái)訓(xùn)練 Mask R-CNN。其中 detection 分支的權(quán)重由在 VG 上訓(xùn)練的 Faster R-CNN 的權(quán)重來(lái)初始化,然后 mask 分支以及 weight transfer 函數(shù)則在 MSCOCO 上訓(xùn)練。?
實(shí)驗(yàn)效果:可以看到,在 COCO test split 以及 COCO server 兩個(gè)測(cè)試集上,加入了 HIP 以后,Up-Down 模型和 GCN-LSTM 模型的性能都有大幅提升。
文章也進(jìn)行了消融實(shí)驗(yàn)來(lái)驗(yàn)證各個(gè)部件的性能:
對(duì)于 IoU 的閾值 ?,文章也做了實(shí)驗(yàn),效果最好的值是 0.1,而 ?=0.3 的時(shí)候效果最差,感覺還是比較反直覺的。
文章還進(jìn)行了人工評(píng)估。通過展示 GT、GCN-LSTM+HIP、GCN-LSTM、LSTM 的 caption,分別做了兩組實(shí)驗(yàn):?
1. 每次展示 3 個(gè)機(jī)器生成的 caption 和三個(gè) GT caption,問:機(jī)器能產(chǎn)生像人類寫的句子嗎??
2. 每次只展示 1 個(gè)句子,問:能判斷出哪些是機(jī)器產(chǎn)生的句子,哪些是人類寫的句子嗎??
通過人工評(píng)估的反饋,文章統(tǒng)計(jì)了兩個(gè)指標(biāo):?
M1:與人類注釋相當(dāng)甚至更好的 caption 的百分比?
M2:通過圖靈測(cè)試的 caption 的百分比?
GCN-LSTM+HIP、GCN-LSTM 和 LSTM 在 M1 上的得分分別是 76.5%、73.9% 和 50.7%。人類注釋、GCN-LSTM+HIP、GCN-LSTM 和 LSTM 在 M2 上的得分分別是 91.4%、85.2%、81.5% 和 57.1%。?
兩項(xiàng)指標(biāo)都說(shuō)明了引入 HIP 后模型有明顯提升。?
下圖是模型生成的句子示例:
文章還把 HIP 擴(kuò)展到了圖像多標(biāo)簽分類問題,把 COCO 上物體檢測(cè)的標(biāo)注作為圖像的多標(biāo)簽,并應(yīng)用 Multi-label softmax 進(jìn)行訓(xùn)練。然后分別對(duì)每個(gè)標(biāo)簽計(jì)算 precision 和 recall。
最后比較了 per-class precision (C-P),pre-class recall (C-R),overall precision (O-P),overall recall (O-R) 以及 F1 值。發(fā)現(xiàn)引入HIP后都是有明顯提升的。個(gè)人認(rèn)為,其實(shí) HIP 這種做法與 finegrained image recognition 中的做法類似。
總結(jié)
文章提出了層次解析(HIerarchy Parsing,HIP)的結(jié)構(gòu),通過對(duì)圖像進(jìn)行層次解析,能夠豐富所提取的圖像特征,并增強(qiáng)模型的可解釋性。可以應(yīng)用到現(xiàn)有的模型當(dāng)中。文章的實(shí)驗(yàn)非常詳盡,能夠想到把 HIP 與 Tree-LSTM 結(jié)合、利用 partially supervised training 來(lái)訓(xùn)練 Mask R-CNN 的想法也是非常新穎。
參考文獻(xiàn)
[1]?https://arxiv.org/abs/1707.07998?
[2]?https://blog.csdn.net/sinat_26253653/article/details/78436112?
[3] https://arxiv.org/abs/1809.07041v1?
[4] https://arxiv.org/abs/1711.10370
點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?
CVPR 2019 開源論文 | 姿勢(shì)服裝隨心換
ICLR 2020?| 隱空間的圖神經(jīng)網(wǎng)絡(luò):Geom-GCN
ICCV 2019 | VrR-VG:聚焦視覺相關(guān)關(guān)系
COCO-GAN:通過條件坐標(biāo)的部分圖像生成
ICCV 2019?| 適用于視頻分割的全新Attention機(jī)制
視頻預(yù)測(cè)領(lǐng)域有哪些最新研究進(jìn)展?
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
?????來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
???? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 下載論文
總結(jié)
以上是生活随笔為你收集整理的ICCV 2019 论文解读 | 基于层次解析的Image Captioning的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 喀什廊桥水岸楼盘地址在哪里?
- 下一篇: 伟星伽乐瓷砖胶P20执行标准后面数字C1