當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

ICCV 2019 论文解读 | 基于层次解析的Image Captioning

發(fā)布時(shí)間：2024/10/8 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了 ICCV 2019 论文解读 | 基于层次解析的Image Captioning 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly 原創(chuàng) ·?作者｜蔡文杰

學(xué)校｜華南理工大學(xué)

研究方向｜計(jì)算機(jī)視覺

目前大多數(shù)的 image captioning 模型采用的都是 encoder-decoder 的框架。本文在 encoder 的部分加入了層次解析（Hierarchy Parsing, HIP）結(jié)構(gòu)。HIP 把圖片解析成樹狀結(jié)構(gòu)：根節(jié)點(diǎn)是整個(gè)圖片，中間節(jié)點(diǎn)則是通過把圖片分解成一系列 Region-level 的區(qū)域來(lái)得到的，而葉子節(jié)點(diǎn)則是在 Region-level 的基礎(chǔ)上應(yīng)用圖像分割，得到 Instance-level 的區(qū)域，如下圖所示。

由于這樣的過程建立起了一個(gè)樹狀的結(jié)構(gòu)，文章應(yīng)用了 Tree-LSTM 來(lái)增強(qiáng)性能。最后，文章還用了 GCN 對(duì) Region-level 和 Instance-level 之間的關(guān)系進(jìn)行編碼，把 CIDEr-D 提高到了 130.6。?

文章的主要貢獻(xiàn)就是在 Image capioning 任務(wù)中提出了 HIP 對(duì)圖像進(jìn)行層級(jí)架構(gòu)的解析。實(shí)際上，文章把 HIP 認(rèn)為是一種 feature optimizer，對(duì) Image-level、Region-level、Instance Level 的特征做整合。這也是大多數(shù)做 image captioning 文章的思路，包括各種 attention 機(jī)制、利用更豐富的圖像信息等，主要目的都是為了增強(qiáng)圖像特征。本文發(fā)表在 ICCV 2019 上。

論文標(biāo)題：Hierarchy Parsing for Image Captioning

論文鏈接：https://arxiv.org/abs/1909.03918

論文方法

Hierarchy Parsing in Images?

本節(jié)首先介紹如何對(duì)圖像進(jìn)行層次解析。

Regions and Instances of Image?

文章分別使用了兩個(gè) Faster R-CNN 來(lái)分別提取 region 和 instance 的特征。?

對(duì)于 region 特征的提取，文章用的就是 Up-Down Attention [3] 里面的方法：在 Visual Genome 數(shù)據(jù)集上訓(xùn)練一個(gè) backbone 為 ResNet-101 的 Faster R-CNN，提取里面 pool 5 層的特征。?

對(duì)于 instance 的特征，文章則是訓(xùn)練了另一個(gè) Faster R-CNN 來(lái)進(jìn)行提取。如下圖所示，首先使用 Mask R-CNN 提取圖像的前景區(qū)域圖像（通過 Mask 與原圖點(diǎn)乘），然后再用 Faster R-CNN 來(lái)提取對(duì)應(yīng)前景的每個(gè) instance 的特征。其中兩個(gè) Faster R-CNN 的輸入、參數(shù)都不共享。

Hierarchy Structure of an Image?

對(duì)于圖像層級(jí)關(guān)系的建立，文章是通過下列方式確立的：由于圖像中的 regions 會(huì)包含一些從屬關(guān)系（例如，glasses 和 hat 都屬于 man 的區(qū)域），如果某個(gè) region 與比它小的 region 的 IoU 大于某個(gè)閾值 ?，那么這個(gè)小的 region 就成為大的 region 的子節(jié)點(diǎn)。通過對(duì)所有 region 根據(jù)面積進(jìn)行降序排列并遍歷后續(xù) region 計(jì)算 IoU，可以把圖像的層級(jí)關(guān)系建立起來(lái)。最后，再把 instance 連接到每個(gè) region 后作為最終的葉子節(jié)點(diǎn)。?

Image Encoder with Tree-LSTM?

文章使用了 Tree-LSTM 來(lái)對(duì)三個(gè)層次的特征進(jìn)行編碼，可以促進(jìn)層次結(jié)構(gòu)內(nèi)的上下文信息挖掘，從而通過整體層次結(jié)構(gòu)來(lái)增強(qiáng)圖像特征。傳統(tǒng)的 LSTM 只通過上一個(gè)時(shí)刻的隱狀態(tài)??更新記憶單元?，而 Tree-LSTM 的更新則是依賴于多個(gè)子節(jié)點(diǎn)??的隱狀態(tài)。如圖所示：

Tree-LSTM 公式如下：

對(duì)于 region-level 和 instance-level 的節(jié)點(diǎn)，它們的輸入則分別是它們的特征??和?，對(duì)于 image-level 的根節(jié)點(diǎn)，它的輸入則是 region-level 和 instance-level 特征的平均：，其中?，。

最終，通過用 Tree-LSTM 的方式進(jìn)行編碼，每一個(gè) region 的輸出特征包含了它的 instance 區(qū)域特征以及子節(jié)點(diǎn)的 region 區(qū)域特征，表示為?。而 image-level 的輸出特征則表示為?。?

Image Captioning with Hierarchy Parsing?

接下來(lái)，本節(jié)介紹如何把解析后的層次特征運(yùn)用到 Image captioning 任務(wù)里。文章分別把這些特征用到了 Up-Down Attention [1] 以及 GCN-LSTM [3] 里，如下圖所示。

首先簡(jiǎn)單回顧一下 Up-Down Attention。Up-Down Attention 包含兩個(gè) LSTM，分別是：?

1. Attention LSTM，接收全局圖像特征、上一時(shí)刻生成的單詞和 Language LSTM 的隱狀態(tài)來(lái)分配 attention 權(quán)重；

2. Language LSTM，接收加權(quán)后的區(qū)域特征和 Attention LSTM 的隱狀態(tài)來(lái)產(chǎn)生 caption。

把 HIP 得到的特征應(yīng)用到 Up-Down Attention，其實(shí)也就是把兩個(gè) LSTM 的輸入作替換。其中 Attention LSTM 中原來(lái)輸入的全局圖像特征替換為 HIP 得到的全局圖像特征的拼接?。

每一個(gè) region 的特征表示為?，那么 Language LSTM 原來(lái)輸入的加權(quán)后的區(qū)域特征則替換為對(duì)加權(quán)后的 HIP 區(qū)域特征?，其中??為對(duì)應(yīng)的注意力權(quán)重。?

當(dāng)應(yīng)用到 GCN-LSTM 中時(shí)，GCN 中用到的場(chǎng)景圖就是 HIP 過程中生成的樹，然后也是類似 Up-Down Attention 的方法對(duì)特征作替換，不再贅述。

實(shí)驗(yàn)

文章使用了 Visual Genome 以及 MSCOCO 數(shù)據(jù)集進(jìn)行訓(xùn)練。值得一提的是，VG 數(shù)據(jù)集包含一些 stuff 類的 bounding box 標(biāo)注，能夠提供更豐富的場(chǎng)景信息，但 VG 數(shù)據(jù)集并沒有給出對(duì)應(yīng)的分割標(biāo)注。

對(duì)于這個(gè)問題，作者參考了 Learning to segment every thing [4] 里面 partially supervised training 的方法來(lái)訓(xùn)練 Mask R-CNN。其中 detection 分支的權(quán)重由在 VG 上訓(xùn)練的 Faster R-CNN 的權(quán)重來(lái)初始化，然后 mask 分支以及 weight transfer 函數(shù)則在 MSCOCO 上訓(xùn)練。?

實(shí)驗(yàn)效果：可以看到，在 COCO test split 以及 COCO server 兩個(gè)測(cè)試集上，加入了 HIP 以后，Up-Down 模型和 GCN-LSTM 模型的性能都有大幅提升。

文章也進(jìn)行了消融實(shí)驗(yàn)來(lái)驗(yàn)證各個(gè)部件的性能：

對(duì)于 IoU 的閾值 ?，文章也做了實(shí)驗(yàn)，效果最好的值是 0.1，而 ?=0.3 的時(shí)候效果最差，感覺還是比較反直覺的。

文章還進(jìn)行了人工評(píng)估。通過展示 GT、GCN-LSTM+HIP、GCN-LSTM、LSTM 的 caption，分別做了兩組實(shí)驗(yàn)：?

1. 每次展示 3 個(gè)機(jī)器生成的 caption 和三個(gè) GT caption，問：機(jī)器能產(chǎn)生像人類寫的句子嗎？?

2. 每次只展示 1 個(gè)句子，問：能判斷出哪些是機(jī)器產(chǎn)生的句子，哪些是人類寫的句子嗎？?

通過人工評(píng)估的反饋，文章統(tǒng)計(jì)了兩個(gè)指標(biāo)：?

M1：與人類注釋相當(dāng)甚至更好的 caption 的百分比?
M2：通過圖靈測(cè)試的 caption 的百分比?

GCN-LSTM+HIP、GCN-LSTM 和 LSTM 在 M1 上的得分分別是 76.5%、73.9% 和 50.7%。人類注釋、GCN-LSTM+HIP、GCN-LSTM 和 LSTM 在 M2 上的得分分別是 91.4%、85.2%、81.5% 和 57.1%。?

兩項(xiàng)指標(biāo)都說(shuō)明了引入 HIP 后模型有明顯提升。?

下圖是模型生成的句子示例：

文章還把 HIP 擴(kuò)展到了圖像多標(biāo)簽分類問題，把 COCO 上物體檢測(cè)的標(biāo)注作為圖像的多標(biāo)簽，并應(yīng)用 Multi-label softmax 進(jìn)行訓(xùn)練。然后分別對(duì)每個(gè)標(biāo)簽計(jì)算 precision 和 recall。

最后比較了 per-class precision (C-P)，pre-class recall (C-R)，overall precision (O-P)，overall recall (O-R) 以及 F1 值。發(fā)現(xiàn)引入HIP后都是有明顯提升的。個(gè)人認(rèn)為，其實(shí) HIP 這種做法與 finegrained image recognition 中的做法類似。

總結(jié)

文章提出了層次解析（HIerarchy Parsing，HIP）的結(jié)構(gòu)，通過對(duì)圖像進(jìn)行層次解析，能夠豐富所提取的圖像特征，并增強(qiáng)模型的可解釋性。可以應(yīng)用到現(xiàn)有的模型當(dāng)中。文章的實(shí)驗(yàn)非常詳盡，能夠想到把 HIP 與 Tree-LSTM 結(jié)合、利用 partially supervised training 來(lái)訓(xùn)練 Mask R-CNN 的想法也是非常新穎。

參考文獻(xiàn)

[1]?https://arxiv.org/abs/1707.07998?

[2]?https://blog.csdn.net/sinat_26253653/article/details/78436112?

[3] https://arxiv.org/abs/1809.07041v1?

[4] https://arxiv.org/abs/1711.10370

點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容：?

CVPR 2019 開源論文 | 姿勢(shì)服裝隨心換
ICLR 2020?| 隱空間的圖神經(jīng)網(wǎng)絡(luò)：Geom-GCN
ICCV 2019 | VrR-VG：聚焦視覺相關(guān)關(guān)系
COCO-GAN：通過條件坐標(biāo)的部分圖像生成
ICCV 2019?| 適用于視頻分割的全新Attention機(jī)制
視頻預(yù)測(cè)領(lǐng)域有哪些最新研究進(jìn)展？

#投稿通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來(lái)。

?????來(lái)稿標(biāo)準(zhǔn)：

? 稿件確系個(gè)人原創(chuàng)作品，來(lái)稿需注明作者個(gè)人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會(huì)添加“原創(chuàng)”標(biāo)志

???? 投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式（微信或手機(jī)），以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

????

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點(diǎn)擊 |?閱讀原文?| 下載論文

總結(jié)

以上是生活随笔為你收集整理的ICCV 2019 论文解读 | 基于层次解析的Image Captioning的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：喀什廊桥水岸楼盘地址在哪里？
下一篇：伟星伽乐瓷砖胶P20执行标准后面数字C1