當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Image Captioning概述

發(fā)布時(shí)間：2025/3/15 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了 Image Captioning概述小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

任務(wù)描述

輸入：圖片 $I$
輸出：由 $n$ 個(gè)單詞組成的圖片內(nèi)容描述 $S=\{ s_1,...,s_n \}$

應(yīng)用領(lǐng)域

圖文互搜
（細(xì)粒度）圖像檢索
對視覺障礙者進(jìn)行輔助

主要問題

dataset bias
已有方法：將cnn特征分解為object、attributes、relation、function等
參考文獻(xiàn)：[1] ICCV 2019 Learning to Collocate Neural Modules for Image Captioning
long tail
long tail本身也算作dataset bias的一種，在很多task中普遍存在。單獨(dú)列出來的原因是，有的方法專門針對long tail問題進(jìn)行優(yōu)化。
已有方法：按頻率多階段訓(xùn)練
參考文獻(xiàn)：[1] CVPR 2020 Learning to Segment the Tail
數(shù)據(jù)集標(biāo)注昂貴
已有方法：無監(jiān)督
參考文獻(xiàn)：[1] CVPR 2019 Unsupervised Image Captioning
? ? ? ? ? ? ? ? ?[2] ICCV 2019 Unpaired Image Captioning via Scene Graph Alignments
模型的recall低、多樣性低
已有方法：改進(jìn)損失函數(shù)、可控的Captioning
參考文獻(xiàn)：[1] CVPR 2020 Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs
? ? ? ? ? ? ? ? ?[2] CVPR 2020 Better Captioning with Sequence-Level Exploration
? ? ? ? ? ? ? ? ?[3] CVPR 2019 Intention Oriented Image Captions with Guiding Objects
? ? ? ? ? ? ? ? ?[4] CVPR 2019 Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions
? ? ? ? ? ? ? ? ?[5] CVPR 2019 Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech
? ? ? ? ? ? ? ? ?[6] CVPR 2016 DenseCap: Fully Convolutional Localization Networks for Dense Captioning
生成的結(jié)果不夠human-like
已有方法：使用貢獻(xiàn)字典引入先驗(yàn)知識
參考文獻(xiàn)：[1] CVPR 2019 Auto-Encoding Scene Graphs for Image Captioning
長序列建模問題
已有方法：探索單詞之間的連貫性
參考文獻(xiàn)：[1] CVPR 2019 Reflective Decoding Network for Image Captioning
提升grounding能力
已有方法：知識蒸餾+強(qiáng)化學(xué)習(xí)
參考文獻(xiàn)：[1] CVPR 2019 More Grounded Image Captioning by Distilling Image-Text Matching Model
網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化
已有方法：對self attention進(jìn)行改進(jìn)
參考文獻(xiàn)：[1] CVPR 2020 Normalized and Geometry-Aware Self-Attention Network
for Image Captioning

主流框架

encoder + decoder結(jié)構(gòu)，對圖片的regions信息進(jìn)行編碼，建立不同objects之間的關(guān)系后，使用decoder解碼，生成sentence。encoder部分常使用CNN，decoder部分為RNNs，后由于Transformer的興起，RNN被替換為了SANs（Self Attention Networks）。

常用數(shù)據(jù)集

Flickr30k Entities
下載鏈接
論文原文
MS-COCO Karpathy
下載鏈接
論文原文

Metrics

BLEU-n（Bilingual Evaluation Understudy，雙語評估輔助工具）：比較候選譯文和參考譯文里的 n-gram 的重合程度，重合程度越高就認(rèn)為譯文質(zhì)量越高。把sentence劃分成長度為n個(gè)單詞的短語，統(tǒng)計(jì)它們在標(biāo)準(zhǔn)譯文中的出現(xiàn)次數(shù)，除以劃分總數(shù)。
(mBleu-4, best-k)：對于一個(gè)image，選擇生成的最好的k個(gè)captions，對于每個(gè)caption，計(jì)算其與其他k-1個(gè)captions的BLEU-4值，再取平均。值越低，多樣性越高。
METEOR（Metric for Evaluation of Translation with Explicit ORdering，顯式排序的翻譯評估指標(biāo)）：計(jì)算生成結(jié)果和參考譯文之間的準(zhǔn)確率和召回率的調(diào)和平均。
ROUGE（Recall-Oriented Understudy for Gisting Evaluation，面向召回率的摘要評估輔助工具）：大致分為四種：ROUGE-N，ROUGE-L，ROUGE-W，ROUGE-S。常用的是前兩種（-N與-L）。ROUGE-N中的“N”指的是N-gram，其計(jì)算方式與BLEU類似，只是BLEU基于精確率，而ROUGE基于召回率。ROUGE-L中的“L”指的是Longest Common Subsequence，計(jì)算的是候選摘要與參考摘要的最長公共子序列長度，長度越長，得分越高，基于F值。
CIDEr（Consensus-based Image Description Evaluation，基于共識的圖像描述評估）：把每個(gè)句子看成文檔，然后計(jì)算其 TF-IDF 向量（注意向量的每個(gè)維度表示的是n-gram 而不一定是單詞）的余弦夾角，據(jù)此得到候選句子和參考句子的相似度。
SPICE（Semantic Propositional Image Caption Evaluation，語義命題圖像標(biāo)題評估）：SPICE 使用基于圖的語義表示來編碼 caption 中的 objects, attributes 和 relationships。它先將待評價(jià) caption 和參考 captions 用 Probabilistic Context-Free Grammar (PCFG) dependency parser parse 成 syntactic dependencies trees，然后用基于規(guī)則的方法把 dependency tree 映射成 scene graphs。最后計(jì)算待評價(jià)的 caption 中 objects, attributes 和 relationships 的 F-score 值。

總結(jié)

以上是生活随笔為你收集整理的Image Captioning概述的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： IJCAI 2019 《GraspSno
下一篇： Visual Question Answ

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活随笔