Image Captioning概述
目錄
- 任務(wù)描述
- 應(yīng)用領(lǐng)域
- 主要問題
- 主流框架
- 常用數(shù)據(jù)集
- Metrics
Metrics的部分內(nèi)容參考自知乎
任務(wù)描述
- 輸入:圖片III
- 輸出:由 nnn個(gè)單詞組成的圖片內(nèi)容描述S={s1,...,sn}S=\{ s_1,...,s_n \}S={s1?,...,sn?}
應(yīng)用領(lǐng)域
- 圖文互搜
- (細(xì)粒度)圖像檢索
- 對(duì)視覺障礙者進(jìn)行輔助
主要問題
-
dataset bias
已有方法:將cnn特征分解為object、attributes、relation、function等
參考文獻(xiàn):[1] ICCV 2019 Learning to Collocate Neural Modules for Image Captioning -
long tail
long tail本身也算作dataset bias的一種,在很多task中普遍存在。單獨(dú)列出來的原因是,有的方法專門針對(duì)long tail問題進(jìn)行優(yōu)化。
已有方法:按頻率多階段訓(xùn)練
參考文獻(xiàn):[1] CVPR 2020 Learning to Segment the Tail -
數(shù)據(jù)集標(biāo)注昂貴
已有方法:無監(jiān)督
參考文獻(xiàn):[1] CVPR 2019 Unsupervised Image Captioning
? ? ? ? ? ? ? ? ?[2] ICCV 2019 Unpaired Image Captioning via Scene Graph Alignments -
模型的recall低、多樣性低
已有方法:改進(jìn)損失函數(shù)、可控的Captioning
參考文獻(xiàn):[1] CVPR 2020 Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs
? ? ? ? ? ? ? ? ?[2] CVPR 2020 Better Captioning with Sequence-Level Exploration
? ? ? ? ? ? ? ? ?[3] CVPR 2019 Intention Oriented Image Captions with Guiding Objects
? ? ? ? ? ? ? ? ?[4] CVPR 2019 Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions
? ? ? ? ? ? ? ? ?[5] CVPR 2019 Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech
? ? ? ? ? ? ? ? ?[6] CVPR 2016 DenseCap: Fully Convolutional Localization Networks for Dense Captioning -
生成的結(jié)果不夠human-like
已有方法:使用貢獻(xiàn)字典引入先驗(yàn)知識(shí)
參考文獻(xiàn):[1] CVPR 2019 Auto-Encoding Scene Graphs for Image Captioning -
長序列建模問題
已有方法:探索單詞之間的連貫性
參考文獻(xiàn):[1] CVPR 2019 Reflective Decoding Network for Image Captioning -
提升grounding能力
已有方法:知識(shí)蒸餾+強(qiáng)化學(xué)習(xí)
參考文獻(xiàn):[1] CVPR 2019 More Grounded Image Captioning by Distilling Image-Text Matching Model -
網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化
已有方法:對(duì)self attention進(jìn)行改進(jìn)
參考文獻(xiàn):[1] CVPR 2020 Normalized and Geometry-Aware Self-Attention Network
for Image Captioning
主流框架
- encoder + decoder結(jié)構(gòu),對(duì)圖片的regions信息進(jìn)行編碼,建立不同objects之間的關(guān)系后,使用decoder解碼,生成sentence。encoder部分常使用CNN,decoder部分為RNNs,后由于Transformer的興起,RNN被替換為了SANs(Self Attention Networks)。
常用數(shù)據(jù)集
- Flickr30k Entities
下載鏈接
論文原文 - MS-COCO Karpathy
下載鏈接
論文原文
Metrics
-
BLEU-n(Bilingual Evaluation Understudy,雙語評(píng)估輔助工具):比較候選譯文和參考譯文里的 n-gram 的重合程度,重合程度越高就認(rèn)為譯文質(zhì)量越高。把sentence劃分成長度為n個(gè)單詞的短語,統(tǒng)計(jì)它們?cè)跇?biāo)準(zhǔn)譯文中的出現(xiàn)次數(shù),除以劃分總數(shù)。
-
(mBleu-4, best-k):對(duì)于一個(gè)image,選擇生成的最好的k個(gè)captions,對(duì)于每個(gè)caption,計(jì)算其與其他k-1個(gè)captions的BLEU-4值,再取平均。值越低,多樣性越高。
-
METEOR(Metric for Evaluation of Translation with Explicit ORdering,顯式排序的翻譯評(píng)估指標(biāo)):計(jì)算生成結(jié)果和參考譯文之間的準(zhǔn)確率和召回率的調(diào)和平均。
-
ROUGE(Recall-Oriented Understudy for Gisting Evaluation,面向召回率的摘要評(píng)估輔助工具):大致分為四種:ROUGE-N,ROUGE-L,ROUGE-W,ROUGE-S。常用的是前兩種(-N與-L)。ROUGE-N中的“N”指的是N-gram,其計(jì)算方式與BLEU類似,只是BLEU基于精確率,而ROUGE基于召回率。ROUGE-L中的“L”指的是Longest Common Subsequence,計(jì)算的是候選摘要與參考摘要的最長公共子序列長度,長度越長,得分越高,基于F值。
-
CIDEr(Consensus-based Image Description Evaluation,基于共識(shí)的圖像描述評(píng)估):把每個(gè)句子看成文檔,然后計(jì)算其 TF-IDF 向量(注意向量的每個(gè)維度表示的是n-gram 而不一定是單詞)的余弦夾角,據(jù)此得到候選句子和參考句子的相似度。
-
SPICE(Semantic Propositional Image Caption Evaluation,語義命題圖像標(biāo)題評(píng)估):SPICE 使用基于圖的語義表示來編碼 caption 中的 objects, attributes 和 relationships。它先將待評(píng)價(jià) caption 和參考 captions 用 Probabilistic Context-Free Grammar (PCFG) dependency parser parse 成 syntactic dependencies trees,然后用基于規(guī)則的方法把 dependency tree 映射成 scene graphs。最后計(jì)算待評(píng)價(jià)的 caption 中 objects, attributes 和 relationships 的 F-score 值。
總結(jié)
以上是生活随笔為你收集整理的Image Captioning概述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: IJCAI 2019 《GraspSno
- 下一篇: Visual Question Answ