日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Image Captioning概述

發(fā)布時(shí)間:2025/3/15 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Image Captioning概述 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

目錄

  • 任務(wù)描述
  • 應(yīng)用領(lǐng)域
  • 主要問題
  • 主流框架
  • 常用數(shù)據(jù)集
  • Metrics

Metrics的部分內(nèi)容參考自知乎

任務(wù)描述

  • 輸入:圖片III
  • 輸出:由 nnn個(gè)單詞組成的圖片內(nèi)容描述S={s1,...,sn}S=\{ s_1,...,s_n \}S={s1?,...,sn?}

應(yīng)用領(lǐng)域

  • 圖文互搜
  • (細(xì)粒度)圖像檢索
  • 對(duì)視覺障礙者進(jìn)行輔助

主要問題

  • dataset bias
    已有方法:將cnn特征分解為object、attributes、relation、function等
    參考文獻(xiàn):[1] ICCV 2019 Learning to Collocate Neural Modules for Image Captioning

  • long tail
    long tail本身也算作dataset bias的一種,在很多task中普遍存在。單獨(dú)列出來的原因是,有的方法專門針對(duì)long tail問題進(jìn)行優(yōu)化。
    已有方法:按頻率多階段訓(xùn)練
    參考文獻(xiàn):[1] CVPR 2020 Learning to Segment the Tail

  • 數(shù)據(jù)集標(biāo)注昂貴
    已有方法:無監(jiān)督
    參考文獻(xiàn):[1] CVPR 2019 Unsupervised Image Captioning
    ? ? ? ? ? ? ? ? ?[2] ICCV 2019 Unpaired Image Captioning via Scene Graph Alignments

  • 模型的recall低、多樣性低
    已有方法:改進(jìn)損失函數(shù)、可控的Captioning
    參考文獻(xiàn):[1] CVPR 2020 Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs
    ? ? ? ? ? ? ? ? ?[2] CVPR 2020 Better Captioning with Sequence-Level Exploration
    ? ? ? ? ? ? ? ? ?[3] CVPR 2019 Intention Oriented Image Captions with Guiding Objects
    ? ? ? ? ? ? ? ? ?[4] CVPR 2019 Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions
    ? ? ? ? ? ? ? ? ?[5] CVPR 2019 Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech
    ? ? ? ? ? ? ? ? ?[6] CVPR 2016 DenseCap: Fully Convolutional Localization Networks for Dense Captioning

  • 生成的結(jié)果不夠human-like
    已有方法:使用貢獻(xiàn)字典引入先驗(yàn)知識(shí)
    參考文獻(xiàn):[1] CVPR 2019 Auto-Encoding Scene Graphs for Image Captioning

  • 長序列建模問題
    已有方法:探索單詞之間的連貫性
    參考文獻(xiàn):[1] CVPR 2019 Reflective Decoding Network for Image Captioning

  • 提升grounding能力
    已有方法:知識(shí)蒸餾+強(qiáng)化學(xué)習(xí)
    參考文獻(xiàn):[1] CVPR 2019 More Grounded Image Captioning by Distilling Image-Text Matching Model

  • 網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化
    已有方法:對(duì)self attention進(jìn)行改進(jìn)
    參考文獻(xiàn):[1] CVPR 2020 Normalized and Geometry-Aware Self-Attention Network
    for Image Captioning

主流框架

  • encoder + decoder結(jié)構(gòu),對(duì)圖片的regions信息進(jìn)行編碼,建立不同objects之間的關(guān)系后,使用decoder解碼,生成sentence。encoder部分常使用CNN,decoder部分為RNNs,后由于Transformer的興起,RNN被替換為了SANs(Self Attention Networks)。

常用數(shù)據(jù)集

  • Flickr30k Entities
    下載鏈接
    論文原文
  • MS-COCO Karpathy
    下載鏈接
    論文原文

Metrics

  • BLEU-n(Bilingual Evaluation Understudy,雙語評(píng)估輔助工具):比較候選譯文和參考譯文里的 n-gram 的重合程度,重合程度越高就認(rèn)為譯文質(zhì)量越高。把sentence劃分成長度為n個(gè)單詞的短語,統(tǒng)計(jì)它們?cè)跇?biāo)準(zhǔn)譯文中的出現(xiàn)次數(shù),除以劃分總數(shù)。

  • (mBleu-4, best-k):對(duì)于一個(gè)image,選擇生成的最好的k個(gè)captions,對(duì)于每個(gè)caption,計(jì)算其與其他k-1個(gè)captions的BLEU-4值,再取平均。值越低,多樣性越高。

  • METEOR(Metric for Evaluation of Translation with Explicit ORdering,顯式排序的翻譯評(píng)估指標(biāo)):計(jì)算生成結(jié)果和參考譯文之間的準(zhǔn)確率和召回率的調(diào)和平均。

  • ROUGE(Recall-Oriented Understudy for Gisting Evaluation,面向召回率的摘要評(píng)估輔助工具):大致分為四種:ROUGE-N,ROUGE-L,ROUGE-W,ROUGE-S。常用的是前兩種(-N與-L)。ROUGE-N中的“N”指的是N-gram,其計(jì)算方式與BLEU類似,只是BLEU基于精確率,而ROUGE基于召回率。ROUGE-L中的“L”指的是Longest Common Subsequence,計(jì)算的是候選摘要與參考摘要的最長公共子序列長度,長度越長,得分越高,基于F值。

  • CIDEr(Consensus-based Image Description Evaluation,基于共識(shí)的圖像描述評(píng)估):把每個(gè)句子看成文檔,然后計(jì)算其 TF-IDF 向量(注意向量的每個(gè)維度表示的是n-gram 而不一定是單詞)的余弦夾角,據(jù)此得到候選句子和參考句子的相似度。

  • SPICE(Semantic Propositional Image Caption Evaluation,語義命題圖像標(biāo)題評(píng)估):SPICE 使用基于圖的語義表示來編碼 caption 中的 objects, attributes 和 relationships。它先將待評(píng)價(jià) caption 和參考 captions 用 Probabilistic Context-Free Grammar (PCFG) dependency parser parse 成 syntactic dependencies trees,然后用基于規(guī)則的方法把 dependency tree 映射成 scene graphs。最后計(jì)算待評(píng)價(jià)的 caption 中 objects, attributes 和 relationships 的 F-score 值。

總結(jié)

以上是生活随笔為你收集整理的Image Captioning概述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。