日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CVPR 2020 《Transform and Tell: Entity-Aware News Image Captioning》论文笔记(数据集)

發布時間:2025/3/15 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 CVPR 2020 《Transform and Tell: Entity-Aware News Image Captioning》论文笔记(数据集) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

  • 簡介
  • 動機
  • 貢獻
  • 方法
  • 實驗

簡介

本文是新聞圖像標注,和常見的Image Captioning任務不太一樣。
下載鏈接
News Image Captioning中沒有object-level的標注,難點在于,將text和image進行對齊。

動機

此task存在兩個challenges:1.它們依賴于真實世界的知識,特別是關于已命名實體的知識。2.它們通常有豐富的語言說明,包括不尋常的詞。對于第一個挑戰,本文通過一個多模式、多頭注意機制,將標題中的單詞與圖像中的人臉和物體聯系起來進行解決。對于第二個挑戰,本文使用了transformer。

貢獻

  • 提出了一個新的captioning模型,融合了transformer、attention-centric language model、byte-pair encoding和 attention over four different modalities(text, images, faces, and objects)。
  • 在所有metrics上有顯著提升。
  • 提出新的數據集NYTimes800k。
  • 方法

    本文方法的整體架構如下圖所示:

    NYTimes800k數據集的對比如下圖所示:

    實驗

    實驗結果:

    總結

    以上是生活随笔為你收集整理的CVPR 2020 《Transform and Tell: Entity-Aware News Image Captioning》论文笔记(数据集)的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。