日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

ICCV 2019 论文解读 | 基于层次解析的Image Captioning

發(fā)布時(shí)間:2024/10/8 编程问答 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ICCV 2019 论文解读 | 基于层次解析的Image Captioning 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly 原創(chuàng) ·?作者|蔡文杰

學(xué)校|華南理工大學(xué)

研究方向|計(jì)算機(jī)視覺

目前大多數(shù)的 image captioning 模型采用的都是 encoder-decoder 的框架。本文在 encoder 的部分加入了層次解析(Hierarchy Parsing, HIP)結(jié)構(gòu)。HIP 把圖片解析成樹狀結(jié)構(gòu):根節(jié)點(diǎn)是整個(gè)圖片,中間節(jié)點(diǎn)則是通過把圖片分解成一系列 Region-level 的區(qū)域來(lái)得到的,而葉子節(jié)點(diǎn)則是在 Region-level 的基礎(chǔ)上應(yīng)用圖像分割,得到 Instance-level 的區(qū)域,如下圖所示。

由于這樣的過程建立起了一個(gè)樹狀的結(jié)構(gòu),文章應(yīng)用了 Tree-LSTM 來(lái)增強(qiáng)性能。最后,文章還用了 GCN 對(duì) Region-level 和 Instance-level 之間的關(guān)系進(jìn)行編碼,把 CIDEr-D 提高到了 130.6。?

文章的主要貢獻(xiàn)就是在 Image capioning 任務(wù)中提出了 HIP 對(duì)圖像進(jìn)行層級(jí)架構(gòu)的解析。實(shí)際上,文章把 HIP 認(rèn)為是一種 feature optimizer,對(duì) Image-level、Region-level、Instance Level 的特征做整合。這也是大多數(shù)做 image captioning 文章的思路,包括各種 attention 機(jī)制、利用更豐富的圖像信息等,主要目的都是為了增強(qiáng)圖像特征。本文發(fā)表在 ICCV 2019 上。

論文標(biāo)題:Hierarchy Parsing for Image Captioning

論文鏈接:https://arxiv.org/abs/1909.03918

論文方法

Hierarchy Parsing in Images?

本節(jié)首先介紹如何對(duì)圖像進(jìn)行層次解析。

Regions and Instances of Image?

文章分別使用了兩個(gè) Faster R-CNN 來(lái)分別提取 region 和 instance 的特征。?

對(duì)于 region 特征的提取,文章用的就是 Up-Down Attention [3] 里面的方法:在 Visual Genome 數(shù)據(jù)集上訓(xùn)練一個(gè) backbone 為 ResNet-101 的 Faster R-CNN,提取里面 pool 5 層的特征。?

對(duì)于 instance 的特征,文章則是訓(xùn)練了另一個(gè) Faster R-CNN 來(lái)進(jìn)行提取。如下圖所示,首先使用 Mask R-CNN 提取圖像的前景區(qū)域圖像(通過 Mask 與原圖點(diǎn)乘),然后再用 Faster R-CNN 來(lái)提取對(duì)應(yīng)前景的每個(gè) instance 的特征。其中兩個(gè) Faster R-CNN 的輸入、參數(shù)都不共享。

Hierarchy Structure of an Image?

對(duì)于圖像層級(jí)關(guān)系的建立,文章是通過下列方式確立的:由于圖像中的 regions 會(huì)包含一些從屬關(guān)系(例如,glasses 和 hat 都屬于 man 的區(qū)域),如果某個(gè) region 與比它小的 region 的 IoU 大于某個(gè)閾值 ?,那么這個(gè)小的 region 就成為大的 region 的子節(jié)點(diǎn)。通過對(duì)所有 region 根據(jù)面積進(jìn)行降序排列并遍歷后續(xù) region 計(jì)算 IoU,可以把圖像的層級(jí)關(guān)系建立起來(lái)。最后,再把 instance 連接到每個(gè) region 后作為最終的葉子節(jié)點(diǎn)。?

Image Encoder with Tree-LSTM?

文章使用了 Tree-LSTM 來(lái)對(duì)三個(gè)層次的特征進(jìn)行編碼,可以促進(jìn)層次結(jié)構(gòu)內(nèi)的上下文信息挖掘,從而通過整體層次結(jié)構(gòu)來(lái)增強(qiáng)圖像特征。傳統(tǒng)的 LSTM 只通過上一個(gè)時(shí)刻的隱狀態(tài)??更新記憶單元?,而 Tree-LSTM 的更新則是依賴于多個(gè)子節(jié)點(diǎn)??的隱狀態(tài)。如圖所示:

Tree-LSTM 公式如下:

對(duì)于 region-level 和 instance-level 的節(jié)點(diǎn),它們的輸入則分別是它們的特征??和?,對(duì)于 image-level 的根節(jié)點(diǎn),它的輸入則是 region-level 和 instance-level 特征的平均:,其中?,。

最終,通過用 Tree-LSTM 的方式進(jìn)行編碼,每一個(gè) region 的輸出特征包含了它的 instance 區(qū)域特征以及子節(jié)點(diǎn)的 region 區(qū)域特征,表示為?。而 image-level 的輸出特征則表示為?。?

Image Captioning with Hierarchy Parsing?

接下來(lái),本節(jié)介紹如何把解析后的層次特征運(yùn)用到 Image captioning 任務(wù)里。文章分別把這些特征用到了 Up-Down Attention [1] 以及 GCN-LSTM [3] 里,如下圖所示。

首先簡(jiǎn)單回顧一下 Up-Down Attention。Up-Down Attention 包含兩個(gè) LSTM,分別是:?

1. Attention LSTM,接收全局圖像特征、上一時(shí)刻生成的單詞和 Language LSTM 的隱狀態(tài)來(lái)分配 attention 權(quán)重;

2. Language LSTM,接收加權(quán)后的區(qū)域特征和 Attention LSTM 的隱狀態(tài)來(lái)產(chǎn)生 caption。

把 HIP 得到的特征應(yīng)用到 Up-Down Attention,其實(shí)也就是把兩個(gè) LSTM 的輸入作替換。其中 Attention LSTM 中原來(lái)輸入的全局圖像特征替換為 HIP 得到的全局圖像特征的拼接?。

每一個(gè) region 的特征表示為?,那么 Language LSTM 原來(lái)輸入的加權(quán)后的區(qū)域特征則替換為對(duì)加權(quán)后的 HIP 區(qū)域特征?,其中??為對(duì)應(yīng)的注意力權(quán)重。?

當(dāng)應(yīng)用到 GCN-LSTM 中時(shí),GCN 中用到的場(chǎng)景圖就是 HIP 過程中生成的樹,然后也是類似 Up-Down Attention 的方法對(duì)特征作替換,不再贅述。

實(shí)驗(yàn)

文章使用了 Visual Genome 以及 MSCOCO 數(shù)據(jù)集進(jìn)行訓(xùn)練。值得一提的是,VG 數(shù)據(jù)集包含一些 stuff 類的 bounding box 標(biāo)注,能夠提供更豐富的場(chǎng)景信息,但 VG 數(shù)據(jù)集并沒有給出對(duì)應(yīng)的分割標(biāo)注。

對(duì)于這個(gè)問題,作者參考了 Learning to segment every thing [4] 里面 partially supervised training 的方法來(lái)訓(xùn)練 Mask R-CNN。其中 detection 分支的權(quán)重由在 VG 上訓(xùn)練的 Faster R-CNN 的權(quán)重來(lái)初始化,然后 mask 分支以及 weight transfer 函數(shù)則在 MSCOCO 上訓(xùn)練。?

實(shí)驗(yàn)效果:可以看到,在 COCO test split 以及 COCO server 兩個(gè)測(cè)試集上,加入了 HIP 以后,Up-Down 模型和 GCN-LSTM 模型的性能都有大幅提升。

文章也進(jìn)行了消融實(shí)驗(yàn)來(lái)驗(yàn)證各個(gè)部件的性能:

對(duì)于 IoU 的閾值 ?,文章也做了實(shí)驗(yàn),效果最好的值是 0.1,而 ?=0.3 的時(shí)候效果最差,感覺還是比較反直覺的。

文章還進(jìn)行了人工評(píng)估。通過展示 GT、GCN-LSTM+HIP、GCN-LSTM、LSTM 的 caption,分別做了兩組實(shí)驗(yàn):?

1. 每次展示 3 個(gè)機(jī)器生成的 caption 和三個(gè) GT caption,問:機(jī)器能產(chǎn)生像人類寫的句子嗎??

2. 每次只展示 1 個(gè)句子,問:能判斷出哪些是機(jī)器產(chǎn)生的句子,哪些是人類寫的句子嗎??

通過人工評(píng)估的反饋,文章統(tǒng)計(jì)了兩個(gè)指標(biāo):?

  • M1:與人類注釋相當(dāng)甚至更好的 caption 的百分比?

  • M2:通過圖靈測(cè)試的 caption 的百分比?

GCN-LSTM+HIP、GCN-LSTM 和 LSTM 在 M1 上的得分分別是 76.5%、73.9% 和 50.7%。人類注釋、GCN-LSTM+HIP、GCN-LSTM 和 LSTM 在 M2 上的得分分別是 91.4%、85.2%、81.5% 和 57.1%。?

兩項(xiàng)指標(biāo)都說(shuō)明了引入 HIP 后模型有明顯提升。?

下圖是模型生成的句子示例:

文章還把 HIP 擴(kuò)展到了圖像多標(biāo)簽分類問題,把 COCO 上物體檢測(cè)的標(biāo)注作為圖像的多標(biāo)簽,并應(yīng)用 Multi-label softmax 進(jìn)行訓(xùn)練。然后分別對(duì)每個(gè)標(biāo)簽計(jì)算 precision 和 recall。

最后比較了 per-class precision (C-P),pre-class recall (C-R),overall precision (O-P),overall recall (O-R) 以及 F1 值。發(fā)現(xiàn)引入HIP后都是有明顯提升的。個(gè)人認(rèn)為,其實(shí) HIP 這種做法與 finegrained image recognition 中的做法類似。

總結(jié)

文章提出了層次解析(HIerarchy Parsing,HIP)的結(jié)構(gòu),通過對(duì)圖像進(jìn)行層次解析,能夠豐富所提取的圖像特征,并增強(qiáng)模型的可解釋性。可以應(yīng)用到現(xiàn)有的模型當(dāng)中。文章的實(shí)驗(yàn)非常詳盡,能夠想到把 HIP 與 Tree-LSTM 結(jié)合、利用 partially supervised training 來(lái)訓(xùn)練 Mask R-CNN 的想法也是非常新穎。

參考文獻(xiàn)

[1]?https://arxiv.org/abs/1707.07998?

[2]?https://blog.csdn.net/sinat_26253653/article/details/78436112?

[3] https://arxiv.org/abs/1809.07041v1?

[4] https://arxiv.org/abs/1711.10370

點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?

  • CVPR 2019 開源論文 | 姿勢(shì)服裝隨心換

  • ICLR 2020?| 隱空間的圖神經(jīng)網(wǎng)絡(luò):Geom-GCN

  • ICCV 2019 | VrR-VG:聚焦視覺相關(guān)關(guān)系

  • COCO-GAN:通過條件坐標(biāo)的部分圖像生成

  • ICCV 2019?| 適用于視頻分割的全新Attention機(jī)制

  • 視頻預(yù)測(cè)領(lǐng)域有哪些最新研究進(jìn)展?

#投 稿 通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。

?????來(lái)稿標(biāo)準(zhǔn):

? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?

? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志

???? 投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

????

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點(diǎn)擊 |?閱讀原文?| 下載論文

總結(jié)

以上是生活随笔為你收集整理的ICCV 2019 论文解读 | 基于层次解析的Image Captioning的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 69精品人人 | 少妇一级淫片免费放中国 | av片免费播放 | 亚洲精品视频播放 | 在线观看国产一区二区 | 欧美乱妇高清无乱码 | 亚洲综合不卡 | 免费成人在线播放 | 欧美激情网址 | 成人免费看片' | 免费国产精品视频 | 哈利波特3在线观看免费版英文版 | 天天曰 | 午夜免费大片 | 国产免费黄色网址 | 天天干视频 | av成人在线看 | 婷婷久久久久久 | 凹凸日日摸日日碰夜夜 | 91精品国产乱码在线观看 | 国产精品入口免费 | 人人插人人插 | 国产毛片欧美毛片久久久 | 女女调教被c哭捆绑喷水百合 | 日韩伦理一区二区 | 999毛片| 老师的肉丝玉足夹茎 | 伊人色av| 国产又爽又黄又嫩又猛又粗 | 超污巨黄的小短文 | 国产精品主播视频 | 色在线免费视频 | av在线黄色 | 久久精品视频一区二区 | 女人色极品影院 | 日韩黄色网 | 国产日韩欧美电影 | av在线网站观看 | 污污视频网站在线 | 在线看片亚洲 | 国产午夜性春猛交ⅹxxx | 在线只有精品 | 中文字幕一区二区三区免费视频 | 精品动漫一区二区三区在线观看 | 中文字幕在线观看你懂的 | 天天操天天射天天爱 | 亚洲理论片 | 无码人妻精品一区二区中文 | 久久小草 | 黑丝国产在线 | 成人音影 | 成人91免费 | 在线观看网站 | 在线成人免费视频 | 天天艹日日干 | 久久av高潮av无码av喷吹 | 免费手机av | 免费黄色一级视频 | 蜜臀在线观看 | 久草五月| 久久精品一区二区三 | 中文字幕在线免费观看视频 | 五月天激情四射 | 久久亚洲AV成人无码一二三 | 伊人久久久久久久久久久久久 | 嫩草影院懂你的 | 视频二区三区 | 蜜桃成人av| 国产精品国色综合久久 | 每日av在线| 久久久久国产精品 | 善良的老师伦理bd中字 | 国产全是老熟女太爽了 | 国产又粗又猛视频 | 国产成人一区二区 | 91美女片黄在线观看91美女 | 久久免费国产视频 | 草啪啪| 又色又爽又高潮免费视频国产 | 电影寂寞少女免费观看 | 日本不卡久久 | 3级黄色片| 免费看色 | 国产女主播一区二区三区 | 日韩黄视频| 日韩一级在线视频 | 久久女同互慰一区二区三区 | 国产精品白浆一区二小说 | 久久精品国内 | 欧美啪啪网 | 国产午夜福利精品 | 日韩精品欧美激情 | 国产精品.www | 青青视频免费看 | 1024手机看片国产 | 日皮毛片| 福利在线免费视频 | 国产97在线 | 亚洲 | 伊人成长网 |