日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自适应注意力机制在Image Caption中的应用

發布時間:2024/10/8 编程问答 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 自适应注意力机制在Image Caption中的应用 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.




在碎片化閱讀充斥眼球的時代,越來越少的人會去關注每篇論文背后的探索和思考。


在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。


點擊本文底部的「閱讀原文」即刻加入社區,查看更多最新論文推薦。

這是 PaperDaily 的第?71?篇文章

本期推薦的論文筆記來自 PaperWeekly 社區用戶 @jamiechoi本文主要討論自適應的注意力機制在 Image Caption 中的應用。作者提出了帶有視覺標記的自適應 Attention 模型,在每一個 time step,由模型決定更依賴于圖像還是視覺標記。

關于作者:蔡文杰,華南理工大學碩士生,研究方向為Image Caption。


■?論文 | Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning

■ 鏈接 | www.paperweekly.site/papers/219

■ 源碼 | github.com/jiasenlu/AdaptiveAttention


Introduction


目前大多數的基于 Attention 機制的 Image Captioning 模型采用的都是 encoder-decoder 框架。然而在 decode 的時候,decoder 應該對不同的詞有不同的 Attention 策略。例如,“the”、“of”等詞,或者是跟在cell”后面的phone”等組合詞,這類詞叫做非視覺詞(Non-visual Word),更多依賴的是語義信息而不是視覺信息。而且,在生成 caption 的過程中,非視覺詞的梯度會誤導或者降低視覺信息的有效性


因此,本文提出了帶有視覺標記的自適應 Attention 模型(Adative Attention Model with a Visual Sentinel),在每一個 time step,模型決定更依賴于圖像還是 Visual Sentinel。其中,visual sentinel 存放了 decoder 已經知道的信息。?


本文的貢獻在于:


  • 提出了帶有視覺標記的自適應 Attention 模型?

  • 提出了新的 Spatial Attention 機制?

  • 提出了 LSTM 的擴展,在 hidden state 以外加入了一個額外的 Visual Sentinel Vector


Method


Spatial Attention Model?


文章介紹了普通的 encoder-decoder 框架,這里不再贅述。但文章定義了 context vector ct,對于沒有 attention 機制的模型,ct 就是圖像經過 CNN 后提取出的 feature map,是不變的;而對于有 attention 機制的模型,基于 hidden state,decoder 會關注圖像的不同區域,ct?就是該區域經過 CNN 后提取出的 feature map。


文章對 ct?的定義如下:



其中 g 是 attention function,V=[v1,...,vk] 代表 k 個區域的圖像 feature,ht 是 t 時刻 RNN 的 hidden state。 由此可以得到 k 個區域的 attention 分布 αt:



這里把 V 與 ht 相加,而有些論文則使用一個雙線性矩陣來連接它們。



其中是所有元素為 1 的向量,目的是讓相乘得到 k*k 大小的矩陣。最終本文的 ct 為:



show, attend and tell [1] 使用 ht?1 的做法不同,本文使用的是 ht。結構如下:



作者認為 ct 可以看作 ht 的殘差連接,可以在預測下一個詞時降低不確定性或者提供情報。(不是應該做一個實驗驗證使用 ht 和 ht?1 的差別?)并且發現,這種 Spatial Attention 方式比其他模型表現更好。


Adaptive Attention Model?


decoder 存儲了長時和短時的視覺和語義信息,而 Visual Sentinel st 作為從里面提取的一個新的元件,用來擴展上述的 Spatial Attention Model,就得到了 Adaptive Attention Model。?


具體的擴展方式就是在原有的 LSTM 基礎上加了兩個公式:


?


其中 xt 是 LSTM 的輸入,mt 是 memory cell(有些論文里用 ct 表示)。?


這里的 gt 叫 sentinel gate,公式形式類似于 LSTM 中的 input gate, forget gate, output?gate,決定了模型到底關注圖像還是 visual sentinel;而 st 公式的構造與 LSTM 中的 ht=ot⊙tanh(ct) 類似。


Adaptive Attention Model 中的 Context Vector:



βt∈[0,1] 可以視為真正意義上的 sentinel gate,控制模型關注 visual sentinel 和 ct 的程度。與此同時,Spatial Attention 部分 k 個區域的 attention 分布 αt 也被擴展成了 αt^,做法是在 zt 后面拼接上一個元素:



擴展后的 αt^ 有 k+1 個元素,而 βt=αt^[k+1]。(CVPR 和 arXiv 版本的原文都寫的是 βt=αt[k+1],我在 Github 上問了作者,這確實是個筆誤 [2])。


這里的 Wg 與中的 Wg 是相同的(為什么這樣做?Wh 也一樣嗎?作者在這里沒有提到,在后續論文 [3] 里的公式 (9) 提到了)。


上述公式可以簡化為:




最終單詞的概率分布:




具體架構如下:



Implementation Details


文章選擇了 ResNet 的最后一層卷積層的特征來表示圖像,維度是 2048x7x7,并使用來表示 k 個局部圖像特征,而全局圖像特征則是局部特征的平均:?



局部圖像特征需要經過轉換:



最終全局圖像特征將與 word embedding 拼接在一起成為 LSTM 的輸入:xt=[wt;vg] 局部圖像特征則用在了 attention 部分。


Experiment

Table 1 在 test splits 上對比了在 Flickr30k 和 MSCOCO 數據集上模型與其他模型的表現,可以看到,模型的 Spatial Attention 部分就已經比其他模型表現好了,而加入了 Adaptive Attention 部分以后表現更加出色。



Table 2 在 COCO server 上對比了模型與其他模型的表現可以看到,Adaptive Attention 模型(emsemble后)的表現是當時 SOTA 的結果。



Fig 4 是 Spatial Attention的權重 α 的可視化結果,前兩列是成功的樣本,最后一列是失敗的樣本。模型進行 attention 的區域基本都是合理的,只是可能對一些物體的材質判斷失誤。



Fig 5 主要是 sentinel gate 1?β 的可視化,對于視覺詞,模型給出的概率較大,即更傾向于關注圖像特征 ct,對于非視覺詞的概率則比較小。同時,同一個詞在不同的上下文中的概率也是不一樣的。如"a",在一開始的概率較高,因為開始時沒有任何的語義信息可以依賴、以及需要確定單復數。



Fig 6 對 COCO 和 Flickr30k 中詞典中的詞被認為是視覺詞的平均概率進行了排序,來看看模型能否分辨出視覺詞與非視覺詞,兩個數據集間的相關性為 0.483。其中:


1. 對于一些實際上是視覺詞,但是與其他詞有很大關聯性的詞,模型也會把它視為非視覺詞,如"phone"一般都跟在"cell"后面;


2. 不同數據集上不同的詞的概率不一樣,如"UNK",可能是由于訓練數據分布的不同;


3. 對于一些有相近意義的同源詞,如"crossing", "cross", "crossed",他們的概率卻相差很大。(為什么?) 模型沒有依賴外部的語料信息,完全是自動地發現這些趨勢。



Fig 11 顯示了使用弱監督方法生成的 bounding box 與真實 bounding box 的對比。本文是第一個使用這種方法來評估 image caption 的 attention 效果的


具體生成方法是,對于某個單詞而言,先用 NLTK 將其映射到大類上,如“boy”, “girl”映射到 people。然后圖像中 attention weight 小于閾值(每個單詞的閾值都不一樣)的部分就會被分割出來,取分割后的最大連通分量來生成 bounding box。


并計算生成的和真實 bounding box 的 IOU (intersection over union),對于 spatial attention 和 adaptive attention 模型,其平均定位準確率分別為 0.362 和 0.373。說明了,知道何時關注圖像,也能讓模型更清楚到底要去關注圖像的哪個部分。



Fig 7 顯示了 top 45 個 COCO 數據集中出現最頻繁的詞的定位準確性。對于一些體積較小的物體,其準確率是比較低的,這是因為 attention map 是從 7x7 的 feature map 中直接放大的,而 7x7 的 feature map 并不能很好地包含這些小物體的信息。




Fig 8 顯示了單詞“of”在 spatial attention 和 adaptive attention 模型中的 attention map。如果沒有 visual sentinel,非視覺詞如“of”的 attention 就會高度集中在圖像的邊緣部分,可能會在反向傳播時形成噪聲影響訓練。


總結


本文提出了 Adaptive Attention 機制,其模型公式都非常簡單,Adaptive Attention 部分增加的幾個變量也非常簡潔,但卻對模型的表現有了很大的提升。文章進行的詳盡的實驗又進一步驗證了 Adaptive Attention 的有效性,可謂非常巧妙。

相關鏈接


[1].?Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

https://arxiv.org/abs/1502.03044

[2]. 筆誤

https://github.com/jiasenlu/AdaptiveAttention/issues/14

[3]. Neural Baby Talk

https://www.paperweekly.site/papers/1801

本文由 AI 學術社區 PaperWeekly 精選推薦,社區目前已覆蓋自然語言處理、計算機視覺、人工智能、機器學習、數據挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區!



點擊標題查看更多論文解讀:?


  • ??Tree-CNN:一招解決深度學習中的災難性遺忘

  • ??深度神經網絡模型壓縮和加速都有哪些方法?

  • ??新型網絡ROAD-Net:解決語義分割域適配問題

  • ??視覺跟蹤之端到端的光流相關濾波

  • 超詳細解讀:神經語義解析的結構化表示學習

  • 跨域社交推薦:如何透過用戶社交信息“猜你喜歡”?


?戳我查看招募詳情


#作 者 招 募#


讓你的文字被很多很多人看到,喜歡我們不如加入我們

? ? ? ? ? ?


關于PaperWeekly


PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。


▽ 點擊 |?閱讀原文?| 查看作者博客

與50位技術專家面對面20年技術見證,附贈技術全景圖

總結

以上是生活随笔為你收集整理的自适应注意力机制在Image Caption中的应用的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。