日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

论文浅尝 - AAAI2020 | 多模态基准指导的多模态自动文摘

發(fā)布時(shí)間:2024/7/5 ChatGpt 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 - AAAI2020 | 多模态基准指导的多模态自动文摘 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文筆記整理:劉雅,天津大學(xué)碩士。


鏈接:

https://aaai.org/ojs/index.php/AAAI/article/view/6525


動機(jī)

近年來,隨著計(jì)算機(jī)視覺以及自然語言處理技術(shù)的發(fā)展,多模態(tài)自動文摘技術(shù)逐漸成為學(xué)術(shù)界和工業(yè)界研究的熱點(diǎn)。當(dāng)前的多模態(tài)自動文摘受限于數(shù)據(jù)集本身的原因只能采用文本模態(tài)的負(fù)對數(shù)似然損失作為目標(biāo)函數(shù)訓(xùn)練整個(gè)網(wǎng)絡(luò),同時(shí)利用注意力機(jī)制來輔助挑選圖片。這種做法容易帶來模態(tài)偏差的問題,即整個(gè)網(wǎng)絡(luò)會傾向于優(yōu)化文本生成的質(zhì)量而忽視了圖片的挑選過程。該論文提出了多模態(tài)基準(zhǔn)指導(dǎo)的多模態(tài)自動文摘方法。基本想法是優(yōu)化多模態(tài)摘要訓(xùn)練的目標(biāo)函數(shù),即在文本損失的基礎(chǔ)上增加圖片選擇的損失函數(shù)。


亮點(diǎn)

論文亮點(diǎn)主要包括:

(1)提出一種新的評估指標(biāo),該論文是第一個(gè)從信息完整性的角度評估多模式摘要的方法,該方法學(xué)習(xí)了模型摘要和參考摘要的聯(lián)合多模式表示形式。包含信息完整性的評估指標(biāo)與人類判斷的相關(guān)性更好。

(2)提出一種多模態(tài)損失函數(shù),以多模態(tài)參考為指導(dǎo),以利用摘要生成和圖象選擇中的損失


概念及模型

該方法由三部分組成:

  • 首先利用數(shù)據(jù)集本身的特征將只有文本基準(zhǔn)的訓(xùn)練數(shù)據(jù)擴(kuò)展至多模態(tài)基準(zhǔn),主要采用兩種方式,即直接使用輸入圖片的順序?qū)D片進(jìn)行排序或者使用圖片的文字描述與標(biāo)準(zhǔn)文本摘要參考答案之間的ROUGE值大小對輸入圖片進(jìn)行排序。

  • 在模型上添加圖片判別器用于訓(xùn)練圖片挑選的過程,模型的損失函數(shù)也由文本的損失函數(shù)及圖片挑選的損失函數(shù)加權(quán)求和而成。

  • 通過數(shù)據(jù)集中的圖片和文本描述構(gòu)造文本-圖片對齊片段從而用來訓(xùn)練能夠更好地評價(jià)多模態(tài)片段的評價(jià)模型,具體而言論文將兩對圖片-描述的文本部分(或圖像部分)進(jìn)行交換去構(gòu)造兩個(gè)匹配的多模態(tài)片段。

模型整體框架如下:

多模態(tài)匹配片段構(gòu)造示意圖如下:

多模態(tài)目標(biāo)函數(shù)

為了在訓(xùn)練中利用多峰參考,論文提出了一種多峰目標(biāo)函數(shù),該函數(shù)除了考慮文本摘要的負(fù)對數(shù)似然損失外,還考慮了圖像選擇的交叉熵?fù)p失。論文將多模態(tài)摘要分解為兩個(gè)任務(wù):摘要生成和文本圖像關(guān)系識別。為此,論文提出了一種圖像識別器來指導(dǎo)圖像選擇。圖像鑒別器將確定圖像是否與文本內(nèi)容有關(guān)。我們應(yīng)用多任務(wù)學(xué)習(xí)來同時(shí)訓(xùn)練兩個(gè)子任務(wù)。在多任務(wù)設(shè)置中,共享兩個(gè)子任務(wù)的文本編碼器和摘要解碼器。論文使用另一個(gè)圖片解碼器將全局圖象特征g轉(zhuǎn)化為g’.

可以通過兩種方式顯示文本信息:(1)文本編碼器的最后一個(gè)隱藏狀態(tài);或(2)摘要解碼器的最后隱藏狀態(tài)。為了將兩個(gè)向量投影到一個(gè)聯(lián)合語義空間中,論文使用兩個(gè)具有ReLU激活功能的多層感知器將文本向量和視覺向量轉(zhuǎn)換為Itxt和Ivis。圖象和文本信息之間的相關(guān)性可以表示為:

圖像分為文本相關(guān)和非文本相關(guān),這意味著可以將文本-圖像關(guān)系識別視為分類任務(wù)。因此,論文采用了交叉熵?fù)p失:

其中PA(img)表示圖像的實(shí)際概率分布(如果選擇排名前k位的圖像作為目標(biāo),則圖像的概率為1 / k。)。最后,將交叉熵?fù)p失(由超參數(shù)λ加權(quán))添加到摘要生成的損失函數(shù)中,以產(chǎn)生一個(gè)同時(shí)考慮了文本參考和圖像參考的新?lián)p失函數(shù):

聯(lián)合多模態(tài)表示

在跨模式檢索中,輸入是一對圖像和一個(gè)文本。但是在該論文提出的模型中,輸入變成一對多模態(tài)分段(ma,mb),其中ma =(Imagea,Texta)和mb =(Imageb,Textb)。關(guān)鍵問題是如何構(gòu)建訓(xùn)練數(shù)據(jù)。MSMO數(shù)據(jù)集中有很多圖像字幕對,并且假定每個(gè)圖像都與相應(yīng)的字幕相匹配。因此,通過交換兩個(gè)圖像標(biāo)題對的圖像(或文本)以獲得匹配的多模態(tài)分段對(ma*,m*b),其中m*a =(Imageb,Texta)和m*b =(Imagea ,Textb)。值得注意的是,由于m*b中的Imagea與m*a中的Texta相匹配,而m*a中的Imageb與m*b中的Textb相匹配,因此m*a在語義上與m*b相匹配對圖像和文本進(jìn)行編碼,然后使用多模式注意力機(jī)制融合文本向量和圖像特征。最后模型是在一個(gè)新的最大利潤率損失下訓(xùn)練的:

其中(m,m *)是匹配的多模態(tài)分段對,(m,)是從批次中采樣的負(fù)對。論文還使用MSMO數(shù)據(jù)集中的圖像字幕對構(gòu)造訓(xùn)練數(shù)據(jù)。


理論分析

實(shí)驗(yàn)

目前多模態(tài)自動文摘的數(shù)據(jù)集還比較匱乏,這項(xiàng)工作在MSMO數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證。一般圖文式摘要的評價(jià)關(guān)注三個(gè)方面的指標(biāo):圖片準(zhǔn)確率(IP)、文本摘要的ROUGE值(ROUGE-L)以及系統(tǒng)輸出中圖片文本的相關(guān)度(Msim)。該論文引入一個(gè)新的自動評價(jià)指標(biāo)MRmax用來直接度量兩個(gè)多模態(tài)信息之間的相似度(輸出和參考答案的最大相似度)。MMAE是對IP、ROUGE和Msim的組合,MMAE++是IP、ROUGE、Msim和MRmax四個(gè)自動評價(jià)指標(biāo)的組合。利用與人工打分之間的相關(guān)度來對比不同的自動評價(jià)指標(biāo)。

下表給出了不同的自動評價(jià)指標(biāo)與人工打分的相關(guān)度,可以看出融入了直接測量多模態(tài)片段的評價(jià)指標(biāo)MR之后,新的自動評價(jià)模型MMAE++相比于MMAE在與人工打分的相關(guān)度上有一個(gè)顯著的提升。為了衡量論文提出的多模態(tài)基準(zhǔn)指導(dǎo)的模型,論文同多個(gè)強(qiáng)基線模型進(jìn)行了對比,包括融入全局或者局部視覺特征的多模態(tài)注意力機(jī)制的生成式自動文摘模型(ATG、ATL)、層次化的多模態(tài)自動文摘模型(HAN)以及基于圖模型的抽取式自動文摘模型(GR)

下表給出了不同模型生成的圖文式摘要的質(zhì)量對比,可以看出在引入多模態(tài)基準(zhǔn)指導(dǎo)后,模型的圖片挑選質(zhì)量(IP)得到了顯著的改善,并且文本生成質(zhì)量也有略微改進(jìn),從而生成更高質(zhì)量的圖文摘要。相對于使用編碼器隱層狀態(tài)而言,采用解碼器隱層狀態(tài)去進(jìn)行圖片選擇效果會更好。另一方面,使用圖片描述與文本摘要之間ROUGE值的大小對圖片排序獲得的多模態(tài)基準(zhǔn)對于模型的指導(dǎo)作用更加明顯。

同時(shí),本論文也對比了不同的圖片選擇損失函數(shù)權(quán)重對于模型性能的影響,可以看到當(dāng)圖片和文本的損失函數(shù)的權(quán)重都相同時(shí),圖文摘要的質(zhì)量是最好的。

論文對比了在計(jì)算圖片損失中考慮的圖片數(shù)量(即top-K圖片作為gold standard)所帶來的影響,并且發(fā)現(xiàn)當(dāng) K=3的時(shí)候,模型取得了最好的效果。

總結(jié)

在本文中,論文著重于通過提出一種多模式目標(biāo)函數(shù)來改進(jìn)多模式摘要,該目標(biāo)函數(shù)同時(shí)考慮了文本摘要生成的負(fù)對數(shù)似然損失和圖像選擇的交叉熵?fù)p失。實(shí)驗(yàn)表明,該模型可以在真實(shí)的人工標(biāo)記測試集和自動構(gòu)建的測試集上提高多模式輸出的質(zhì)量。

?


?

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 - AAAI2020 | 多模态基准指导的多模态自动文摘的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。