论文阅读:基于多模态词向量的语句距离计算方法
論文信息
華陽. 基于多模態(tài)詞向量的語句距離計(jì)算方法[D].哈爾濱工業(yè)大學(xué),2018.
1.主要工作
在改進(jìn)多模態(tài)詞向量的的基礎(chǔ)上研究句嵌入的構(gòu)建:1).基于神經(jīng)詞袋模型。2)基于雙向RNN。3)基于GRU。
語句距離計(jì)算:
基于MLP和交互注意力機(jī)制的兩種距離計(jì)算方法。在釋義識別,答案選擇和語句難度上測試性能。實(shí)驗(yàn)結(jié)果表明模型能夠?qū)﹄y度距離這一抽象概念進(jìn)行建模。
2.研究內(nèi)容
3.技術(shù)方法
3.1 多模態(tài)詞向量融合的準(zhǔn)備工作
多模態(tài)詞向量構(gòu)建的重點(diǎn)是語義向量與視覺向量的融合,本文中給出了解釋:
圖像語義構(gòu)建:
圖像語義提取采用訓(xùn)練好的CNN模型,常見模型包括:VGGNet,ReNet,GoogleNet等。這些模型基于分類任務(wù)訓(xùn)練,模型的最后一層輸出是各類別的概率。因此,在多模態(tài)語義任務(wù)提取時(shí),我們選擇倒數(shù)第二層(全連接層)的輸出,這一層蘊(yùn)含了對整幅圖像的語義表示。
在使用注意力機(jī)制的情況下,為了提取所有的局部特征,將輸入圖片的大小調(diào)整為 224 ? 224像素;然后將圖片的像素矩陣輸入 CNN 模型;在經(jīng)過 最后一個(gè)卷積層后,可以得到大小14?14?512=196?512的特征圖。
這一步相當(dāng)于把圖像劃分成了196個(gè)區(qū)域,每個(gè)區(qū)域由512維的向量表示。
在詞向量訓(xùn)練時(shí)同樣設(shè)置為512維度,完成融合前的準(zhǔn)備工作。
3.2 基于空間注意力機(jī)制的融合過程
前提:單詞表述的目標(biāo)對象只會出現(xiàn)在圖像的部分區(qū)域
目標(biāo):將詞向量與圖像語義向量進(jìn)行組合。
1.詞向量和圖像語義分別記為分別記為Vw,Vi,計(jì)算詞向量圖像各區(qū)域注意力分布:
表示圖像局部特征維度(512)和數(shù)量(196),
為最終得到的注意力分布,是一個(gè)d維向量(本文為512),每一維表示各區(qū)域與詞向量相關(guān)程度。
2.計(jì)算圖像特征加權(quán)和:
3.將得到的圖像特征與詞向量按位相加:
4.進(jìn)一步疊加注意力層:
以上過程計(jì)算了每個(gè)局部區(qū)域與詞向量的相關(guān)度,并通過堆疊多個(gè)注意力層逐步確定相關(guān)度區(qū)域。完成了多模態(tài)詞向量的匹配與融合。
3.3 語句距離計(jì)算
整體計(jì)算模塊如下:
句嵌入部分采用的方法有:神經(jīng)詞袋(將詞向量進(jìn)行平均),RNN,CNN,GRU等,不再贅述。
距離計(jì)算模塊:
對于無法用cos值描述的,如描述兩個(gè)句子的難度,加入映射模塊:
首先計(jì)算兩個(gè)句向量的相似度,然后拼接,經(jīng)過兩個(gè)連續(xù)的隱藏層,最后通過sigmoid映射到輸出。
3. 基于交互注意力機(jī)制
為了引入注意力機(jī)制,在句嵌入部分,本文的改進(jìn)方法為除了保留句嵌入部分每個(gè)時(shí)間步的隱藏向量的最大池化層,還保留了每個(gè)時(shí)間步的狀態(tài),以第一個(gè)句子句嵌入作為查詢關(guān)注其對第二個(gè)句子每個(gè)時(shí)間步的關(guān)注度,這樣就進(jìn)行了注意力交互查詢,分別計(jì)算對對方的關(guān)注度。
4.實(shí)驗(yàn)分析
多模態(tài)詞向量相關(guān)實(shí)驗(yàn)
評價(jià)指標(biāo):斯皮爾曼相關(guān)系數(shù)。
4.1語義相似性實(shí)驗(yàn)
數(shù)據(jù)集:WordSim353-sim,353對人工標(biāo)注的詞,分值用來表示相似性。
SimLex-999:999對人工標(biāo)注,較wordsim353-sim相比更強(qiáng)調(diào)了相似度與相關(guān)性的區(qū)別。
示例數(shù)據(jù):
實(shí)驗(yàn)結(jié)果:
多模態(tài)詞向量與多種傳統(tǒng)單一詞向量進(jìn)行對比,相比單一詞向量,不同維度下的多模態(tài)詞向量相似度得分普遍提升。在VIS部分,引入了評分人員會根據(jù)兩個(gè)單詞所表述物體的視覺相似度所給的評分,使得相似度結(jié)果更高,因此可以認(rèn)為,視覺信息的加入有效的拉近了單詞的距離。
4.2 語義相關(guān)性實(shí)驗(yàn)
語義相關(guān)性與相似性區(qū)別在于:相似物體具有相似性,相關(guān)物體在視覺上可能并不相似。
數(shù)據(jù)集:WordSim353-rel,353對人工標(biāo)注的詞,分值用來表示相關(guān)性。
MEN:基于 ESP Game 數(shù)據(jù)集中的圖像標(biāo)簽構(gòu)建,當(dāng)兩個(gè)詞同時(shí)作為一副圖像的標(biāo)簽出現(xiàn),其出現(xiàn)頻度越高,則得分越高。一定程度上可反應(yīng)詞的相關(guān)性
實(shí)驗(yàn)結(jié)果:
可以看出:
多模態(tài)詞向量與單一詞向量相比得分有所提升;
注意力的加入,反而降低了性能。
分析該結(jié)果,可能的原因是相關(guān)事物并不具備視覺相似性,不使用注意力機(jī)制時(shí)關(guān)注的是全局特征,
加入注意力機(jī)制,加重了目標(biāo)任務(wù)的關(guān)注度,加強(qiáng)了圖像區(qū)域特征,比如衣柜和衣服,加強(qiáng)區(qū)域特征會拉大兩者的距離,反而降低了多模態(tài)詞向量模型的性能。
4.3 視覺語義相似性實(shí)驗(yàn)
視覺語義相似性用于評價(jià)一對單詞的視覺相似度和語義相似度,其可能情況是2*2排列組合。
數(shù)據(jù)集:VisSim:同時(shí)給出了視覺和語義相似度得分,[1,5]之間。
MEN:基于 ESP Game 數(shù)據(jù)集中的圖像標(biāo)簽構(gòu)建,當(dāng)兩個(gè)詞同時(shí)作為一副圖像的標(biāo)簽出現(xiàn),其出現(xiàn)頻度越高,則得分越高。一定程度上可反應(yīng)詞的相關(guān)性
實(shí)驗(yàn)結(jié)果:
在相似性任務(wù)上,多模態(tài)詞向量獲得了明顯的提升。分析是由于相似單詞其真實(shí)語義相似,視覺也相似,因此多模態(tài)詞向量的性能會有所提升。
查看多模態(tài)和單一模態(tài)下得分最高的詞對:
翻譯成中文:
多模態(tài):青蛙-蟾蜍,馬-小馬,飛機(jī)-噴氣式飛機(jī),公牛-母牛,杯子-杯子,公牛-牛,沙發(fā)-沙發(fā)
單一模態(tài):飛機(jī)-噴氣式飛機(jī),杯子-杯子,導(dǎo)彈-火箭,貓-美洲獅,手套-棒球手套,幕布-窗簾
可以看出,多模態(tài)的高分基本都是視覺上非常相似的,單一模態(tài)的高分更傾向于物品屬于同一種類。多模態(tài)更關(guān)注物品的相似性,單一模態(tài)更關(guān)注物品的相關(guān)性。
4.4語句距離計(jì)算實(shí)驗(yàn):釋義識別
詞向量語料:wiki英文數(shù)據(jù)集
釋義識別數(shù)據(jù)集:谷歌發(fā)布的QQP數(shù)據(jù)集:40萬對數(shù)據(jù),用于判斷兩個(gè)句子描述是否為同一件事。
判斷句子釋義是否相同,是對句嵌入能否表征真實(shí)語義的評價(jià)。
相比使用通用詞向量,多模態(tài)詞向量有更好的表現(xiàn),這表明多模態(tài)詞向量相比通用詞向量能夠概括更強(qiáng)的現(xiàn)實(shí)語義信息。此外,交互注意力機(jī)制相比普通的單向注意力機(jī)制,能夠進(jìn)一步有效提升模型的性能。
本文模型最佳準(zhǔn)確率為0.854,相比最新的為釋義識別設(shè)計(jì)的模型0.882有一定差距。
4.5 答案選擇
數(shù)據(jù)集:WIkiQA數(shù)據(jù)集
答案選擇是從候選集中選擇與目標(biāo)問題最相關(guān)的答案,可以理解為計(jì)算問題和答案間的距離。相比其他實(shí)驗(yàn),Q與A的關(guān)聯(lián)性不強(qiáng),更注重兩個(gè)句子間的匹配。可以看到雙向+多模態(tài)+交互注意力機(jī)制組合其匹配效果更強(qiáng)。分析是由于,多模態(tài)詞向量強(qiáng)化了句子真實(shí)語義,交互注意力價(jià)值,更關(guān)注了兩個(gè)句子的間的反饋,解決了單一attention可能帶來的噪聲問題。改進(jìn)的CNN(gru)與其他深度學(xué)習(xí)相比也增強(qiáng)了實(shí)驗(yàn)結(jié)果。
4.6 語句難度距離
評價(jià):皮爾斯相關(guān)系數(shù)。
數(shù)據(jù)集:小學(xué)不同年級英文教材的手工錄入
隨機(jī)抽取兩個(gè)句子,以評級差作為它們之間的難度距離,距離區(qū)間為即為[0,3]。根據(jù)這個(gè)方法,構(gòu)造了 40000 個(gè)句對,每個(gè)距離各 10000 句。
實(shí)驗(yàn)結(jié)果:
可以看出,對語句難度建模中,多模態(tài)較單一模態(tài)有更好的實(shí)驗(yàn)結(jié)果。分析可能是由于視覺信息的加入使語句攜帶了更多信息,提升了語義表示。作者提到了隨著年級的增加,視覺單詞減少,抽象單詞增加,多模態(tài)詞向量的作用逐漸降低。分析這是由于抽象單詞所對應(yīng)的圖像特征難捕捉,弱化了圖像語義信息。
同時(shí),作者認(rèn)為:”語句的長度并不是評價(jià)語句難度所需要的特征,這些特征會使模型產(chǎn)生偏置,導(dǎo)致模型在其他
語料上不一定生效。“這一句話沒有理解。
5.個(gè)人見解
1.多模態(tài)的引入很好的提升了語義的表征能力,可用于輔佐捕捉句子的真實(shí)語義,也可以根據(jù)句子的表述對圖像的特征區(qū)域進(jìn)行強(qiáng)調(diào)。
2.語句距離測算有廣泛的應(yīng)用場景,如信息檢索,機(jī)器翻譯,問答系統(tǒng)等。在其應(yīng)用場景下,能否與多模態(tài)進(jìn)行結(jié)合。如信息檢索部分,有單獨(dú)的識圖和單獨(dú)的文本搜索,可以探索二者間的結(jié)合。
3.很多論文工作體量大,但創(chuàng)新點(diǎn)不是很明顯。
圖像與文本的匹配過程:
ESP GAME數(shù)據(jù)集對每個(gè)圖像進(jìn)行單詞標(biāo)注,當(dāng)一個(gè)圖像頻繁被打上一個(gè)標(biāo)簽時(shí),就將這個(gè)單詞標(biāo)簽作為圖像標(biāo)注。游戲鼓勵(lì)玩家使用盡量多的單詞來描述圖像。因此,一副圖像中可能有多個(gè)物體及多個(gè)標(biāo)簽。ESP Game數(shù)據(jù)集共含有100k的圖像資源。平均每張圖像包含14和標(biāo)簽,共20515個(gè)單詞。
ImageNet 是一個(gè)按照 WordNet 層次結(jié)構(gòu)組織的大規(guī)模圖像數(shù)據(jù)庫。ImageNet 數(shù)據(jù)集中的圖像主要來源于網(wǎng)絡(luò),每幅圖像都會經(jīng)過人工選擇并為其添加標(biāo)簽。因此,該數(shù)據(jù)庫中的圖像質(zhì)量普遍較高,目標(biāo)物體大都集中與圖像的中間位置。
總結(jié)
以上是生活随笔為你收集整理的论文阅读:基于多模态词向量的语句距离计算方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SpringBoot整合Quartz--
- 下一篇: 特种浓缩分离:生物农药超滤分离提纯过滤技