當前位置：首頁 >

论文阅读：基于多模态词向量的语句距离计算方法

發布時間：2024/3/13 52 豆豆

生活随笔收集整理的這篇文章主要介紹了论文阅读：基于多模态词向量的语句距离计算方法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文信息

華陽. 基于多模態詞向量的語句距離計算方法[D].哈爾濱工業大學,2018.

1.主要工作

簡述語句間的距離問題：自然語言處理任務是度量文本間的距離；不同階段語言學習的難度可以抽象為距離，本文探索語句間的距離。

從兩個角度闡述傳統詞向量距離的缺陷：基于純文本語料的詞向量構建，與人類通過多種感官途徑接受信息不符；傳統的多模態詞向量通過拼接詞向量與圖像特征略顯粗糙。本文提出了基于空間注意力機制的多模態詞向量構建方法加強目標物體局部區域的表示。

句嵌入的構建：
在改進多模態詞向量的的基礎上研究句嵌入的構建：1).基于神經詞袋模型。2）基于雙向RNN。3）基于GRU。
語句距離計算：
基于MLP和交互注意力機制的兩種距離計算方法。在釋義識別，答案選擇和語句難度上測試性能。實驗結果表明模型能夠對難度距離這一抽象概念進行建模。

2.研究內容

將視覺信息注入文本，作為多模態向量研究的基礎。

多模態詞向量的構建，作為本文的一個中間模塊。

句嵌入的構建，作為計算語句距離的基礎。

構建多模態詞向量語句計算模型

3.技術方法

3.1 多模態詞向量融合的準備工作

多模態詞向量構建的重點是語義向量與視覺向量的融合，本文中給出了解釋：

圖像語義構建：
圖像語義提取采用訓練好的CNN模型，常見模型包括：VGGNet,ReNet，GoogleNet等。這些模型基于分類任務訓練，模型的最后一層輸出是各類別的概率。因此，在多模態語義任務提取時，我們選擇倒數第二層（全連接層）的輸出，這一層蘊含了對整幅圖像的語義表示。

在使用注意力機制的情況下，為了提取所有的局部特征，將輸入圖片的大小調整為 224 ? 224像素；然后將圖片的像素矩陣輸入 CNN 模型；在經過最后一個卷積層后，可以得到大小14?14?512=196?512的特征圖。

這一步相當于把圖像劃分成了196個區域，每個區域由512維的向量表示。
在詞向量訓練時同樣設置為512維度，完成融合前的準備工作。

3.2 基于空間注意力機制的融合過程

前提：單詞表述的目標對象只會出現在圖像的部分區域
目標：將詞向量與圖像語義向量進行組合。
1.詞向量和圖像語義分別記為分別記為Vw,Vi，計算詞向量圖像各區域注意力分布：

表示圖像局部特征維度(512)和數量(196)，
為最終得到的注意力分布，是一個d維向量（本文為512），每一維表示各區域與詞向量相關程度。
2.計算圖像特征加權和：
3.將得到的圖像特征與詞向量按位相加：
4.進一步疊加注意力層：

以上過程計算了每個局部區域與詞向量的相關度，并通過堆疊多個注意力層逐步確定相關度區域。完成了多模態詞向量的匹配與融合。

3.3 語句距離計算

整體計算模塊如下：

句嵌入部分采用的方法有：神經詞袋（將詞向量進行平均），RNN，CNN,GRU等，不再贅述。
距離計算模塊:

計算句向量cos值：
對于無法用cos值描述的，如描述兩個句子的難度，加入映射模塊：

基于MLP計算距離

首先計算兩個句向量的相似度，然后拼接，經過兩個連續的隱藏層，最后通過sigmoid映射到輸出。
3. 基于交互注意力機制

為了引入注意力機制，在句嵌入部分，本文的改進方法為除了保留句嵌入部分每個時間步的隱藏向量的最大池化層，還保留了每個時間步的狀態，以第一個句子句嵌入作為查詢關注其對第二個句子每個時間步的關注度，這樣就進行了注意力交互查詢，分別計算對對方的關注度。

4.實驗分析

多模態詞向量相關實驗

評價指標：斯皮爾曼相關系數。

4.1語義相似性實驗

數據集：WordSim353-sim，353對人工標注的詞，分值用來表示相似性。
SimLex-999：999對人工標注，較wordsim353-sim相比更強調了相似度與相關性的區別。
示例數據：

實驗結果：

多模態詞向量與多種傳統單一詞向量進行對比，相比單一詞向量，不同維度下的多模態詞向量相似度得分普遍提升。在VIS部分，引入了評分人員會根據兩個單詞所表述物體的視覺相似度所給的評分，使得相似度結果更高，因此可以認為，視覺信息的加入有效的拉近了單詞的距離。

4.2 語義相關性實驗

語義相關性與相似性區別在于：相似物體具有相似性，相關物體在視覺上可能并不相似。
數據集：WordSim353-rel，353對人工標注的詞，分值用來表示相關性。
MEN：基于 ESP Game 數據集中的圖像標簽構建，當兩個詞同時作為一副圖像的標簽出現，其出現頻度越高，則得分越高。一定程度上可反應詞的相關性
實驗結果：

可以看出：
多模態詞向量與單一詞向量相比得分有所提升；
注意力的加入，反而降低了性能。
分析該結果，可能的原因是相關事物并不具備視覺相似性，不使用注意力機制時關注的是全局特征，
加入注意力機制，加重了目標任務的關注度，加強了圖像區域特征，比如衣柜和衣服，加強區域特征會拉大兩者的距離，反而降低了多模態詞向量模型的性能。

4.3 視覺語義相似性實驗

視覺語義相似性用于評價一對單詞的視覺相似度和語義相似度，其可能情況是2*2排列組合。
數據集：VisSim：同時給出了視覺和語義相似度得分，[1,5]之間。
MEN：基于 ESP Game 數據集中的圖像標簽構建，當兩個詞同時作為一副圖像的標簽出現，其出現頻度越高，則得分越高。一定程度上可反應詞的相關性
實驗結果：

在相似性任務上，多模態詞向量獲得了明顯的提升。分析是由于相似單詞其真實語義相似，視覺也相似，因此多模態詞向量的性能會有所提升。
查看多模態和單一模態下得分最高的詞對：
翻譯成中文：
多模態：青蛙-蟾蜍，馬-小馬，飛機-噴氣式飛機，公牛-母牛，杯子-杯子，公牛-牛，沙發-沙發
單一模態：飛機-噴氣式飛機，杯子-杯子，導彈-火箭，貓-美洲獅，手套-棒球手套，幕布-窗簾
可以看出，多模態的高分基本都是視覺上非常相似的，單一模態的高分更傾向于物品屬于同一種類。多模態更關注物品的相似性，單一模態更關注物品的相關性。

4.4語句距離計算實驗：釋義識別

詞向量語料：wiki英文數據集
釋義識別數據集：谷歌發布的QQP數據集：40萬對數據，用于判斷兩個句子描述是否為同一件事。

判斷句子釋義是否相同，是對句嵌入能否表征真實語義的評價。
相比使用通用詞向量，多模態詞向量有更好的表現，這表明多模態詞向量相比通用詞向量能夠概括更強的現實語義信息。此外，交互注意力機制相比普通的單向注意力機制，能夠進一步有效提升模型的性能。
本文模型最佳準確率為0.854，相比最新的為釋義識別設計的模型0.882有一定差距。

4.5 答案選擇

數據集：WIkiQA數據集

答案選擇是從候選集中選擇與目標問題最相關的答案，可以理解為計算問題和答案間的距離。相比其他實驗，Q與A的關聯性不強，更注重兩個句子間的匹配。可以看到雙向+多模態+交互注意力機制組合其匹配效果更強。分析是由于，多模態詞向量強化了句子真實語義，交互注意力價值，更關注了兩個句子的間的反饋，解決了單一attention可能帶來的噪聲問題。改進的CNN（gru）與其他深度學習相比也增強了實驗結果。

4.6 語句難度距離

評價:皮爾斯相關系數。
數據集：小學不同年級英文教材的手工錄入

隨機抽取兩個句子，以評級差作為它們之間的難度距離，距離區間為即為[0,3]。根據這個方法，構造了 40000 個句對，每個距離各 10000 句。
實驗結果：

可以看出，對語句難度建模中，多模態較單一模態有更好的實驗結果。分析可能是由于視覺信息的加入使語句攜帶了更多信息，提升了語義表示。作者提到了隨著年級的增加，視覺單詞減少，抽象單詞增加，多模態詞向量的作用逐漸降低。分析這是由于抽象單詞所對應的圖像特征難捕捉，弱化了圖像語義信息。
同時，作者認為：”語句的長度并不是評價語句難度所需要的特征，這些特征會使模型產生偏置，導致模型在其他
語料上不一定生效。“這一句話沒有理解。

5.個人見解

1.多模態的引入很好的提升了語義的表征能力，可用于輔佐捕捉句子的真實語義，也可以根據句子的表述對圖像的特征區域進行強調。
2.語句距離測算有廣泛的應用場景，如信息檢索，機器翻譯，問答系統等。在其應用場景下，能否與多模態進行結合。如信息檢索部分，有單獨的識圖和單獨的文本搜索，可以探索二者間的結合。
3.很多論文工作體量大，但創新點不是很明顯。

圖像與文本的匹配過程：
ESP GAME數據集對每個圖像進行單詞標注，當一個圖像頻繁被打上一個標簽時，就將這個單詞標簽作為圖像標注。游戲鼓勵玩家使用盡量多的單詞來描述圖像。因此，一副圖像中可能有多個物體及多個標簽。ESP Game數據集共含有100k的圖像資源。平均每張圖像包含14和標簽，共20515個單詞。
ImageNet 是一個按照 WordNet 層次結構組織的大規模圖像數據庫。ImageNet 數據集中的圖像主要來源于網絡，每幅圖像都會經過人工選擇并為其添加標簽。因此，該數據庫中的圖像質量普遍較高，目標物體大都集中與圖像的中間位置。

總結

以上是生活随笔為你收集整理的论文阅读：基于多模态词向量的语句距离计算方法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： SpringBoot整合Quartz--
下一篇：特种浓缩分离：生物农药超滤分离提纯过滤技