SAFE: Similarity-Aware Multi-Modal Fake News Detection-学习笔记
SAFE: Similarity-Aware Multi-Modal Fake News Detection
PPT
提高對話系統(tǒng)數據質量和多樣性的離群點檢測
Fake news detection methods
假新聞檢測方法通常可以分為(I)基于內容的方法和(II)基于社交上下文的方法。
一:基于內容的虛假新聞檢測,通過利用新聞內容(即新聞內容內的文本信息和/或視覺信息)來檢測假新聞。
二:基于社交上下文的方法通過調查與新聞文章相關的社交上下文信息(即新聞文章如何在社交媒體上傳播)來檢測虛假新聞。
SAFE Methodology
1.多模式特征提取。SAFE的多模式特征提取模塊旨在分別在d維空間中表示給定新聞文章的(I)文本信息和(II)視覺信息。
文本通過引入附加的完全連接層來擴展Text-CNN,以自動提取每篇新聞文章的文本特征。
圖2提供了Text-CNN的體系結構,其中包含卷積層和最大池。
每個本地輸入是一組h個連續(xù)字。
給定一條包含n個詞的內容,每個詞首先被嵌入為(1)。
卷積層用于根據局部輸入xi的序列生成特征圖,表示為ct,通過過濾器wt。
每個本地輸入是一組h個連續(xù)字。
⊕是串聯(lián)運算符,σ是ReLU函數。
然后,最大時間池化操作應用于獲得的特征圖以進行降維,即? ct = max {ci t} n-h + 1 i = 1。
最后,可以通過t = Wt tct + bt獲得新聞文本的表示形式,其中wherect∈Rg,g是選擇的不同窗口大小數;
為了表示新聞圖像,使用Text-CNN和附加的完全連接層,同時首先使用預先訓練的image2句子模型處理新聞內容中的視覺信息。
新聞視覺信息的最終表示:
2.模態(tài)獨立的假新聞預測
正確地將新聞內容的提取的文本和視覺特征映射到其被偽造的可能性.
為了讓計算出來的假新聞可能性接近其真實標簽,定義了基于交叉熵的損失函數.
3.跨模式相似性提取
通過稍微修改余弦相似度來定義新聞文本信息和視覺信息之間的相關性,可以保證Ms(t,v)為正且∈[0,1]。
然后,可以按如下定義基于交叉熵的損失函數,即假設從純相似性進行分析時,與文本和圖像信息匹配的新聞相比,文本和視覺信息不匹配的新聞更容易被偽造。
4.模型整合與聯(lián)合學習
當檢測到虛假新聞時,主要是在正確識別虛假的新聞,這些虛假的新聞在文本和/或視覺信息中,或者它們之間的關系中。 為了涉及這兩種情況,將最終損失函數指定為.
α和β用于分配提取的多峰特征(α)和跨峰相似度(β)之間的相對重要性。
4.優(yōu)化過程以學習模型參數
更新θp,其中γ為學習率,即L w.r.t的偏導數。
更新θp等效于每次迭代中更新Wp和bp
Wp,L表示Wp的前d列,
Dt是一個入口值為 的對角矩陣。
Experiments
實驗是在兩個公認的假新聞檢測公共基準數據集上進行的,分別來自PolitiFact和GossipCop,PolitiFact(politifact.com)是美國著名的非盈利性的政治陳述和報告真相檢查網站。 GossipCop(gossipcop.com)是一個網站,用于檢查雜志和報紙上發(fā)布的名人報道和娛樂故事。
LIWC是一個廣泛接受的心理語言詞典。 給定一個新聞故事,LIWC可以對文本中的單詞進行計數,這些單詞屬于80多種語言,心理和主題類別中的一個或多個。
VGG-19是一種廣泛使用的CNN,具有19層圖像分類。
att-RNN是適用于多模式假新聞檢測的深度神經網絡模型。它采用具有關注機制的LSTM和VGG-19來融合新聞文章的文本,視覺和社交上下文功能。
– SAFE \ T:不使用文本信息;
– SAFE \ V:不使用視覺信息;
?– SAFE \ S:不捕獲新聞文本和視覺信息之間的關系(相似性)。在這種情況下,通過將每個新聞文章的提取的多模式特征進行合并來融合它們;
– SAFE \ W:僅評估文本和視覺信息之間的關系時的建議方法。在這種情況下,分類器與交叉模態(tài)相似性提取模塊的輸出直接相連。
將學習率設為10?4,將迭代次數設為100,并將步幅(H)設為{3,4}。
使用準確性,準確性,召回率和F1分數來評估表示和預測的效果。在預測假新聞時,基于兩個數據集的準確性值和F1分數,SAFE的表現可超過所有基線。
模塊分析表中列出了SAFE及其變體的性能。在預測假新聞時;整合新聞文本信息,視覺信息及其關系(SAFE)在所有變體中效果最好;使用多模式信息(SAFE \ S或SAFE \ W)比使用單模式信息(SAFE \ T或SAFE \ V)要好。
將α和β的值分別從0更改為1,步長為0.2。對于兩個數據集,各種參數值都導致SAFE的準確性(或F1score)介于0.75至0.85(或0.8至0.9)之間。當PolitiFact中的α:β= 0.4:0.6和GossipCop中的α:β= 0.6:0.4時,所提出的方法表現最佳。
對于一??些虛構的故事,文本和視覺信息之間存在差距,一般出于兩個原因。
首先,很難通過非操縱的圖像來支持這樣的故事。圖5(a)中是一個示例,其中實際上沒有與投票和票據相關的圖像。
與具有真正親密關系的夫妻相比(見圖6(c)),假冒的夫妻通常擁有稀有的集體照或使用拼貼畫(見圖5(c))。
其次,使用“吸引力”但不密切相關的圖像可以幫助增加新聞流量。例如,圖5(b)中的虛假新聞包括帶有笑容的個體與死亡故事相沖突的圖像。
總結
以上是生活随笔為你收集整理的SAFE: Similarity-Aware Multi-Modal Fake News Detection-学习笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: windows7台式电脑怎么连接路由器
- 下一篇: 把知识变成图谱一共需要花几步?89页全网