日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

智源-计算所虚假新闻检测大赛 | 探秘假新闻中的视觉信息

發(fā)布時間:2024/10/8 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 智源-计算所虚假新闻检测大赛 | 探秘假新闻中的视觉信息 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

2019 年 8 月,北京智源人工智能研究院聯合中科院計算所、數據評測平臺 biendata,共同發(fā)布了中文多模態(tài)虛假新聞數據集,并同步開放了評測競賽(2019 年 8 月-11 月初),總獎金 10 萬元。
比賽網址請見下方鏈接,或點擊“閱讀原文”鏈接。
本次比賽在文本模態(tài)之外,重點關注視覺模態(tài)在虛假新聞檢測中的應用。為使參賽選手充分了解已有工作,主辦方特別撰寫了進展介紹,總結在虛假新聞檢測中,視覺模態(tài)的作用和利用方法。

比賽鏈接:

https://biendata.com/competition/falsenews/
微博、Tiwtter 等社交平臺的興起為用戶帶來便捷的同時也為虛假新聞的滋生與傳播提供了土壤。虛假新聞的瘋狂傳播已經帶來了諸多消極影響。據統(tǒng)計,在 2016 年美國總統(tǒng)大選前一個月,平均每個選民曾接觸過 1-3 條政治類假新聞,這些假新聞不可避免地影響了選舉過程公平公正的進行。
與此同時,隨著多媒體技術的發(fā)展,無論自媒體還是專業(yè)媒體都開始向基于圖、文、短視頻的多媒體新聞形式轉變。多媒體內容承載著更加豐富與直觀的信息,能夠更好地描述新聞事件,且更易廣泛傳播。研究表明,帶圖片新聞的平均轉發(fā)次數是純文本新聞的 11 倍。正因如此,虛假新聞經常使用極具煽動性的圖片來吸引和誤導讀者,從而快速且廣泛地傳播,這使得對視覺模態(tài)內容的檢測已經成為應對虛假新聞挑戰(zhàn)的不容忽視的一部分。
本文將介紹視覺模態(tài)在虛假新聞檢測中的應用進展。首先本文分析了現存的虛假新聞配圖的類別,之后從統(tǒng)計、取證、語義三個方面介紹了有助于檢測的特征,并介紹了融合多種視覺模態(tài)的方法 MVNN。此外,我們還介紹了三種多模態(tài)檢測方法,以充分展示如何將視覺信息與文本信息結合,以應對虛假新聞檢測的挑戰(zhàn)。

問題分類

虛假新聞中的配圖情況主要有以下三種:
  • 圖片篡改:通過對既有圖片進行惡意的篡改來達到混淆讀者視聽的效果。下圖中,普京被拼接到圖片中心的座椅上,誤導讀者以為普京身居中心參與一眾領導人的討論。

▲?圖片篡改

  • 圖文不符:圖片本身是真實拍攝的,但與文字描述對圖片進行了錯誤解讀。下圖中記錄的是希拉里意外被絆到,但配文卻將該事件曲解為希拉里健康狀況堪憂。

▲?圖文不符
  • 圖片過時:使用以往新聞的配圖來充當當前新聞的配圖。下圖中,2009 年紐約飛機事故的配圖被套用到 MH370 事件中,因為此類圖片和事件之間具有一定的相關性,對讀者具有很強的誤導性。


▲?圖片過時


在實際使用中,我們無法預先得知虛假新聞配圖屬于上述哪種類型。因此,虛假新聞檢測的一大難題就在于尋找通用性好的特征組合和設計能應對多種情況的模型。

視覺特征

針對虛假新聞圖片的特點,基于視覺模態(tài)內容進行虛假新聞檢測的工作主要利用了以下三類特征:統(tǒng)計特征、取證特征以及語義特征。

統(tǒng)計特征

Jin [1] 等人發(fā)現虛假新聞的配圖從統(tǒng)計特征上來看與真實新聞存在一定差異。比如,受限于圖片來源,虛假新聞往往是少數幾張?zhí)摷賵D片在進行著重復傳播,而真實新聞由于素材來源豐富,其配圖往往具有很強的多樣性。下圖中,圖 (a) 是真新聞配圖,圖 (b) 是假新聞配圖。可以看出,相較于假新聞配圖,真新聞配圖的多樣性更強。

▲?真實新聞事件與虛假新聞事件配圖多樣性的差異

除圖片多樣性外,新聞中配圖的圖片數目、包含熱門圖片的新聞比例、特殊圖片(如長圖、聊天截圖等)所占比例等也經常用作檢測的統(tǒng)計特征。另外,一些更高層次的統(tǒng)計特征在虛假新聞檢測中也發(fā)揮著重要的作用 [1,2,3]:

  • 視覺清晰度(Visiual Clarity Score, VCS):VCS 被用來衡量來自兩個集合的圖片差異,其中一個集合圖片來自某一特定事件,而另一集合是訓練集中所有事件的配圖。通過使用 K-L 散度度量兩個集合的分布差異,我們可以得出該事件的圖片分布是否具有特異性。


  • 視覺一致度(Visiual Coherence Score, VCoS):通過計算圖片兩兩之間的相似度,VCoS 衡量了同一事件中的圖片的一致性。


  • 視覺相似度直方圖(Visual Similarity Distribution Histogram, VSDH):VSDH 將圖像相似度矩陣化為直方圖,精細地度量同一事件中圖像的一致程度。


  • 視覺多樣度(Visiual Diversity Score, VDS):VDS 用來度量事件中圖像在視覺上的多樣性程度。

  • 視覺聚類度(Visiual Clustering Score, VCS):VCS 從圖像聚類的角度來度量新聞圖片的分布,它統(tǒng)計的是一個事件中圖像經過層次聚類后的簇數目。


取證特征


查證一條多媒體新聞真實性最直接的方式就是驗證其中視覺信息的真實性:如果新聞中的視頻或圖像經歷過篡改、多次壓縮等操作,或者它們本身就是由某些深度學習手段生成的,那這則新聞就很可能是捏造的。通過分析圖片是否存在篡改、多重壓縮或是否為生成得到,我們可以判斷其本身的可信度。在取證特征中,又包含篡改、生成和重壓縮特征三類:

篡改檢測

假新聞制造者常常對發(fā)生在其他新聞中的配圖進行拼接、復制-粘貼或移除等操作來偽造成另一新聞事件配圖,高超的 PS 手段使得很多讀者難以辨別圖片的真?zhèn)巍,F有的圖像篡改檢測的方式主要包括基于手工特征和深度學習特征的兩種檢測方法:手工特征:基于手工特征的篡改檢測方法大多基于篡改圖像底層特征的分析,這些底層特征包括雙重 JPEG 壓縮痕跡、CFA 色彩矩陣特征和局部噪聲特征等。基于雙重 JPEG 壓縮痕跡的方法通過預測 DCT 系數和量化因子的概率模型,可以發(fā)現篡改和未篡改區(qū)域壓縮程度的差異。基于 CFA 的方法則根據篡改與未篡改區(qū)域來自不同的相機的假設,通過分析不同區(qū)域存在的不同相機的濾波陣列的統(tǒng)計特性來定位篡改區(qū)域。基于局部噪聲特征的方法,如隱寫豐富模型(Spatial Rich Model,SRM)[4]等,通過捕捉篡改區(qū)域和未篡改區(qū)域鄰接像素的噪聲特征的不連續(xù)性定位篡改區(qū)域。
深度學習特征:基于手工特征的檢測方法大多只能檢測特定類型的篡改,近年來用深度學習的方法來解決通用篡改檢測的問題。Cozzolino [5]等人將 SRM 特征與卷積神經網絡融合,進一步發(fā)掘了局部噪聲特征在篡改檢測上的作用,他們也嘗試將圖像篡改任務看作異常檢測任務,用基于自編碼器的方法將編碼器難以重建的部分定位為篡改區(qū)域,實現了無監(jiān)督的篡改檢測 [6]。除此之外,Peng [7]等人提出了一個雙流篡改檢測模型,該模型從 RGB 流和噪聲流提取到了豐富的篡改特征的表達,實現了拼接、復制-粘貼和局部去除多種圖像篡改類型的檢測。

生成檢測

隨著深度生成網絡的發(fā)展,人們可以生成更加逼真的圖像與視頻,一些圖片甚至達到了肉眼都難以辨認的程度,這為檢測這些虛假圖片帶來了極大的挑戰(zhàn)。盡管現有的生成圖像已經到了以假亂真的程度,但在一些特征中仍與真實圖片之間存在差異,現有方法主要從信號層的特征來進行檢測:

  • Co-occurrence Matrix [8]:Co-occurrence Matrix 可以捕捉圖片空間上的一致性特征。Nataraj 等人從像素域提取圖片三通道的 Co-occurrence 矩陣,并利用 CNN 網絡來識別生成圖片在 Co-occurrence 矩陣中的模式特征。

  • Intensity Noise Histogram[9]:Scott 等人發(fā)現由 GAN 生成的圖片在三通道光譜響應上比真實圖片存在更多的重疊部分,即生成圖片在 RGB 通道中存在著某種相關性。從這一發(fā)現出發(fā),Scott 等人使用 Intensity Noise Histogram 特征來捕獲像素級別的統(tǒng)計相關性。

  • Saturation [9]:由相機拍攝而成的圖片的飽和度不會出現負值,但由 GAN 生成的圖片往往沒有這一約束。因此,飽和度中極端值的分布比例可以作為一項特征來檢測圖片是否被生成。
重壓縮檢測

虛假新聞中往往存在經歷過多次壓縮的低質量新聞配圖,其主要來源有兩方面:1)圖像被篡改后重新保存引起的重壓縮和 2)圖像在社交媒體上被反復上傳和下載,由平臺完成的重壓縮。

考慮到假新聞常采用篡改圖片或過時圖片作為配圖,假新聞配圖往往比真實新聞配圖的的壓縮程度更高,因此我們可以通過分析圖像的重壓縮特征來檢測虛假新聞。現有的重壓縮檢測方法主要從圖像的頻率域和像素域提取特征 [10]:

  • 頻率域:多重壓縮操作會改變圖像在離散余弦變換(DiscreteCosine Transform,DCT)域的統(tǒng)計特性,Chen 等人 [10] 通過比較經過一次壓縮和多次壓縮圖像的 DCT 系數直方圖的傅立葉變換幅度譜發(fā)現,多次壓縮圖像的 DCT 系數直方圖幅度譜的周期脈沖幅度相比一次壓縮的幅度譜具有更多的變化。


  • 像素域:多重壓縮操作也會在像素域上導致圖像清晰度下降、產生塊狀效應和引入噪聲等。通過對這些現象進行特征的提取和量化,我們可以衡量圖像壓縮的程度。

語義特征

為吸引讀者眼球,達到快速廣泛傳播的目的,虛假新聞的配圖通常具有強烈的視覺沖擊性 [11] 和情感煽動性 [12,13],借此來吸引讀者,引發(fā)讀者情感共鳴,進而影響讀者的判斷。這些特征在圖像內容上表現為暴力、恐怖、色情等沖擊性強的內容,在風格上表現為蘊含情感強烈,如下圖所示:

▲?在語義層面上,虛假新聞配圖通常更具有視覺沖擊性(a)(c),和強烈的情感性(b)

CNN 在捕獲圖像語義特征上具有很強的能力。在虛假新聞圖片檢測中,最常使用 CNN 網絡是 VGG。以往工作中會直接使用預訓練模型,并使用分類前的最后一層特征作為圖片的語義表示。除此以外,還有一些工作對基本的 CNN 結構進行了改進,如 [17] 中作者使用了多分支的 CNN-RNN 網絡,希望同時捕捉低層與高層語義特征。


視覺特征融合方法


Qi 等人 [17] 發(fā)現虛假新聞圖片不僅包含被惡意篡改的圖片,也包含被錯誤的用來表示不相關事件的真實圖片。然而現有的方法往往只適用于某一類型的虛假新聞圖片,難以捕捉到虛假新聞圖片整體的特征,從這一發(fā)現出發(fā),Qi 等人設計了一個同時關注圖像的頻域與像素域的圖像特征建模方法 MVNN 來深入挖掘圖片在頻域及像素域上潛在的視覺模式并進行高效表達和融合。


▲?MVNN模型圖 [17]
該模型主要分為三部分:取證信息抽取、語義信息抽取與信息融合。?
1. 在取證信息抽取部分,因為經過重壓縮或篡改之后的圖像在頻域上往往呈現出周期性的特點,因此該模型抽取出圖片的頻域信息并使用 CNN 網絡來捕捉這種特征。
2. 在語義信息抽取部分,該模型設計了一個多分支的 CNN-RNN 網絡來捕捉虛假新聞圖片在不同語義層次上的特點,具體來說,CNN 通過局部到全局的逐層抽象來學習高級的語義表示,而視覺語義中的視覺沖擊與煽動性的風格特征與從低級到高級的許多視覺因素有關,因此在該部分中增加雙向門控網絡(BiGRU)來建模這些不同層級的語義特征之間的時序依賴關系。
3. 在信息融合部分,因為圖片的物理和語義特征在檢測虛假新聞時是互補的,但在不同的新聞中其發(fā)揮的作用各有側重。例如在篡改圖片中,頻域的特征相比像素域的語義特征更加重要。因此在該模型中使用注意力機制來控制這些特征的重要性,并使用加權后的特征向量來完成虛假新聞的檢測。

多模態(tài)檢測方法


一篇社交媒體新聞往往同時包含文本和視覺內容,兩者提供了各有側重、相互補充的信息。因此,在虛假新聞檢測中,有必要使用多模態(tài)檢測方法,同時利用文本和視覺莫泰信息來判別新聞的真實性。在現有工作中,具有代表性的包括 attRNN、EANN 和 MVAE。
Jin 等人 [14]第一次通過深度神經網絡的方法將多模態(tài)信息引入到虛假新聞檢測中,他們提出了一種帶注意力機制的循環(huán)神經網絡(attRNN)來融合文本模態(tài)與視覺模態(tài)的信息。

▲?attRNN模型圖 [14]

該模型通過兩個部分提取各自模態(tài)的信息:一部分通過 VGG-19 抽取圖像的語義特征,另一部分利用 Attention 機制抽取出文本與社交上下文中的關鍵信息。為了達到引導 VGG-19 網絡抽取與事件相關語義特征的目的,文本和社交上下文中的關鍵信息與圖片語義特征進行了逐元素相乘,以調整視覺語義信息的權重。實驗表明,該方法可以發(fā)現許多單一模態(tài)難以判別的虛假新聞案例。


▲?被attRNN捕捉,但被僅使用文本的RNN忽略的虛假新聞案例


Wang 等人 [15] 提出了一種基于對抗網絡的端到端模型,其主要出發(fā)點是,當前的許多模型學習到的是事件相關的特征,這些特征難以遷移到新型事件(newly emerged events)中去,會降低模型的泛化能力,因此 Wang 等人認為應當引導模型學習更具泛化能力的事件無關特征。


▲?EANN模型圖 [15]

在該模型中,利用 TextCNN 抽取文本模態(tài)特征,利用 VGG-19 抽取視覺模態(tài)語義特征,并將兩種模態(tài)特征拼接作為虛假新聞的內容特征表達。該特征一方面用來判斷該新聞是否為虛假新聞,另一方面用來判斷該新聞來自于哪一事件模型。該模型有兩個目標,一方面要使虛假新聞的檢測結果要盡可能準,另一方面要使得事件判別器要盡可能的不準(對抗部分),以保證所學到的特征是事件無關的。

Dhruv 等人 [16] 認為文本模態(tài)特征與視覺模態(tài)特征的簡單拼接難以充分表達兩個模態(tài)之間的交互與關聯,因此 Dhruv 等人使用了編碼-解碼的方式來構建多模態(tài)的特征表達。在該模型中,文本模態(tài)與視覺模態(tài)的拼接特征被編碼為一個中間表達,利用重構損失保證編碼后的中間表達可以解碼回原狀態(tài),并用該中間表達的向量做虛假新聞檢測。

▲?MVAE模型圖 [16]


總結

本文介紹了視覺模態(tài)在虛假新聞檢測中的作用與現有研究工作,這些工作從統(tǒng)計特征、手工特征與深度學習等方法出發(fā)設計了不同的利用視覺模態(tài)的虛假新聞檢測方法,并取得了良好的效果。

然而當前該問題仍面臨兩大挑戰(zhàn):高質量標注的多模態(tài)虛假新聞數據仍然處于稀缺狀態(tài),研究者除了構建更大規(guī)模的數據集外,也應當關注如何將無監(jiān)督、半監(jiān)督方法應用到虛假新聞檢測中;現有工作僅對新聞做出真/假的判別,忽略了結果的可解釋性,使得人類對技術缺乏足夠的信任度。

比賽鏈接:

https://biendata.com/competition/falsenews/

參考文獻


[1] Zhiwei Jin, Juan Cao, Yongdong Zhang, Jianshe Zhou, and Qi Tian. Novel visual and statistical image features for microblogs news veri?cation. IEEE Transactions on Multimedia, 19(3):598–608, 2017.?[2] Ke Wu, Song Yang, and Kenny Q Zhu. False rumors detection on sina weibo by propagation structures. In 2015 IEEE 31st International Conference on Data Engineering, pages 651–662. IEEE, 2015.?[3] Fan Yang, Yang Liu, Xiaohui Yu, and Min Yang. Automatic detection of rumor on sina weibo. In Proceedings of the ACM SIGKDD Workshop on Mining Data Semantics, page 13. ACM, 2012.?[4] Fridrich J, Kodovsky J. Rich models for steganalysis of digital images[J]. IEEE Transactions on Information Forensics and Security, 2012, 7(3) : 868 – 882.?[5] Cozzolino D, Poggi G, Verdoliva L. Splicebuster: A new blind image splicing de- tector[C]. 2015 IEEE International Workshop on Information Forensics and Security (WIFS). 2015 : 1 – 6.?[6] Cozzolino D, Verdoliva L. Single-image splicing localization through autoencoder- based anomaly detection[C]. WIFS. 2016.?[7] Salloum R, Ren Y, Kuo C-C J. Image splicing localization using a multi-task fully convolutional network (MFCN)[J]. Journal of Visual Communication and Image Representation, 2018, 51 : 201 – 208?[8] Lakshmanan Nataraj, Tajuddin Manhar Mohammed, BS Manjunath, Shivkumar Chandrasekaran, Arjuna Flenner, Jawadul H Bappy, and Amit K Roy-Chowdhury. Detecting gan generated fake images using co-occurrence matrices. arXiv preprint arXiv:1903.06836, 2019.?[9] Scott McCloskey and Michael Albright. Detecting gan-generated imagery using color cues. arXiv preprint arXiv:1812.08247, 2018.?[10] Chen Y L, Hsu C T. Detecting Recompression of JPEG Images via Periodicity Anal- ysis of Compression Artifacts for Tampering Detection[J]. IEEE Transactions on Information Forensics and Security, 2011, 6(2) : 396 – 406?[11] Zhiwei Jin, Juan Cao, Jiebo Luo, and Yongdong Zhang. Image credibility analysis with e?ective domain transferred deep networks. arXiv preprint arXiv:1611.05328, 2016.?[12] Kai Shu, Amy Sliva, Suhang Wang, Jiliang Tang, and Huan Liu. Fake news detection on social media: A data mining perspective. ACM SIGKDD Explorations Newsletter, 19(1):22–36, 2017.?[13] Cass R Sunstein. On rumors. How falsehoods spread, why we believe them, what can be done. Farrar, Straus and Giroux, 2009.?[14] Zhiwei Jin, Juan Cao, Han Guo, Yongdong Zhang, and Jiebo Luo. Multimodal fusion with recurrent neural networks for rumor detection on microblogs. In Proceedings of the 2017 ACM on Multimedia Conference, pages 795–816. ACM, 2017.?[15] Yaqing Wang, Fenglong Ma, Zhiwei Jin, Ye Yuan, Guangxu Xun, Kishlay Jha, Lu Su, and Jing Gao. Eann: Event adversarial neural networks for multi-modal fake news detection. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pages 849–857. ACM, 2018.?[16] Khattar Dhruv, Goud Jaipal Singh, Gupta Manish, and Varma Vasudeva. Mvae: Multimodal variational autoencoder for fake news detection. In Proceedings of the 2019 World Wide Web Conference. ACM, 2019.?[17] Peng Qi, Juan Cao, Tianyun Yang, Junbo Guo, and Jintao Li. Exploiting multidomain visual information for fake news detection. In 19th IEEE International Conference on Data Mining. IEEE, 2019.
智源研究院后續(xù)更多競賽與活動,請關注研究院公眾號(baaibjkw,二維碼見下),以及大賽首頁(biendata.com/baai)。

?

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點擊 |?閱讀原文?| 報名參賽

總結

以上是生活随笔為你收集整理的智源-计算所虚假新闻检测大赛 | 探秘假新闻中的视觉信息的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。