【NLP】万字长文带你解读『虚假新闻检测』最新进展
NewBeeNLP原創(chuàng)出品?
公眾號(hào)專欄作者?@byn??
blog |?https://blog.csdn.net/byn12345
互聯(lián)網(wǎng)時(shí)代,假新聞鋪天蓋地,而且極具迷惑性,因此假新聞檢測(cè)任務(wù)對(duì)邏輯的判斷,以及常識(shí)的學(xué)習(xí)都需要很高的要求。今天和大家分享『虛假新聞檢測(cè)』相關(guān)研究進(jìn)展,包括創(chuàng)新點(diǎn)、改進(jìn)點(diǎn)等
1 Bi-GCN
關(guān)鍵詞:傳播網(wǎng)絡(luò),GCN,謠言檢測(cè),早期檢測(cè)
論文題目:Rumor Detection on Social Media with Bi-Directional Graph Convolutional Networks
論文來源:AAAI 2020
arxiv訪問不方便的同學(xué)后臺(tái)回復(fù)『0007』直接獲取paper
本文解決的問題是「謠言檢測(cè)」,提出了「Bi-GCN」模型,并且實(shí)驗(yàn)結(jié)果顯示該模型在「謠言的早期檢測(cè)」中也起到了很好的效果。
數(shù)據(jù)集
Weibo[1]
Twitter15[2]
Twitter16[2]
本文的亮點(diǎn)和要點(diǎn)
(1)「第一個(gè)」使用「基于GCN的方法」進(jìn)行了謠言檢測(cè)任務(wù)。
(2)和以往方法不同的是,模型考慮到了「自頂向下」的謠言傳播(propagation)結(jié)構(gòu),和「自底向上」的來自不同社區(qū)的謠言散布(dispersion)結(jié)構(gòu)。具體表現(xiàn)為Bi-GCN由TD-GCN(top-down GCN)和BU-GCN(bottom-up GCN)兩個(gè)組件所構(gòu)成。以往的方法大多只使用到了自頂向下的謠言傳播結(jié)構(gòu)。有基于CNN的方法考慮到了散布結(jié)構(gòu),但是由于其不能處理圖結(jié)構(gòu)的數(shù)據(jù),因此不能捕獲全局的結(jié)構(gòu)信息。
(3)模型還使用到了「根源帖子特征的增強(qiáng)」。具體來說是在GCN每層GCL中,對(duì)于每個(gè)節(jié)點(diǎn),將根源帖子在上一層的隱層特征表示和節(jié)點(diǎn)在該層的隱層特征表示向拼接起來,作為節(jié)點(diǎn)在該層的最終隱層特征表示。這種方法增強(qiáng)了謠言根源帖子對(duì)于學(xué)習(xí)到其他帖子節(jié)點(diǎn)表示的影響力,可幫助模型學(xué)習(xí)得到更有助于謠言檢測(cè)的節(jié)點(diǎn)表示。
(4)還使用到了較新的「DropEdge」方法,以緩解基于GCN的模型的過擬合問題。
思考
本文模型是針對(duì)謠言傳播網(wǎng)絡(luò)建模的,構(gòu)建的圖中只有帖子的信息和帖子間的關(guān)聯(lián)信息,是個(gè)同質(zhì)圖。后續(xù)能不能考慮利用上用戶和帖子的關(guān)系,以及用戶間的關(guān)系,建模成一個(gè)異質(zhì)圖,然后在此基礎(chǔ)上使用基于GNN的方法,進(jìn)行謠言檢測(cè)任務(wù)。
2 Capturing the Style of Fake News
關(guān)鍵詞:寫作風(fēng)格,特征,LSTM,假新聞檢測(cè)
論文題目:Capturing the Style of Fake News
論文來源:AAAI 2020
arxiv訪問不方便的同學(xué)后臺(tái)回復(fù)『0008』直接獲取paper
本文的「目的」是基于文檔內(nèi)容,檢測(cè)出寫作風(fēng)格,而不側(cè)重于文檔含義,從而實(shí)現(xiàn)假新聞的自動(dòng)檢測(cè)。通用的文本分類器,盡管在簡單評(píng)估時(shí)看起來性能很好,但實(shí)際上會(huì)過擬合訓(xùn)練數(shù)據(jù)中的文本。
設(shè)計(jì)了「兩個(gè)新的分類器」:一個(gè)神經(jīng)網(wǎng)絡(luò)和一個(gè)基于風(fēng)格特征的模型。
作者將本文的方法和通用目的的分類器(bag of words, BERT)進(jìn)行了對(duì)比,評(píng)估結(jié)果表明,所提出的分類器在未見過的主題(例如新事件)和未見過的來源(例如 新出現(xiàn)的新聞網(wǎng)站)的文檔中都保持了較高的準(zhǔn)確性。對(duì)風(fēng)格模型的分析顯示,它確實(shí)側(cè)重于了聳人聽聞(sensational)和情感(affective)的這類典型的假新聞詞匯。
數(shù)據(jù)集
為了實(shí)現(xiàn)真正的基于風(fēng)格的預(yù)測(cè),作者從媒體專家標(biāo)注的223個(gè)在線資源中獲取了103,219個(gè)文檔,共117M個(gè)tokens。
數(shù)據(jù)集和代碼已公開:https://github.com/piotrmp/fakestyle
已有方法的問題
已有的機(jī)器學(xué)習(xí)方法,使用了通用目的的文本分類器算法。不足在于,這樣的方法讓我們不能直接控制可信度評(píng)估具體是基于哪些特征的。作者希望分類器有可解釋性:即能知道對(duì)于特定的決策,哪些特征是重要的;并且分類器還應(yīng)具備泛化能力。
已有的方法受限于可獲得的數(shù)據(jù)量,會(huì)導(dǎo)致對(duì)特定主題或來源的數(shù)據(jù)的過擬合。
本文的亮點(diǎn)和要點(diǎn)
為了對(duì)來源間topic的不同進(jìn)行建模,使用LDA建模了100個(gè)topic。將每個(gè)文檔都分配到其相關(guān)度最高的topic。
「(1)基于風(fēng)格的分類器」
使用風(fēng)格特征的集合,進(jìn)行線性建模。
1)使用POS tags的n-grams而不是單詞的n-grams,以避免使用讓分類器對(duì)特定的來源或主題過擬合的特征。
2)在風(fēng)格分析中使用字典,例如用于假新聞檢測(cè)的LIWC[3]和用于hyperpartisan新聞識(shí)別的GI[4]。作者采用word2vec方法對(duì)這些資源里每個(gè)類別的單詞選取相似的單詞,以實(shí)現(xiàn)對(duì)字典的擴(kuò)展。
3)使用Stanford CoreNLP對(duì)文檔進(jìn)行預(yù)處理,例如句子分割、tokenisation和POS tagging。并利用標(biāo)注信息生成文檔特征。
4)使用兩階段的方法檢測(cè)相關(guān)的特征:首先preliminary filtering,然后building a regularised classifier。
在過濾階段,作者使用Pearson相關(guān)度和輸出變量。首先,觀察特征是否出現(xiàn)在了文檔中,并得到一個(gè)binary matirx。以往的方法過濾掉了出現(xiàn)在較少文檔(低于2.5%或10%)中的特征。但這些低頻特征也可能很重要,只要它們出現(xiàn)在的大部分文檔都屬于同一類別。因此,作者引入了類別標(biāo)簽,并考慮了標(biāo)簽和binary matirx中每個(gè)特征的相關(guān)度大于0.05的特征。
構(gòu)建了一個(gè)logistic regression模型,以得到文檔屬于不可信類別的概率。使用了正則化。
「(2)神經(jīng)網(wǎng)絡(luò)分類器BiLSTMAvg」
BiLSTMAvg是一個(gè)神經(jīng)網(wǎng)絡(luò),基于NLP中使用的元素,例如詞嵌入、Bi-LSTM。在LSTM的基礎(chǔ)上,添加一個(gè)額外層,對(duì)所有句子的可信度得分進(jìn)行平均以得到整個(gè)文檔的得分。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如下:
嵌入層:在Google News上進(jìn)行訓(xùn)練,為每個(gè)token得到word2vec向量;
兩層LSTM:前向和反向,使用兩個(gè)100維向量表示每個(gè)句子;
densely-connected層:將維度減少為2并應(yīng)用softmax計(jì)算類別概率;
平均層:對(duì)文檔中所有句子的類別概率分值求平均,以得到整個(gè)文檔的得分。
「(3)作者在實(shí)驗(yàn)時(shí)采用了5-fold交叉驗(yàn)證(CV),并且設(shè)置了三種不同的場(chǎng)景」
分別是plain document-based CV, topic-based CV和source-based CV。這樣就可以評(píng)估模型在訓(xùn)練時(shí)沒出現(xiàn)過的topic或source上的性能。
思考
(1)文章提出了兩個(gè)模型,其一是BiLSTMAvg,其二是Stylometric。只有后者運(yùn)用到了和風(fēng)格有關(guān)的特征。而且在實(shí)驗(yàn)對(duì)比中,source CV情境下,BiLSTMAvg的效果要好于Stylometric。但是作者只具體分析了基于風(fēng)格的Stylometric方法對(duì)不同來源的數(shù)據(jù)分類性能。
(2)我認(rèn)為本文中所說的風(fēng)格體現(xiàn)在詞級(jí)別上,是否可以考慮更粗粒度的級(jí)別,或者更抽象一些的方面。
(3)作者提出了3個(gè)評(píng)估場(chǎng)景,未來可以考慮其他的更多的評(píng)估場(chǎng)景。
(4)本文是利用文檔的風(fēng)格,為新聞的可信度進(jìn)行打分,從而檢測(cè)出假新聞,可以歸為content-based類的方法。文章的角度很有新意,針對(duì)以往的通用分類模型在信息來源和相關(guān)主題上會(huì)有過擬合現(xiàn)象,因此設(shè)計(jì)了有現(xiàn)實(shí)意義的評(píng)估場(chǎng)景(3個(gè)CV),以衡量可信度評(píng)估方法的性能。在社交網(wǎng)絡(luò)上的假新聞檢測(cè),可以考慮將風(fēng)格信息和社交網(wǎng)絡(luò)上下文的信息相結(jié)合。
3 WeFEND
關(guān)鍵詞:訓(xùn)練數(shù)據(jù),強(qiáng)化學(xué)習(xí),眾包信號(hào)(crowd signal),假新聞檢測(cè)
論文題目:Weak Supervision for Fake News Detection via Reinforcement Learning
論文來源:AAAI 2020
arxiv訪問不方便的同學(xué)后臺(tái)回復(fù)『0009』直接獲取paper
本文為了解決高質(zhì)量的及時(shí)的且有標(biāo)注的新聞數(shù)據(jù)獲取問題,以用于盡早檢測(cè)出假新聞,提出增強(qiáng)的弱監(jiān)督假新聞檢測(cè)框架WeFEND。該模型利用了用戶的反饋?zhàn)鳛槿醣O(jiān)督來增加用于假新聞檢測(cè)的訓(xùn)練數(shù)據(jù)。
「模型由3個(gè)主要部分組成」:標(biāo)注器,增強(qiáng)的選擇器和假新聞檢測(cè)器。標(biāo)注器可以基于用戶的反饋,自動(dòng)地為未標(biāo)注的新聞分配弱標(biāo)簽。增強(qiáng)的選擇器使用了強(qiáng)化學(xué)習(xí)技術(shù),從被弱標(biāo)注的數(shù)據(jù)中選擇高質(zhì)量的樣本,過濾掉可能會(huì)降低檢測(cè)器性能的低質(zhì)量樣本。假新聞檢測(cè)器目的是基于新聞內(nèi)容識(shí)別出假新聞。
數(shù)據(jù)集
微信官方賬號(hào)發(fā)布的新聞文章,以及其對(duì)應(yīng)的用戶反饋信息。
數(shù)據(jù)集:https://github.com/yaqingwang/WeFEND-AAAI20
已有方法的不足
「(1)基于社交上下文的特征」:利用了社交媒體上用戶對(duì)新聞的行為,例如轉(zhuǎn)發(fā)、網(wǎng)絡(luò)結(jié)構(gòu)等。但是這些社交上下文的特征只能在一段時(shí)間后才能獲得,不能用于及時(shí)地檢測(cè)出新出現(xiàn)的假新聞。
「(2)基于新聞內(nèi)容的特征」:對(duì)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,人工設(shè)計(jì)特征很難。使用深度學(xué)習(xí)的模型沒有這個(gè)問題,但是其性能受訓(xùn)練數(shù)據(jù)規(guī)模的限制,缺少新鮮高質(zhì)量的樣本用于訓(xùn)練。
「(3)現(xiàn)有的引入眾包信號(hào)的方法」:從用戶標(biāo)記為是潛在假新聞的樣本中,選擇一部分交付給專家進(jìn)行確認(rèn),相當(dāng)于仍需要人工標(biāo)注,并且沒有考慮到有價(jià)值的評(píng)論反饋信息。
文章的亮點(diǎn)和要點(diǎn)
本文針對(duì)的是假新聞檢測(cè)訓(xùn)練數(shù)據(jù)獲取問題,提出了WeFEND模型,以自動(dòng)標(biāo)注新聞文章,增加訓(xùn)練集的數(shù)據(jù)規(guī)模,從而有助于假新聞檢測(cè)的深度學(xué)習(xí)模型性能的提高。
「動(dòng)機(jī)是」:人工標(biāo)注費(fèi)時(shí)費(fèi)力,并且通常不能及時(shí)地對(duì)新聞數(shù)據(jù)進(jìn)行標(biāo)注。訓(xùn)練數(shù)據(jù)限制了深度學(xué)習(xí)模型的性能。
「主要思想是」:將用戶對(duì)新聞的反饋(如 評(píng)論)視為弱標(biāo)注信息,收集大量的用戶反饋信息有助于緩解假新聞檢測(cè)領(lǐng)域的有標(biāo)簽數(shù)據(jù)較少的問題。
「面臨的問題是」:用戶的反饋信息有噪聲,如何將這種弱標(biāo)注信息轉(zhuǎn)換為訓(xùn)練集中的標(biāo)注樣本,如何選擇高質(zhì)量的樣本。
「WeFEND模型的流程是」:
(1)標(biāo)注器:首先使用給定的一小組有標(biāo)簽的假新聞樣本和用戶對(duì)這些新聞的反饋,基于反饋訓(xùn)練一個(gè)標(biāo)注器。具體來說是先使用文本特征抽取器,從新聞的用戶反饋信息中抽取出特征;然后再輸入給聚合函數(shù),聚合不同用戶的反饋信息;最后經(jīng)過一個(gè)全連接層,得到預(yù)測(cè)概率。使用訓(xùn)練后的標(biāo)注器處理未標(biāo)注的新聞,基于未標(biāo)注新聞的用戶反饋,為未標(biāo)注的新聞分配弱標(biāo)簽;
(2)增強(qiáng)的選擇器:使用強(qiáng)化學(xué)習(xí)技術(shù),從弱標(biāo)注的樣本中選擇高質(zhì)量的樣本,并將其作為假新聞分類器的輸入。選擇的標(biāo)準(zhǔn)是增加所選的樣本是否能提高假新聞檢測(cè)的性能。;
(3)假新聞分類器:基于新聞的內(nèi)容,為每個(gè)輸入的文章分配一個(gè)標(biāo)簽。
「文章的亮點(diǎn)在于」:
(1)為了及時(shí)地得到大量有效的標(biāo)注樣本,提出利用用戶對(duì)新聞的反饋信息作為弱監(jiān)督信息,為未標(biāo)注的新聞樣本標(biāo)注上弱標(biāo)簽。考慮到用戶反饋信息含有噪聲,因此提出使用強(qiáng)化學(xué)習(xí)技術(shù)對(duì)自動(dòng)標(biāo)注的樣本進(jìn)行選擇,選取高質(zhì)量的樣本添加到訓(xùn)練集中。
(1)進(jìn)行了多樣的實(shí)驗(yàn):
1)在實(shí)驗(yàn)中比較了不同時(shí)間窗口下的特征表示不同以及模型性能的不同,證明了新聞的分布具有動(dòng)態(tài)性,因此說明了應(yīng)該及時(shí)標(biāo)注和新出現(xiàn)事件相關(guān)的新聞。
2)實(shí)驗(yàn)證明了用戶反饋信息的有效性,使用這一信息,標(biāo)注器在相同和不同時(shí)間窗口對(duì)應(yīng)的數(shù)據(jù)上,有著相似的表現(xiàn)。并且用戶反饋信息的特征不具有隨時(shí)間變化的動(dòng)態(tài)性。
3)訓(xùn)練集和測(cè)試集的數(shù)據(jù)在時(shí)間上并不相交,因此可以驗(yàn)證模型對(duì)新鮮數(shù)據(jù)進(jìn)行分類的效果。
思考
(1)標(biāo)注器部分對(duì)同一篇新聞的所有用戶評(píng)論信息進(jìn)行了聚合,作者使用的是平均操作作為無序的聚合函數(shù)。是否可以考慮在聚合時(shí)使用注意力機(jī)制。
(2)在人工標(biāo)注時(shí)僅根據(jù)標(biāo)題(headline)信息,因此模型中也是僅使用標(biāo)題作為輸入數(shù)據(jù),而沒有考慮新聞文章具體內(nèi)容。
(3)個(gè)人感覺這篇論文的實(shí)驗(yàn)做得很好,尤其是通過實(shí)驗(yàn),對(duì)新聞的分布是否隨時(shí)間變化以及為什么要使用用戶反饋信息做出了有說服力的解釋。
4 Proactive Discovery of Fake News Domains from Real-Time Social Media Feeds
關(guān)鍵詞:實(shí)時(shí),社交網(wǎng)絡(luò),主動(dòng)發(fā)現(xiàn),圖,社交網(wǎng)絡(luò)賬號(hào),假新聞來源檢測(cè)
論文題目:Proactive Discovery of Fake News Domains from Real-Time Social Media Feeds
論文來源:WWW 2020
arxiv訪問不方便的同學(xué)后臺(tái)回復(fù)『0010』直接獲取paper
本文解決的問題是假新聞新來源的主動(dòng)檢測(cè),目的是在假新聞被人工標(biāo)注前將其識(shí)別出來,以最小化假新聞的有害影響。本文是第一個(gè)研究及時(shí)發(fā)現(xiàn)假新聞來源的工作。
利用了無標(biāo)注但有結(jié)構(gòu)的實(shí)時(shí)社交媒體數(shù)據(jù),檢測(cè)系統(tǒng)以域(domain)為檢測(cè)單元。假新聞?dòng)虻亩x是:捏造信息、散布欺騙性的內(nèi)容或嚴(yán)重歪曲實(shí)際新聞的網(wǎng)站。
系統(tǒng)一共分為兩步:1)使用Twitter來發(fā)現(xiàn)用戶共享結(jié)構(gòu)以發(fā)現(xiàn)政治有關(guān)的網(wǎng)站;2)使用topic-agnostic分類器打分并排序新發(fā)現(xiàn)的領(lǐng)域。
作者還設(shè)計(jì)了用戶界面,利用用戶的知識(shí),有助于促進(jìn)事實(shí)核查過程。
數(shù)據(jù)集
使用的訓(xùn)練集是文獻(xiàn)[5]中的使用的PoliticalFakeNews。7,136 pages from 79 fake sites, and 7,104 pages from 58 real sites
評(píng)估時(shí)使用MediaBiasFactCheck(MBFC)提供的有限的標(biāo)簽ground truth去近似global ground truth。Github上有MBFC發(fā)布和更新的所有有標(biāo)簽的域(domain)。
https://raw.githubusercontent.com/drmikecrowe/mbfcext/master/docs/revised/csources.json
文章的亮點(diǎn)和要點(diǎn)
作者認(rèn)為覆蓋了相似話題的域(domain),可能被相似的用戶tweeted或retweeted(回音壁效應(yīng))。
因此,使用了Twitter中的信息基于用戶共享相似度,構(gòu)建了一個(gè)域交互圖(對(duì)域聚類)。將每個(gè)域映射到發(fā)布和該域有關(guān)推文的用戶集上。構(gòu)建了一個(gè)無向圖,節(jié)點(diǎn)表示一個(gè)域,若兩節(jié)點(diǎn)對(duì)應(yīng)的用戶集之間的jaccard相似度大于某一閾值,則兩節(jié)點(diǎn)間有邊相連。
構(gòu)建好圖之后,運(yùn)用算法抽取出網(wǎng)絡(luò)中所有的聚類簇。
系統(tǒng)的最后一步是對(duì)發(fā)現(xiàn)的域進(jìn)行打分和排序。使用了文獻(xiàn)[5]中提出的topic-agnostic假新聞分類器(TAG),輸出對(duì)新聞是假新聞的打分。
本文使用的topic-agnostic分類器[5]捕獲了假新聞網(wǎng)站的寫作風(fēng)格和布局風(fēng)格信息,沒有獲得話題信息,因?yàn)轭A(yù)測(cè)未來新聞的話題是很困難的。并且,網(wǎng)站發(fā)布的新聞主題可能每天都在變化,但是網(wǎng)站的風(fēng)格不會(huì)變化地很頻繁。
作者對(duì)TAG做出的改進(jìn):
1)添加了Quantile Transformer將每個(gè)特征轉(zhuǎn)換為正態(tài)分布,這一方法是魯棒的預(yù)處理模式,可以減少異常點(diǎn)的影響。
2)識(shí)別訓(xùn)練數(shù)據(jù)中的異常:丟棄了單詞總數(shù)小于200或大于2000的web pages。前者是有404錯(cuò)誤的網(wǎng)頁,后者是與某一新聞無關(guān)的目錄頁。
3)去掉了原始方法中用于捕獲單詞語義模式(生氣 恐懼 高興等)的心理學(xué)特征。因?yàn)檫@組特征需要人工處理,不符合本文自動(dòng)檢測(cè)的需求。
TAG分類器將web page作為輸入,得到了page級(jí)別的分值,我們還要得到有多個(gè)pages的域級(jí)別的分值。具體方法是使用custom headliss Chrome爬取器,訪問域主頁,解析HTML內(nèi)容,隨機(jī)選取有相同域的5個(gè)超鏈接。針對(duì)域的分值就是這5個(gè)pages分值的平均值。
關(guān)于社交網(wǎng)絡(luò)賬號(hào):
1)使用domain-level fakeness分值推斷出account-level fakeness分值。
將賬號(hào)最近發(fā)布的200個(gè)推文的domain-level fakeness分值取平均,作為該賬號(hào)的fakeness score。
將此分值和任意獲得到的特征結(jié)合,可用于social bot detection, troll detection或sentiment analysis等下游任務(wù)。
2)使用Botometer方法檢測(cè)了本文收集到的賬號(hào)是否是bot的概率,結(jié)果證明了絕大部分賬號(hào)都是正常的。
3)關(guān)于賬號(hào)描述
根據(jù)賬號(hào)的得分將其分為三類:likely to share fake news, might likely to share fake news, not likely to share fake news。并沒有發(fā)現(xiàn)這三類賬號(hào)在發(fā)推數(shù)量、朋友數(shù)量、關(guān)注者數(shù)量上分布的區(qū)別,但是發(fā)現(xiàn)了不同類別的賬號(hào)在賬號(hào)描述上有所區(qū)別。
還發(fā)現(xiàn)了不同類別賬號(hào)的人口統(tǒng)計(jì)特征不同,但這一點(diǎn)還有待進(jìn)一步的研究。
「本文的亮點(diǎn)」:利用實(shí)時(shí)社交網(wǎng)絡(luò)構(gòu)建出了域(domain)交互圖,利用該網(wǎng)絡(luò),實(shí)現(xiàn)了主動(dòng)發(fā)現(xiàn)假新聞?dòng)颉O到y(tǒng)結(jié)合了無監(jiān)督聚類、有監(jiān)督預(yù)測(cè)和用戶交互。(文中所說的域的概念,應(yīng)該值得是新聞的來源)
思考
本文的局限性:
(1)采樣偏差和選擇偏差
采樣偏差來源于US-centric訓(xùn)練集。選擇偏差來自于2部分,一個(gè)是本文的系統(tǒng)僅聚焦于Twitter,另一個(gè)是數(shù)據(jù)收集過程需要人為輸入關(guān)鍵詞,這一操作受主觀因素的影響。
采樣偏差的緩解可使用本文的系統(tǒng),從事實(shí)核查者收集反饋信息。作者也考慮收集不同國家不同語言的fake和real domains。
選擇偏差的緩解可通過從多個(gè)社交媒體中收集數(shù)據(jù),使用多樣的關(guān)鍵詞、hashtags、user handles來捕獲潛在的新聞發(fā)布者。例如,從fakeness得分高的賬號(hào)那里收集實(shí)時(shí)的推文,替代特定的關(guān)鍵詞。
(2)缺乏統(tǒng)一的數(shù)據(jù)集和評(píng)價(jià)框架
數(shù)據(jù)集:使用以前的數(shù)據(jù)集是有風(fēng)險(xiǎn)的,因?yàn)閷?duì)手可能恰恰利用相同的數(shù)據(jù)集來逃避檢測(cè)。
評(píng)價(jià):評(píng)價(jià)新發(fā)現(xiàn)的域是很耗時(shí)的。作者計(jì)劃將用戶界面引入到研究社區(qū)、事實(shí)核查群里和社交媒體公司,以加速標(biāo)簽的產(chǎn)生。
(3)未來可以利用更多的群體智能知識(shí)。
(4)本文構(gòu)建的域交互圖只是用來做了域聚類,因?yàn)楸疚牡哪康氖菣z測(cè)新出現(xiàn)的假新聞來源,因此沒有利用到社交網(wǎng)絡(luò)中其他更多的信息,例如傳播信息。后續(xù)可以考慮針對(duì)具體任務(wù),從不同的角度建模圖。
5 dEFEND
關(guān)鍵詞:可解釋性,社交網(wǎng)絡(luò),層級(jí)注意力機(jī)制,共同注意力機(jī)制(co-attention),假新聞檢測(cè)
論文題目:dEFEND: Explainable Fake News Detection
論文來源:SIGKDD 2019
arxiv訪問不方便的同學(xué)后臺(tái)回復(fù)『0011』直接獲取paper
本文解決的是假新聞檢測(cè)模型的可解釋性問題。提出了具有可解釋性的假新聞檢測(cè)方法dEFEND。在社交媒體上的假新聞檢測(cè)領(lǐng)域,是第一個(gè)嘗試提出具有可解釋的模型的研究。
本文利用新聞內(nèi)容和用戶評(píng)論,設(shè)計(jì)了sentence-comment co-attention subnetwork,聯(lián)合捕獲了可解釋的個(gè)值得檢查的句子和用戶評(píng)論,以用于假新聞檢測(cè)。
實(shí)驗(yàn)結(jié)果顯示,本文的模型不僅顯著優(yōu)于7個(gè)state-of-the-art假新聞檢測(cè)方法,還可以同時(shí)識(shí)別出個(gè)解釋這一新聞為什么是假新聞的用戶評(píng)論。
數(shù)據(jù)集
使用的是假新聞檢測(cè)基線數(shù)據(jù)集:FakeNewsNet[6-7]
本文的亮點(diǎn)和要點(diǎn)
本文要解決的問題是假新聞檢測(cè)模型的可解釋性。
「本文解決的挑戰(zhàn)」:
(1)如何實(shí)現(xiàn)可解釋的假新聞檢測(cè),并同時(shí)提高檢測(cè)性能和可解釋性;
(2)在訓(xùn)練時(shí)沒有g(shù)round truth的條件下,如何抽取出有解釋性的評(píng)論;
(3)如何聯(lián)合建模新聞內(nèi)容和用戶評(píng)論間的關(guān)系,以 實(shí)現(xiàn)有解釋性的假新聞檢測(cè)。
「利用了新聞內(nèi)容和用戶評(píng)論信息。檢測(cè)框架由以下幾部分組成」:
(1)編碼新聞內(nèi)容組件:通過層級(jí)(word-, sentence-level)注意力神經(jīng)網(wǎng)絡(luò),捕獲新聞句子中的語義信息和句法信息,學(xué)習(xí)得到新聞句子的表示。
具體來說分為兩步,首先使用雙向GRU對(duì)每個(gè)句子中的單詞序列進(jìn)行編碼,并使用了注意力機(jī)制為不同的單詞賦予不同的重要性權(quán)重,聚合得到每個(gè)句子的表示。然后使用雙向GRU,上一步得到的句子向量表示作為輸入,對(duì)一篇新聞中的句子序列進(jìn)行編碼,以捕獲句子級(jí)別的上下文信息。將每個(gè)隱層的兩個(gè)方向的表示拼接起來,就得到了融合了上下文句子信息的該句子的表示,最終就得到新聞內(nèi)容的特征矩陣。
(2)編碼用戶評(píng)論組件:通過詞級(jí)別的注意力子網(wǎng)絡(luò),學(xué)習(xí)到用戶評(píng)論的隱層表示。
和編碼新聞內(nèi)容組件中的單詞編碼類似,使用雙向GRU,對(duì)評(píng)論中的單詞序列進(jìn)行編碼,同樣也使用到了注意力機(jī)制。
(3)sentence-comment co-attention組件:捕獲新聞內(nèi)容和評(píng)論間的關(guān)聯(lián),并選擇出個(gè)有解釋性的句子和評(píng)論。
用戶的評(píng)論可以提高假新聞檢測(cè)的可解釋性,新聞中的句子也可以。新聞內(nèi)容中也有表達(dá)內(nèi)容是真實(shí)的句子,只不過有時(shí)會(huì)用來支持錯(cuò)誤的觀點(diǎn)。因此新聞中的句子對(duì)于識(shí)別和解釋假新聞也同等重要。
因此,將前兩個(gè)組件得到的特征作為此組件的輸入,作者設(shè)計(jì)了注意力機(jī)制為不同的新聞句子和評(píng)論表示分配權(quán)重。注意,這個(gè)sentence-comment co-attention機(jī)制捕獲了句子和評(píng)論的semantic affinity,也同時(shí)學(xué)習(xí)到了句子和評(píng)論的注意力權(quán)重。使用了轉(zhuǎn)換矩陣,實(shí)現(xiàn)了用戶評(píng)論注意力空間到新聞句子注意力空間的轉(zhuǎn)換。最終使用注意力權(quán)重分別聚合評(píng)論特征和新聞句子特征,得到評(píng)論和新聞句子的最終特征表示。
(4)假新聞?lì)A(yù)測(cè)組件:將新聞內(nèi)容特征和用戶評(píng)論特征相拼接,用于假新聞分類。
「解釋性評(píng)估實(shí)驗(yàn)」:
句子解釋性評(píng)估:使用ClaimBuster得到新聞句子排序列表的ground truth 。將本文方法選擇出的(k=5或10)rank list和比較,使用作為度量,并于HAN和Random方法對(duì)比。結(jié)果顯示本文模型效果最好。
用戶評(píng)論解釋性評(píng)估:使用2個(gè)Amazon Mechanical Turk(AMT)任務(wù)評(píng)估評(píng)論排序列表的解釋性。
AMT任務(wù):https://www.mturk.com/
「本文的亮點(diǎn)」:
(1)本文要解決的問題是假新聞檢測(cè)模型的可解釋,很有研究意義,提出了具有可解釋性的假新聞檢測(cè)模型dEFEND。
(2)使用了層級(jí)注意力機(jī)制和共同注意力機(jī)制(co-attention)。前者在對(duì)新聞內(nèi)容建模時(shí)使用,用到了單詞級(jí)別的和句子級(jí)別的注意力;后者在對(duì)新聞內(nèi)容和評(píng)論間關(guān)系建模時(shí)使用,在捕獲了句子和評(píng)論的semantic affinity的同時(shí),也學(xué)習(xí)到了句子和評(píng)論的注意力權(quán)重。
思考
「未來工作」:
(1)將事實(shí)核查網(wǎng)站或事實(shí)核查相關(guān)專家的知識(shí)合并進(jìn)來,以進(jìn)一步指導(dǎo)模型得到check-worthy的新聞句子。
(2)研究如何將其他用戶的社交行為作為副信息引入,以幫助發(fā)現(xiàn)可解釋的評(píng)論。
(3)考慮發(fā)布新聞的人的可信度,以進(jìn)一步提高假新聞檢測(cè)模型的性能。
本文的研究方向很有新意,假新聞檢測(cè)的可解釋性是值得進(jìn)一步研究的方向。這篇文章從新聞中的句子和用戶評(píng)論信息入手,給假新聞分類器提供了解釋性。未來可以考慮能否從別的角度出發(fā),處理可解釋性的問題。例如,本文在建模時(shí)只考慮了一篇文章,能否利用已經(jīng)被證實(shí)為真/假的其他文章,或者考慮使用由其他可信度非常高的機(jī)構(gòu)發(fā)布的和待判斷文章描述事件相似的文章,來為待判斷文章的分類結(jié)果提供可解釋性。
References
Detecting rumors from microblogs with recurrent neural networks
Detect rumors in microblog posts using propagation structure via kernel learning
The Psychological Meaning of Words: LIWC and Computerized Text Analysis Methods
The general inquirer: A computer system for content analysis and retrieval based on the sentence as a unit of information
A Topic-Agnostic Approach for Identifying Fake News Pages
FakeNewsNet: A Data Repository with News Content, Social Context and Dynamic Information for Studying Fake News on Social Media.?
Fake News Detection on Social Media: A Data Mining Perspective
總結(jié)
以上是生活随笔為你收集整理的【NLP】万字长文带你解读『虚假新闻检测』最新进展的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度技术win11 32位稳定版系统v2
- 下一篇: Win11系统如何恢复隐藏文件