【论文翻译 假新闻检测综述 HICSS 2019】Can Machines Learn to Detect Fake News? A Survey Focused on Social Media
論文題目:Can Machines Learn to Detect Fake News? A Survey Focused on Social Media
論文來(lái)源:HICSS 2019,Proceedings of the 52nd Hawaii International Conference on System Sciences
論文鏈接:https://www.researchgate.net/publication/330364905_Can_Machines_Learn_To_Detect_Fake_News_A_Survey_Focused_on_Social_Media
關(guān)鍵詞:假新聞檢測(cè),社交媒體,機(jī)器學(xué)習(xí),綜述
個(gè)人感覺(jué)這篇綜述沒(méi)有KDD 2017這篇好。
這篇翻譯也不是全都翻譯的,個(gè)人認(rèn)為有一些意義不大的部分就沒(méi)有翻譯。
文章目錄
- 1 摘要
- 2 引言
- 3 Theoretical Reference
- 3.1 發(fā)布者(Publisher)
- 3.2 內(nèi)容(content)
- 3.3 Extra media
- 3.4 假新聞的定義和其對(duì)社會(huì)的影響
- 4 社交媒體
- 5 機(jī)器學(xué)習(xí)
- 5.1 公開(kāi)數(shù)據(jù)集和挑戰(zhàn)
- 5.2 預(yù)處理
- 5.3 NLP特征
- 5.4 社交和內(nèi)容特征
- 5.5 模型
- 6 挑戰(zhàn)和未來(lái)研究方向
- 7 總結(jié)
- 參考文獻(xiàn)
1 摘要
本文參考了過(guò)去5年的關(guān)于社交媒體假新聞檢測(cè)的論文,目的是了解假新聞檢測(cè)的SOTA,找到解決此任務(wù)的最好的機(jī)器學(xué)習(xí)方法。
我們發(fā)現(xiàn),目前最常用的假新聞自動(dòng)檢測(cè)方法并不是使用了單一的經(jīng)典的機(jī)器學(xué)習(xí)技術(shù),而是通過(guò)神經(jīng)網(wǎng)絡(luò)協(xié)調(diào)的經(jīng)典技術(shù)的融合。
2 引言
本文基于過(guò)去5年發(fā)表的論文研究,綜合考慮了處理假新聞問(wèn)題的不同角度。本文對(duì)假新聞檢測(cè)的機(jī)器學(xué)習(xí)方法進(jìn)行了調(diào)研,聚焦于不同方法和技術(shù)的特性,以及用于檢測(cè)假新聞和檢測(cè)機(jī)器人的概念上的模型。
本文還給出了虛假信息、騙局、假新聞的定義,系統(tǒng)地回顧了使用機(jī)器學(xué)習(xí)和NLP技術(shù)檢測(cè)這些信息的方法。
最后總結(jié)概括了當(dāng)前實(shí)現(xiàn)自動(dòng)檢測(cè)假新聞的方法的研究挑戰(zhàn)。
3 Theoretical Reference
相關(guān)定義。
3.1 發(fā)布者(Publisher)
本文將發(fā)布者定義為向公眾提供某一故事的實(shí)體。例如,發(fā)布者可以是Twitter的用戶,可以是網(wǎng)上報(bào)紙的記者,或者是他自己網(wǎng)站的組織者。值得注意的是,發(fā)布者可能是也可能不是某一故事的作者。
若發(fā)布者是作者的話,可基于他對(duì)假信息的意圖對(duì)其進(jìn)行分類;若發(fā)布者不是作者,只是故事的傳播者,可將其分類為機(jī)器人或正常的用戶。
3.2 內(nèi)容(content)
內(nèi)容是發(fā)布者在故事中提供的主要信息部分。當(dāng)發(fā)布者發(fā)布消息的瞬間,這一信息的真實(shí)性可能是真、假或未知的。如果真實(shí)性未知,則可分類為謠言。
信息也可以分類為事實(shí)、觀點(diǎn)或兩者的混合。基于觀點(diǎn)的信息和事實(shí)相比沒(méi)有確定的真假。事實(shí)的內(nèi)容通常是發(fā)布者的claim。claim的真實(shí)性檢測(cè)被稱為自動(dòng)事實(shí)驗(yàn)證(automated fact-checking)。
3.3 Extra media
除了內(nèi)容以外,故事也可能包含其他的媒體,例如圖像、視頻、音頻。如果用到的媒體和內(nèi)容無(wú)關(guān),則可能會(huì)加強(qiáng)讀者要閱讀內(nèi)容的欲望,這就是標(biāo)題黨現(xiàn)象。
3.4 假新聞的定義和其對(duì)社會(huì)的影響
本文使用的假新聞的定義為:故意被創(chuàng)造出來(lái)的新聞文章且已證實(shí)為假。
有些學(xué)者認(rèn)為機(jī)器人(bots)不利于信息的復(fù)原過(guò)程,因?yàn)樗鼈兗觿×隋e(cuò)誤信息的傳播。但也有研究表明,機(jī)器人不僅可以加劇錯(cuò)誤信息的傳播,同時(shí)也可以加劇真實(shí)信息的傳播。也就是說(shuō),機(jī)器人不是錯(cuò)誤信息的傳播者,只是信息的傳播者,它們對(duì)信息沒(méi)有偏好,只是加劇了任意類型的信息的傳播。
4 社交媒體
絕大多數(shù)工作使用社交媒體作為分析的主要來(lái)源。原因有:1)社交媒體的流行;2)這些平臺(tái)通常會(huì)提供API,方便數(shù)據(jù)的獲取;3)大多數(shù)報(bào)紙?zhí)珖?yán)謹(jǐn)了,而且反應(yīng)的是普遍的政治觀點(diǎn),社交網(wǎng)絡(luò)上各種各樣的人們都可以發(fā)表個(gè)人的觀點(diǎn);4)很少有報(bào)紙發(fā)布假新聞或謠言。已經(jīng)有一些社交媒體采取了措施來(lái)阻止假新聞的傳播。
5 機(jī)器學(xué)習(xí)
本節(jié)將介紹不同種類的模型、預(yù)處理技術(shù)和使用到的數(shù)據(jù)集。
5.1 公開(kāi)數(shù)據(jù)集和挑戰(zhàn)
2017年有兩個(gè)公開(kāi)的挑戰(zhàn)被提出:RumorEval和Fake News Challenge。前者有兩個(gè)子任務(wù),一個(gè)是對(duì)新聞回復(fù)的立場(chǎng)檢測(cè),另一個(gè)是對(duì)新聞?wù)婕龠M(jìn)行分類。后者是對(duì)新聞進(jìn)行立場(chǎng)檢測(cè),將新聞的回復(fù)分為同意、不同意、討論和不相關(guān)。
有一些網(wǎng)站可以進(jìn)行人工的事實(shí)核查,最流行的是snopes.com和factcheck.org。也有一些網(wǎng)站檢查特定領(lǐng)域的新聞?wù)鎸?shí)性,例如政治領(lǐng)域的politifact.com。也有一些網(wǎng)站為了搞笑、批判等,發(fā)布明顯虛假的新聞,例如theonion.com。事實(shí)核查可以作為新聞?wù)婕俚膅round turth。
Wang等人提出了LIAR數(shù)據(jù)集,由公共人物的聲明組成,并從polifact.com網(wǎng)站上標(biāo)注了其真實(shí)性。Zubiaga等人提出了謠言數(shù)據(jù)集PHEME,該數(shù)據(jù)集將推文分組成謠言流,并將它們和新聞事件關(guān)聯(lián)起來(lái)。
5.2 預(yù)處理
一些工作聚焦于通過(guò)拓?fù)涮剿鱽?lái)自動(dòng)檢測(cè)謠言流的起始點(diǎn)。Sahana等人提出算法來(lái)解決這一問(wèn)題[1],找到謠言新聞的起始點(diǎn)。他們還發(fā)現(xiàn)了這類推文的關(guān)鍵特征,并在未來(lái)的工作使用這些特征對(duì)推文進(jìn)行預(yù)先的聚類,加速了虛假信息的分類。
5.3 NLP特征
許多文獻(xiàn)使用情感分析對(duì)新聞的極性進(jìn)行分類[2~6],有的使用情感詞典,有的使用情感分析作為最終分類器的特征,使用HMM或人工神經(jīng)網(wǎng)絡(luò)來(lái)推斷出情感。
基于語(yǔ)法(syntax)的技術(shù)相對(duì)較少,大多數(shù)論文主要使用句法解析(parsing)、pos-tagging和命名實(shí)體類型。使用語(yǔ)義的方法較為普遍。也有許多論文使用詞典作為外部知識(shí),根據(jù)感興趣的屬性創(chuàng)建單詞列表。例如,宣誓有關(guān)的單詞、主觀的單詞和情感單詞的詞典。經(jīng)常使用的詞典有WordNet和LIWC(Linguist Inquiry and Word Count)。
在假新聞檢測(cè)領(lǐng)域另一個(gè)使用到語(yǔ)義的方法是語(yǔ)言模型的使用。一些論文使用n-grams作為baselines,與他們提出的手工選取的特征作比較。也有人使用n-grams作為分類器的特征。最近的兩篇論文[3, 7]使用詞嵌入進(jìn)行語(yǔ)言建模,主要是使用無(wú)監(jiān)督學(xué)習(xí)來(lái)構(gòu)建分類器。
5.4 社交和內(nèi)容特征
對(duì)于分類器中使用到的特征,我們基于這些特征的來(lái)源對(duì)其進(jìn)行分類:1)基于社交媒體屬性(#likes, #retweets, #friends)的特征;2)基于新聞內(nèi)容的特征(標(biāo)點(diǎn), 詞嵌入, 單詞的情感極性)。
如文獻(xiàn)[8]中所說(shuō),許多經(jīng)典的分類算法主要聚焦于語(yǔ)言學(xué)的角度。但是也有一些新方法在相同的內(nèi)容上聚合了不同的特征以得到更好的效果。例如網(wǎng)絡(luò)拓?fù)浞治瞿P?#xff08;Network Topology Analysis Models)和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks),從社交網(wǎng)絡(luò)預(yù)定義的數(shù)據(jù)結(jié)構(gòu)中發(fā)掘出用戶間的連接和其他的元信息。
也有一些作者提出通過(guò)分析社交網(wǎng)絡(luò)上用戶間的交互行為來(lái)對(duì)信息的真實(shí)性進(jìn)行分類。隨著web2.0的發(fā)展以及群體智慧的發(fā)展,可以從社交網(wǎng)絡(luò)用戶間的交互中利用群體智能,用于假信息的檢測(cè)。
有學(xué)者提出了Ant 算法,Ant算法的工作方式很像蟻群。新聞中噴灑了信息素,在獲取的數(shù)據(jù)附近存在信息素,算法一直運(yùn)行到信息素蒸發(fā),不斷預(yù)測(cè)和更新其錯(cuò)誤率,直到信息素全部蒸發(fā)。該算法只將新聞分類為正類或負(fù)類。
與其他經(jīng)典方法、啟發(fā)式算法等相比,該方法的誤差率較低,是最優(yōu)的。作者認(rèn)為通過(guò)修改其分類函數(shù),可以將其用在檢測(cè)假新聞、hoax、謠言和虛假信息上。這是因?yàn)榇蠖鄶?shù)處理假新聞檢測(cè)的工作依賴于交互分析,并且這一算法已被證明在此任務(wù)上比經(jīng)典方法有效,盡管它的實(shí)現(xiàn)會(huì)更加復(fù)雜。
5.5 模型
研究學(xué)者并沒(méi)有使用簡(jiǎn)單經(jīng)典的學(xué)習(xí)模型,如樸素貝葉斯、決策樹(shù)和SVM等,而是將這些方法結(jié)合以得到更準(zhǔn)確更復(fù)雜的模型。
為了實(shí)現(xiàn)這些組合,學(xué)者們使用近些年流行的模型——人工神經(jīng)網(wǎng)絡(luò)(ANN)。
6 挑戰(zhàn)和未來(lái)研究方向
多模分類器:大多數(shù)新聞將視頻、圖片等媒體嵌入在了新聞內(nèi)容中,但是有可能這些媒體和內(nèi)容無(wú)關(guān),也就是標(biāo)題黨。有工作就聚焦于通過(guò)分析模因(memes)對(duì)推文進(jìn)行分類,還可以對(duì)反復(fù)出現(xiàn)的術(shù)語(yǔ)進(jìn)行預(yù)標(biāo)注,這可能有助于假信息的檢測(cè)。
另一個(gè)挑戰(zhàn)是:推文真實(shí)意圖的不確定性。社交網(wǎng)絡(luò)上的帖子存在隱喻、委婉語(yǔ)和諷刺等語(yǔ)言資源,因此對(duì)于人類讀者來(lái)說(shuō)很容易理解帖子的意圖。但是機(jī)器很難去區(qū)分這些語(yǔ)言形式,只是對(duì)其進(jìn)行標(biāo)記或分類,或者是使用預(yù)定義的詞典或預(yù)分類的術(shù)語(yǔ)對(duì)其進(jìn)行交叉核查。因此,對(duì)于推文意圖的消歧,在未來(lái)值得繼續(xù)研究。
7 總結(jié)
文獻(xiàn)[3]提出了使用文本、社交、圖像想你想資源的基于注意力的ANN模型,并將其應(yīng)道到了twitter和Weibo數(shù)據(jù)集,取得了75%的準(zhǔn)確率。
作者認(rèn)為使用社會(huì)信息傳播作為預(yù)處理步驟,非常有助于后續(xù)工作的開(kāi)展,這是因?yàn)轭A(yù)處理可以發(fā)現(xiàn)課增強(qiáng)分類能力的關(guān)鍵特征,有助于發(fā)現(xiàn)傳播的起始點(diǎn)和謠言傳播者的預(yù)標(biāo)注,還有助于從帖子中實(shí)體到外部上下文元素的映射。
檢測(cè)假信息的受歡迎的方法主要是機(jī)器學(xué)習(xí)方法。涉及組合分類器的方法實(shí)際上是神經(jīng)網(wǎng)絡(luò)和經(jīng)典分類算法的結(jié)合,重點(diǎn)詞匯條目作為用于預(yù)測(cè)的主要特征,還可以使用外部的上下文信息(例如 帖子的拓?fù)浞植?#xff0c;用戶信息和social media metrics等)作為模型的初步流程步驟,以提高模型的性能。
文獻(xiàn)提出的方法中,NLP方法更多的是被當(dāng)做初步的步驟而不是一個(gè)解決方案。
機(jī)器人的使用可以看成是信息傳播的催化劑,目的可能是好的也可能是壞的。當(dāng)然,在未來(lái)的工作中,有很多方法可以改進(jìn)它們的信息驗(yàn)證特性,但這需要對(duì)我們?cè)跅l目拓?fù)浞治鲋锌吹降耐獠可舷挛脑剡M(jìn)行大量的預(yù)處理。
作者認(rèn)為當(dāng)前的處理假新聞自動(dòng)檢測(cè)的SOTA方法是在機(jī)器學(xué)習(xí)技術(shù)上使用網(wǎng)絡(luò)分析的方法。
參考文獻(xiàn)
[1] Sahana V P, A. R. Pias, R. Shastri, and S. Mandloi, “Automatic detection of rumoured tweets and finding its origin,” pp. 607–612, IEEE, Dec. 2015.
[2] J. A. Ceron-Guzman and E. Leon-Guzman, “A Sentiment Analysis System of Spanish Tweets and Its Application in Colombia 2014 Presidential Election,” pp. 250–257, IEEE, Oct. 2016.
[3] Z. Jin, J. Cao, H. Guo, Y. Zhang, and J. Luo, “Multimodal Fusion with Recurrent Neural Networks for Rumor Detection on Microblogs,” pp. 795–816, ACM Press, 2017.
[4] N. Hassan, F. Arslan, C. Li, and M. Tremayne, “Toward Automated Fact-Checking: Detecting Check-worthy Factual Claims by ClaimBuster,” pp. 1803–1812, ACM Press, 2017.
[5] S. Vosoughi, M. . Mohsenvand, and D. Roy, “Rumor Gauge: Predicting the Veracity of Rumors on Twitter,” ACM Transactions on Knowledge Discovery from Data, vol. 11, pp. 1–36, July 2017.
[6] J. Ross and K. Thirunarayan, “Features for Ranking Tweets Based on Credibility and Newsworthiness,” pp. 18–25, IEEE, Oct. 2016.
[7] A. P. B. Veyseh, J. Ebrahimi, D. Dou, and D. Lowd, “A Temporal Attentional Model for Rumor Stance Classification,” pp. 2335–2338, ACM Press, 2017.
[8] N. J. Conroy, V. L. Rubin, and Y. Chen, “Automatic deception detection: Methods for finding fake news,” in Proceedings of the 78th ASIS&T Annual Meeting: Information Science with Impact: Research in and for the Community, ASIST ’15, (Silver Springs, MD, USA), pp. 82:1–82:4, American Society for Information Science, 2015.
總結(jié)
以上是生活随笔為你收集整理的【论文翻译 假新闻检测综述 HICSS 2019】Can Machines Learn to Detect Fake News? A Survey Focused on Social Media的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: unity 游戏开发之路(一)
- 下一篇: 一文带你认识CSS