为拯救爸妈朋友圈,达摩院造了“谣言粉碎机”
生命不可能從謊言中開出燦爛的鮮花。
前幾天,母上大人給我發(fā)了條消息,再三叮囑幫忙擴(kuò)散,隨手解救癌癥患者。
“速轉(zhuǎn)!科學(xué)家發(fā)現(xiàn):一味中藥48小時(shí)可殺死60%癌細(xì)胞!”
回復(fù)框里,我打了一段長長的反駁文字。在按下發(fā)送前沉思良久,為了保住每日的晚飯,我又默默刪除了。
母上大人的朋友圈,啥都不說了
從那句熟悉的“狼來了”開始,謠言開始在我們生活無孔不入,一些不壞好意的人,把謊言變成一張漂亮的包裝紙,裹挾著詐騙、虛榮、不懷好意,肆意橫行:
當(dāng)全民瘋搶板藍(lán)根食鹽白醋,終日人心惶惶;
當(dāng)“養(yǎng)生秘聞”“200%理財(cái)回報(bào)”充斥在朋友圈,無數(shù)養(yǎng)老錢血本無歸;
當(dāng)“寒門狀元之死”透支人們對世界的信任;
......
人們被迫練就了一身硬邦邦的鎧甲,一邊斜眉冷視周圍的世界,一邊草木皆兵地生存。寧可信其有,不可信其無。
然而,總有人想改變這一切。達(dá)摩院的科學(xué)家們最近在用AI識別謠言的研究上,有了一些小突破。
“謠言粉碎機(jī)”,也許離我們并不遙遠(yuǎn)?
?
(1)
在了解到這個(gè)信息后,我第一時(shí)間采訪到了達(dá)摩院NLP團(tuán)隊(duì)的核心成員之一——李泉志,他本科畢業(yè)于清華大學(xué),后在美國獲得自然語言理解方向的博士學(xué)位,目前在達(dá)摩院的西雅圖辦公室工作。
李泉志,達(dá)摩院智能實(shí)驗(yàn)室科學(xué)家
在加入達(dá)摩院前,他曾是世界級通訊社——路透社重要的“情報(bào)官”:通過機(jī)器篩選成千上萬的網(wǎng)絡(luò)信息,為數(shù)千位一線記者提供可靠線索。
借著這個(gè)難得的機(jī)會,我“假公濟(jì)私”,請泉志使用算法鑒定我媽發(fā)來的新聞?wù)婕?#xff0c;還原“打假”現(xiàn)場。
在泉志的詳細(xì)說明下,一個(gè)令人驚嘆的“打假”模型逐漸露出。事實(shí)上,這個(gè)運(yùn)算邏輯遠(yuǎn)比我之前想得要復(fù)雜,甚至顯得有點(diǎn)“老謀深算”。
泉志告訴我,判斷一個(gè)新聞?wù)婕?#xff0c;要分三個(gè)步驟。
首先,在盤根錯(cuò)節(jié)的信息里,機(jī)器會找到最初的信源,分析其用戶畫像(專業(yè)領(lǐng)域,個(gè)人或機(jī)構(gòu),機(jī)構(gòu)類型,影響力,過去發(fā)表的內(nèi)容類型,是否可信,地域,注冊時(shí)間,活躍規(guī)律等),進(jìn)而判斷此發(fā)布者的信譽(yù)度。
如果這條新聞帶有鏈接,我們可以再看看鏈接的域名,是否來自可信網(wǎng)站,比如新華社、政府醫(yī)藥管理局。
接下來,我們拿起聽診器,細(xì)細(xì)揣摩正文的“心跳聲”:
“一味中藥48小時(shí)可殺死60%癌細(xì)胞!”打開正文,我們看看究竟這味中藥的成分是哪些?具體對哪些癌細(xì)胞起作用?機(jī)器會把這些關(guān)鍵的論證提煉為知識點(diǎn),與知識圖譜里的權(quán)威知識庫做匹配驗(yàn)證。如果毫無聯(lián)系、自相矛盾,減分。
泉志表示,除了內(nèi)容不實(shí)、上下文邏輯不連貫外,機(jī)器還能從行文風(fēng)格里找到蛛絲馬跡。比如:
“多一次轉(zhuǎn)發(fā)就多一次活命機(jī)會”
“傳瘋了!晚上一定要關(guān)wifi,太嚇人了”
......
是的,機(jī)器連“標(biāo)題黨”都不放過!假新聞經(jīng)常會采用夸大性、空洞的說辭來危言聳聽。真新聞往往行文嚴(yán)謹(jǐn)、一絲不茍。
如果說前面兩步,還算是常規(guī)操作。第三步,就是關(guān)鍵:對傳播路徑的深入分析。
一條謠言在社交網(wǎng)絡(luò)里引爆,必然有無數(shù)的人密集關(guān)注。在留言、轉(zhuǎn)發(fā)等行為里,有人贊同,有反對,還有質(zhì)疑,或者只是簡單的路過,都是一種態(tài)度。
機(jī)器統(tǒng)計(jì)不僅能統(tǒng)計(jì)所有用戶的態(tài)度,更不可思議的是,它會“看人下菜”,區(qū)別對待每條發(fā)言的分量。
比如,我弟轉(zhuǎn)發(fā)了母上發(fā)來的新聞,冒著零用錢縮水的危險(xiǎn)表示:“假的!昨天食品監(jiān)督局已經(jīng)公開辟謠了”——這條反對意見質(zhì)疑得較為有力,權(quán)重提升。
隨后,ID為“小旺仔”的用戶也在此條新聞下留言,只寫了四個(gè)字:消息不實(shí)。雖然寥寥數(shù)字,但是機(jī)器一看,不得了,小旺仔的認(rèn)證信息是該省第一附屬醫(yī)院的醫(yī)學(xué)教授,權(quán)重也得提升。
機(jī)器會對所有反饋用戶進(jìn)行畫像分析:是否是認(rèn)證用戶、過去發(fā)表的內(nèi)容類型、注冊時(shí)間、活躍規(guī)律、是否和事件發(fā)生地在同一個(gè)地方等,以此來計(jì)算用戶信譽(yù)度。最后根據(jù)不同態(tài)度的人群比例、各自的信譽(yù)度,以及處于傳播路徑中的位置等信息,計(jì)算出此新聞的可信度。
“如果有人轉(zhuǎn)發(fā)了小旺仔的留言,表示‘舉雙爪支持’,系統(tǒng)會不會認(rèn)為這是對新聞的贊同?”我感覺自己抓到了系統(tǒng)漏洞,有點(diǎn)小激動。
泉志表示這個(gè)問題提得非常好,接著干脆地做了否定:“我們的整個(gè)傳播路徑是個(gè)神經(jīng)網(wǎng)絡(luò),環(huán)環(huán)相扣,不會斷章取義的。”
以上三步中計(jì)算出的信息會輸入到神經(jīng)網(wǎng)絡(luò)模型中。基于這些信息,模型會綜合判斷出此新聞是否為謠言。
?
(2)
這個(gè)模型的魅力之處在于,你不必為它編寫程序去學(xué)習(xí)人類的指令:它能完全自主學(xué)習(xí)訓(xùn)練,就像人腦一樣“思考”。隨著知識庫的日益豐富,它的判斷能力會越來越好。
“簡直是一位飛速成長的大編輯!”我感嘆道。
“這還不是全部”,泉志爽朗笑了,“我們還用了多任務(wù)學(xué)習(xí),‘一心多用’,讓機(jī)器在同一時(shí)間完成多個(gè)復(fù)雜任務(wù),判斷內(nèi)容真假、觀察傳播路徑、挖掘用戶畫像這些都能同時(shí)進(jìn)行。”
在有條不紊的運(yùn)算機(jī)制里,機(jī)器就像一位冷峻的解剖師,切開浮夸的表象,梳理每一條新聞的經(jīng)脈、肌理走向,抽絲剝繭,層層剝開,最終找到事實(shí)的內(nèi)核。
泉志接著又透露了一個(gè)重要信息——這項(xiàng)技術(shù)不僅能控制假新聞源頭、防止謠言大規(guī)模擴(kuò)散,它還有一個(gè)隱藏的“大招”。
傳謠容易,辟謠難。謠言的擴(kuò)散速度猶如遇到林木的大火,一點(diǎn)即燃,但是當(dāng)真相出來時(shí),卻往往無人問津。
比如,網(wǎng)絡(luò)曾謠傳市面上的香蕉大多泡過藥水,許多人從此再沒買過香蕉。即使數(shù)年后風(fēng)頭過去,還有人表示吃香蕉總覺得有藥水味。
這項(xiàng)技術(shù)的隱藏”大招“,是可以針對性地為民眾辟謠。根據(jù)傳播路徑索引,曾經(jīng)支持“香蕉浸泡毒液”的人,都可以收到官方的辟謠信息:香蕉浸泡的白色液體不是甲醛,而是符合國家安全標(biāo)準(zhǔn)的保鮮劑,無毒無害;吃醬油不會變黑、開水重復(fù)燒也不會有事,交999元每月回報(bào)99的“好事”自然更是子虛烏有。
有始有終,皆大歡喜!
?
(3)
達(dá)摩院所研發(fā)的“AI謠言粉碎機(jī)”,在剛剛結(jié)束的SemEval全球語義測試中,創(chuàng)造了假新聞識別準(zhǔn)確率的新紀(jì)錄,達(dá)到了前所未有的81%。
SemEval 是自然語言處理領(lǐng)域的國際權(quán)威比賽,由國際計(jì)算語言學(xué)學(xué)會舉辦。假新聞識別是此次比賽的主要項(xiàng)目之一,吸引了哥倫比亞大學(xué)、華盛頓大學(xué)、艾倫·圖靈研究所等20多路頂級高手參與。
賽題是這樣的:
主辦方向所有參賽者提供社交媒體上470余條新聞、以及一萬多條相關(guān)的留言、轉(zhuǎn)發(fā)等數(shù)據(jù)。參賽者需要根據(jù)這些有限的信息,判斷這數(shù)百條新聞是真是假。
這些似是而非的新聞涉及政治、娛樂、商業(yè)、科技等多個(gè)領(lǐng)域,比如——
特朗普的差旅開支遠(yuǎn)遠(yuǎn)低于奧巴馬;
太陽報(bào):英國女王支持英國脫歐;
震驚了!臺風(fēng)過后,高速公路出現(xiàn)一條大鯊魚;
美國九成媒體被六家公司控制;
吉薩金字塔能利用隱秘的房間集中電磁能能量;
......
此次比賽桂冠由達(dá)摩院NLP首席科學(xué)家司羅所屬的團(tuán)隊(duì)斬獲,真假新聞二分類上的準(zhǔn)確率高達(dá)81%,刷新了本競賽系列上macro F 、RMSE兩項(xiàng)關(guān)鍵性指標(biāo)的世界記錄。
在此之前,達(dá)摩院NLP團(tuán)隊(duì)曾在機(jī)器閱讀理解頂級賽事SQuAD上,憑借82.440的精準(zhǔn)率打破了歷史紀(jì)錄;在國際頂級機(jī)器翻譯大賽WMT上,連奪英文-中文翻譯、英文-俄語互譯、英文-土耳其語互譯5項(xiàng)第一。
讓機(jī)器讀懂人類語言,并判斷人類的表達(dá)意圖,從而進(jìn)一步幫助人類實(shí)現(xiàn)對信息真假的判斷,達(dá)摩院的科學(xué)家們,從未放棄對技術(shù)難題的攻克。
?
(4)
隔著一萬多千米的太平洋,與泉志說再見后,我突然想起了今年春晚的小品《“兒子”來了》:葛優(yōu)飾演的保健品銷售員,用夸張的“床墊”欺騙一對老夫妻。
從“狼來了”到“兒子來了”,信任在不知不覺中成了世上最高的門檻。
我們知道天下不會掉餡餅,但當(dāng)周圍人都在轉(zhuǎn)發(fā)高額理財(cái)新聞時(shí)仍會忍不住動搖;
我們本不會勤于研究飯菜的化學(xué)中和反應(yīng),但萬一同時(shí)吃了螃蟹和香菇中毒呢;
我們從不擔(dān)心銀行沒收存款,但在接到短信“銀行卡已被凍結(jié)需支付保證金”時(shí)虎軀一震……
人類的原始本能告訴我們要相信彼此,然而世界正變得日益龐大和復(fù)雜,道德、名聲的影響力已不如往昔,傳統(tǒng)的信任出現(xiàn)了縫隙。
“謠言粉碎機(jī)”技術(shù)的背后,是一次史無前例的信任重建。只有假新聞被扼殺在繁衍的溫床里,破碎將傾的信任才會被重新扶起頂天立地。
而信任,是愛的最好證明。
AI = 愛。
#阿里云開年Hi購季#幸運(yùn)抽好禮!
點(diǎn)此抽獎:https://www.aliyun.com/acts/product-section-2019/yq-lottery?utm_content=g_1000042901
原文鏈接
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
總結(jié)
以上是生活随笔為你收集整理的为拯救爸妈朋友圈,达摩院造了“谣言粉碎机”的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 像数据科学家一样思考:12步指南(下)
- 下一篇: DLA实现跨地域、跨实例的多Analyt