微软提出新AI框架MWSS,假新闻识别率优于最先进的基准
不久前,微軟和亞利桑那州立大學的研究人員在預印本平臺 arxiv.org 上發表了一項研究論文,他們提出了一種人工智能框架: Multiple sources of Weak Social Supervision(MWSS),利用參與度和社交媒體信號來檢測假新聞。他們聲稱,經過在真實數據集上訓練和測試,該模型在假新聞早期檢測方面的表現優于一些最先進的基準。
如果該系統的正確率真的如作者聲稱的那樣,并投入生產,它將有助于阻斷虛假和誤導性信息的傳播,這些信息涉及美國總統候選人和其他有爭議的話題。布魯金斯學會(Brookings Institute)在 2018 年進行的一項調查發現,57% 的美國成年人在 2018 年大選期間曾遇到假新聞,19% 的人認為假新聞影響了他們的投票決定。
該論文的共同作者解釋說,學術文獻中的許多假新聞分類器依賴的信號需要很長時間才能聚合,這使得它們不適用于假新聞的早期檢測。此外,有些分類器僅僅依賴于信號,而這些信號容易受到有偏見或不真實的用戶反饋的影響。
相比之下,他們的新系統從多個來源進行監督,包括用戶和他們各自的社交活動。具體來說,它利用少量手動標簽的數據和大量弱標簽的數據(即帶有大量噪聲的數據),用于元學習人工智能框架中的聯合訓練。
一個名為 Label Weighting Network(LWN)的模塊,對調節假新聞分類學習過程的弱標簽的權重進行建模,將研究人員所指的內容作為一個實例——例如 (新聞片段)以及標簽作為“輸入”。它為“表示對”輸出一個代表重要性權重的值,該值決定了該實例在訓練假新聞分類器時的影響。為了在不同的弱信號之間共享信息,共享特征提取器與 LWN 一起工作,來學習共同的表示方法,并使用函數將特征映射到不同的弱標簽源。
微軟人工智能框架與各種基準模型的性能對比圖
微軟研究人員利用開源的 FakeNewsNet 數據集對他們的系統進行了基準測試,該數據集包含新聞內容(包括正文等元屬性),并帶有來自事實核查網站 GossipCop 和 PolitiFact 的專家注釋的標簽,同時還包含了社交背景信息,如有關該新聞文章的推文。他們使用 13 個來源的語料庫對系統進行增強,其中包括英國主流新聞媒體,如英國廣播公司(BBC)和天空新聞(Sky News),以及俄羅斯新聞媒體的英文版,如 RT 和 Sputnik,內容大多與政治有關。
為了生成弱標簽,研究人員測量了分享新聞的用戶的情感評分,然后確定這些得分之間的差異,這樣,情緒差異很大的文章就會被注釋為假新聞。他們還生成了一組具有已知公眾偏見的人群的數據,并根據用戶的興趣與這些人群的匹配程度來計算得分,其背后的理論是,有偏見的用戶分享的新聞更有可能是假新聞。最后,他們根據社交媒體上的元信息對用戶進行聚類,以此來衡量用戶的可信度。這樣一來,那些形成大型聚類的用戶(這可能表明是僵尸網絡或惡意活動)的用戶就被認為可信度較低。
在測試中,研究人員表示,性能最好的模型結合了 Facebook 和RoBERTA自然語言處理算法,并針對干凈和弱數據的組合進行了訓練,在 GossipCop 和 PolitiFact 中檢測出假新聞的正確率分別為 80% 和 82% 。
該團隊計劃在未來的工作中探索其他技術,如獲得高質量的弱標簽的標簽校正方法。他們還希望對這個框架進行擴展,以考慮來自社交網絡的其他類型的弱監督信號,利用參與的時間戳。
當然,這些研究人員并非唯一試圖利用人工智能來阻斷假新聞傳播的人。
在最近的一項研究中,麻省理工學院計算機科學與人工智能實驗室開發了一種人工智能系統,可以識別誤導性的新聞文章。去年年底,Jigsaw 發布了Assembler,這是一款為媒體機構提供的人工智能假新聞識別工具套件。AdVerif.ai 是一個軟件即服務的平臺,去年推出了 Beta 測試版,它分析文章中的錯誤信息、成人內容、惡意軟件和其他有問題的內容,并交叉引用一個定期更新的數據庫,其中包含數千條假新聞和合法新聞。就 Facebook 而言,它已經試驗了部署人工智能工具來“識別賬戶和假新聞”。
作者簡介:
Kyle Wiggers,技術記者,現居美國紐約市,為 VentureBeat 撰寫有關人工智能的文章。
原文鏈接:
https://venturebeat.com/2020/04/10/ai-training-helps-remote-controlled-buggy-negotiate-rugged-terrain/
總結
以上是生活随笔為你收集整理的微软提出新AI框架MWSS,假新闻识别率优于最先进的基准的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GitHub 已完成对 npm 的收购
- 下一篇: 谷歌强制要求 Android 11 支持