读完这些论文和代码,你就能在搜狐算法大赛中获得好成绩了
?
組織方:搜狐、清華大學?
獎金:¥75000?
初賽提交時間:2019年4月8日?–?2019年5月10日?
2019?年?4?月?8?日,第三屆搜狐校園算法大賽正式開賽,同期面向參賽選手開放競賽結果提交。本次比賽聯合了清華大學等機構共同組織,面向全球范圍內的全日制學生。
本次比賽的主題是提取文章主題,并判斷文章對主題的情緒。我們生活在一個信息爆炸的世界,每天能接觸到不同的新聞文章,體裁也多種多樣,包括新聞快訊、廣告軟文、深度分析、事件評論,以及重要人物采訪等等。每天新產生的信息量已經極大地超過了讀者能夠接受的極限。所以,如果有一種機器模型,可以自動提取出文章的主題,并且判斷出文章對這些主題內容的情感傾向,就可以極大地提高閱讀和消化信息的效率。
參賽方式:點擊閱讀原文直達賽事頁面。
注:因涉及到數據下載,強烈建議大家登錄?PC?頁面報名參加。
大賽頁面地址:
https://biendata.com/competition/sohu2019/
具體來說,參賽選手需要根據給定的文章,提取出文章中最重要的三個主題(也就是實體)。所謂實體,意思是人、物、地區、機構、團體、企業、行業等事物。和一般的實體抽取競賽任務不同的是,本次比賽還要求選手判斷文章對主題實體的情感傾向(包括積極、中立和消極三種情緒)。如下圖:
本次比賽可以分成相對獨立的兩個任務:從文章中提取最重要的實體,然后判斷文章對這些實體的情緒。?
第一個任務是提取文章中重要的實體。這個任務類似常見的命名實體識別(NER)任務。傳統上來說,NER?任務主要抽取?7?大類實體,包括人名、機構、地名、時間、日期、貨幣和百分比。
目前,已經有很多關于命名實體(NER)的研究和分享出現。在斯坦福大學著名的課程?CS224d:?Deep?Learning?for?Natural?Language?Processing?中,有一次大作業就是用深度神經網絡提取命名實體。也有很多人已經自愿分享了這次作業的模型方法和代碼。
作業任務鏈接:?
http://cs224d.stanford.edu/assignment2/index.html?
CS224d?作業代碼分享:
《用深度神經網絡處理NER命名實體識別問題》?
http://cloud.tencent.com/developer/article/1081991?
本次大賽的發起人之一,搜狐科學家、搜狐智能媒體研發中心負責人楊田也推薦了一篇詳細的命名實體綜述論文?A?Survey?on?Recent?Advances?in?Named?Entity?Recognition?from?Deep?Learning?models。
論文鏈接:
https://aclweb.org/anthology/C18-1182
不過,本次比賽的難度比傳統的?NER?要大。比賽的最大特點就是實戰與應用。行百里者半九十,在學術成果的基礎上,精度每向應用提高一點,難度就數倍增加,因此比賽的挑戰性非常大。
比賽的實體不僅僅包括人名,地名和機構名的識別,粒度更細,種類也更多。在比賽前期發布的樣本數據中,實體的例子包括:眾要機械?APP、衛生監督站、媒介、豬瘟、互聯網、表帶等內容。這也是目前實體抽取技術面對的難點。
隨著互聯網的快速發展,信息越來越豐富,呈現出多源、異構、海量的特點,也對信息抽取技術提出了新的要求。很多時候,我們要抽取的并不是一般的實體,而是全新種類的實體。目前,越來越多的人開始研究實體擴展技術,目的是抽取開放類別的實體。?
一種很自然的想法是把語料中所有的名詞都作為實體備選,然后計算它們與訓練集中種子實體的相似度,找出相似實體。這一思路主要由?Pantel?等人實踐,相關研究記錄在?Web-Scale?Distributional?Similarity?and?Entity?Set?Expansion?一文中。
在提取出實體后,我們還需要判斷文章對實體的情緒。情感分析也是自然語言處理領域的一個重要方向。有大量相關研究可以參考。早期的研究根據構建好的情感詞庫進行判斷。
情感詞庫有很多選擇,例如著名的知網?HowNet?就提供了“《知網》情感分析用詞語集”公開下載。在考慮情感詞庫時,還需要往前追溯?1-2?個詞,看看有沒有“不”、“沒有”等否定詞。
這種方法需要人工構建情感詞庫,但沒有一個情感詞庫可以適用所有應用場景,所以高度依賴人的經驗。此外,這種方法也很難完整地考慮到上下文的語義信息。不過,如果剛剛上手情感分析,可以嘗試這種方法。以下鏈接是一篇基于情感詞典的文本情感分析代碼:?
http://www.aidnoob.com/ai/python/qinggan1/
此后,還出現了基于特征的情感分析方法。這種方法主要利用統計學領域的知識,從語料中選取特征對文本進行表示,然后用決策樹、SVM?等方法對情緒進行分類。這種方法仍然高度依賴經驗和特征的選擇。相關研究有很多,比較詳細的案例介紹來自清華大學計算機系謝麗星在孫茂松教授指導下的碩士論文《基于 SVM?的中文微博情感分析的研究》。
論文鏈接:
http://nlp.csai.tsinghua.edu.cn/site/images/file/2011_xlx_master_thesis.pdf
論文主要使用?SVM?的方法,分別從微博和?Twitter?預料中抽取了主題相關特征(如是否包含主題詞、句子中是否缺乏名詞性短語或者代詞等)和主題無關特征(是否有?url?鏈接、是否有表情、是否有情感詞和情感短語、形容詞和動詞的個數等),在使用主題無關特征時獲得的最高準確率為?66.467%,使用主題相關的特征對情感分類后獲得的最高準確率為?67.283%。
目前主要的情感分析方法大多基于深度學習,首先對詞語、句子和篇章進行向量化表示,然后學習文本的深層語義信息。這種方法可以自動學習特征,不需要人工進行特征選擇和規則制定。很多情感分析研究使用?NLP?常見的?RNN,加上?LSTM?和注意力機制保證語義的完整性。
例如,騰訊的徐漢彬和宋彥就曾經分享了?Keras?代碼實現對?40?多萬條真實的鵝漫用戶評論數據的情感分類。他們的代碼通過?Keras?實現,底層框架是?Google?開源的?TensorFlow,詞向量采用騰訊人工智能實驗室開源的詞向量。
整個模型包含?6?層,核心層包括?Embedding?輸入層、中間層(LSTM)、輸出層(Softmax)。模型中的?Flatten?和?Dense?層用于做數據維度變換,將上一層輸出數據變換為相應的輸出格式,最終的輸出是一個二維數組,用于表達輸入文本是正面或者負面的概率分布。
基于LSTM的情感識別在鵝漫評論分析中的實踐與應用:
https://www.infoq.cn/article/zJI*5CGPeRKqHsHJV3OQ
很多論文和公開代碼主要針對文檔級別的情感分析。但是在本次比賽中,需要更加細致的分析,因為一篇文章里可能對不同的實體有不同的情緒。我們在比賽前期給的數據樣本里,已經能看到類似的情況。例如以下這篇文章:
{?"content":?"華為宣布:起訴美國政府。?新聞越短,信息越大。?就在上午10時,華為在深圳總部舉行外媒記者會,宣布一項重要決定:起訴美國政府。?北京時間10時,在外媒記者會上,華為輪值董事長郭平宣布,華為已向美國聯邦法院提起訴訟,指控美國2019年國防授權法第889條款違反美國憲法。?在郭平的表述中,美國政府一直污蔑華為是威脅,還攻擊華為的服務器,竊取郵件和源代碼,而且從來沒有提供任何證據支撐其關于華為是網絡安全威脅的指控。?而且,美國竭力詆毀華為、影響公眾輿論。更糟糕的是,美國政府試圖阻止華為參與其他國家的5G網絡建設。?而采取法律行動是華為不得已而為之的最后選擇,也是受盡壓迫之后的奮力反抗。?為什么華為這么有底氣去起訴美國政府,除了華為過硬的技術、品牌的成績之外,這更離不開一個人——任正非,華為的創始人。}
這里,人類標注員就判斷文章對實體“華為”的情緒為正,對實體“美國政府”的情緒為負。事實上我們讀完這段文本后很可能也確實同意這一標注判斷。在這種情況下,我們就不能只對文檔級別的內容做情感分析,還需要對粒度更細的內容做分析。?
對此,我們可以參考更前沿的研究論文。2016?年,清華大學朱小燕和黃民烈在?EMNLP?上發表了一篇情感粒度更細的論文?Attention-based?LSTM?forAspect-level?Sentiment?Classification。
這篇論文提出了一種基于注意力機制(Attention?Mechanism)的神經網絡模型,使用注意力機制注意到文本中對給出的?aspect?最重要的部分,從而更充分地考慮文本對應的?aspect?信息,提高細粒度情感分類任務的性能。?
根據這篇論文提出的改進,可以識別很多之前的模型無法識別的細粒度情感。例如,“The?appetizer?are?ok,?but?the?service?is?slow”這句話里出現了兩個實體(或者說?aspect)。food?對應的是中性,service?對應的是負面。
最后,搜狐官方也給所有參賽者提供了比賽的?baseline?供大家參考:
https://github.com/sohucampus2019/coreEntityEmotion_baseline
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly?是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事?AI?領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入?PaperWeekly?的交流群里。
▽ 點擊 |?閱讀原文?| 報名參賽
總結
以上是生活随笔為你收集整理的读完这些论文和代码,你就能在搜狐算法大赛中获得好成绩了的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 赛事丨出道题就能赢万元奖金?华录杯大赛告
- 下一篇: 实战分享之专业领域词汇无监督挖掘