论文浅尝 | SenticNet 5: 借助上下文嵌入信息为情感分析发现概念级别的原语
Citation: Cambria E, Poria S, Hazarika D, et al.SenticNet 5: discovering conceptual primitives for sentiment analysis by meansof context embeddings[C]//AAAI. 2018.
概述
目前大部分的人工智能的研究都集中在基于統計學習的方法,這些方法需要大量的訓練數據,但是這些方法有一些缺陷,主要是需要大量的標注數據而且是領域依賴的;不同的訓練方法或者對模型進行微調都會產生完全不同的結果;這些方法的推理過程都是黑盒的。在自然語言處理領域中,人工智能科學家需要減少統計自然語言處理領域和其他理解自然語言急需的領域(例如,語言學、常識推理和情感計算)之間的隔閡。在自然語言處理領域,有自頂向下的方法,例如借助符號(語義網絡)來編碼語義;也有一種自底向上的方法,例如基于神經網絡來推斷數據中的句法模式。單純地利用統計學習的方法主要通過歷史數據建模關聯性以此“猜測”未知數據,但是建模自然語言所需要的知識遠不止此。因此,本論文工作的目的就是結合人工智能領域中統計學習和符號邏輯的方法進行情感分析任務。
模型
本論文首先設計了一種LSTM模型通過詞語替換發現“動詞-名詞”概念原語(概念原語就是對常識概念的一種的抽象,概念“嘗”、“吞”、“啖”和“咀嚼”的原語都是“吃”。),為情感分析任務構建了一個新的三層知識表示框架,SenticNet5。SenticNet5建模了普遍關聯現實世界對象、行為、事件和人物的內涵和外延信息,它不是盲目地依賴關鍵詞和詞語共現模式,而是依賴關聯常識概念的隱含語義。SenticNet5不再單純地使用句法分析技術,同時通過分析短語關聯的概念,而不是短語本身(因為短語本身經常并不顯式地表達情感)挖掘微妙表達的情感。
圖1 上下文語境向量和詞向量生成框架
本論文聲稱是情感分析應用中第一個提出結合符號邏輯和統計學習的方法。本論文的核心思想就是提出一種概念原語的,也就是使用一種自頂向下的方法泛化語義相關的概念,例如,“munch_toast”和“slurp_noodels”可以泛化成概念原語“EAT_FOOD”。這種做法背后核心的思想就是使用有限的概念上的原語描述包含情感信息的概念。
本論文工作的第一步就是挖掘概念原語,具體模型如圖1所示,該模型的核心思想就是屬于相同原語下的概念詞語跟目標詞語在語義上關聯并且具有相似的上下文語境,舉個例子,句子“他剛剛咀嚼幾口粥”,這里的“咀嚼”和“狼吐虎咽”屬于相同的概念原語“吃”,所以這里的句子“狼吞虎咽”代替“咀嚼”也說得通。該模型左邊建模目標詞語的左上下文和右上下文合成目標詞語的上下文語境表示,模型的右邊建模目標詞語的表示,基于這個模型就可以找到屬于同一原語的詞語,也就是講這些詞語聚類,然后人工標注原語。
因為SenticNet5是一個三層的語義網絡(如圖2所示),原語層包含基本的狀態和行為(狀態之間的交互),包含狀態的情感信息;概念層通過語義關聯鏈接的常識概念;實體層屬于常識概念的實例。例如,在原語層,狀態“inact”對應情感“joy”和概念層上的形容詞概念“complete”,行為“break”對應動詞概念“crack”和“split”;在概念層,概念短語“repair_phone”對應概念“repair”和“phone”;同時概念“phone”又對應實例層上的“iPhone”。這樣我們分析“iPhone”的時候雖然本身不包含情感信息,但是跟“repair”在一起,“repair”對應狀態原語“fix”,“fix”又轉到正面的情感“intact”,因此“iPhone”就包含了正面的情感。
圖2 原語“Intact”在語義網絡圖Sentic5中的片段
實驗
實驗部分本論文主要評估了深度學習方法的性能和SenticNet5作為知識庫在情感分析任務中的效果。從圖3,4,5的結果看來本論文的方法在兩個人物都有3%左右的提升。
圖3 對比現有方法和深度學習方法在原語識別上的性能
圖4 SenticNet5在Biltzer數據集上情感分析的性能
圖5 SenticNet5在Movie Review數據集上情感分析的性能
論文筆記整理:徐康,南京郵電大學計算機學院、軟件學院,講師,研究方向為自然語言處理、情感分析、知識圖譜。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
轉載須知:轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | SenticNet 5: 借助上下文嵌入信息为情感分析发现概念级别的原语的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 利用 RNN 和 CNN
- 下一篇: 郑杰 | 如何拿回我们自己的医疗数据?