总结和展望:情感分析研究的新视野
作者:Caroline Brun? ? ?編譯:ronghuaiyang
導(dǎo)讀
本文對(duì)情感分析研究領(lǐng)域做了非常好的總結(jié)和展望。
假新聞、受歡迎程度、健康狀況、金融和社會(huì)風(fēng)險(xiǎn):情感分析正在幫助理解這一切。甚至可能引導(dǎo)我們理解為什么。。。
人們從一開(kāi)始就對(duì)彼此的觀點(diǎn)感興趣,這是很自然的。然而,分析觀點(diǎn)的科學(xué)工作可以追溯到20世紀(jì)初,當(dāng)時(shí)人們?cè)噲D從問(wèn)卷中獲取、分析和量化公眾意見(jiàn)。與此同時(shí),學(xué)術(shù)期刊“Public Opinion Quarterly”于1937年出版。然而,正是社交媒體平臺(tái)的出現(xiàn)和采用導(dǎo)致了“情感分析”研究領(lǐng)域的誕生,以分析這種大規(guī)模的在線(xiàn)非結(jié)構(gòu)化意見(jiàn)資源。
一般來(lái)說(shuō),情感分析利用文本分析來(lái)獲取公眾意見(jiàn)。它是自然語(yǔ)言處理(NLP)最有吸引力的用例之一,業(yè)界和學(xué)術(shù)界對(duì)此都很感興趣。在情感分析中,基于nlp的數(shù)據(jù)挖掘過(guò)程和技術(shù)被應(yīng)用于從用戶(hù)生成內(nèi)容(UGC)中提取和分析主觀信息,其中大部分來(lái)自社交媒體(因?yàn)樯缃幻襟w太多了)。
它允許你衡量對(duì)某些產(chǎn)品、人或想法的情感(意見(jiàn),但也包括情感)。情感分析傳統(tǒng)上是關(guān)于意見(jiàn)的極性,即一個(gè)人是否對(duì)某人或某事有積極的、中立的或消極的看法,但它也可以是關(guān)于一個(gè)人或物體的特定方面。
它的流行自然源于它的廣泛用途??蛻?hù)服務(wù)、商業(yè)智能和產(chǎn)品或品牌聲譽(yù)管理等商業(yè)應(yīng)用尤其突出。在醫(yī)療保健領(lǐng)域,它可以用于檢測(cè)藥物不良反應(yīng)的異常。它可以幫助監(jiān)控金融市場(chǎng)的犯罪活動(dòng)或情緒,但也可以衡量公眾如何看待政治候選人。
如今,任何事件都可以在社交媒體上以閃電般的速度發(fā)布、查看、評(píng)論和分享,潛在的數(shù)百萬(wàn)人都可以參與其中。情感分析是一個(gè)重要工具,可以幫助人們理解所有事件,并在必要時(shí)做出反應(yīng)。
情感分析是如何隨著時(shí)間演變的
隨著社交媒體渠道的發(fā)展,情感分析的研究任務(wù)和方法也在不斷增加。在它的初期,情感分析僅僅是給英語(yǔ)語(yǔ)言的客戶(hù)評(píng)論分配一個(gè)全局的,全面的極性標(biāo)簽(積極的,消極的,有時(shí)是中立的)。現(xiàn)階段的研究包括了句子級(jí)別的主題檢測(cè),基于不同aspect的情感分析,在比喻型語(yǔ)言上的情感分析,基于主題的極性分類(lèi),事件的隱性的的極性分類(lèi),比如在沒(méi)有顯式的極性標(biāo)記被提起的情況下,識(shí)別“pleasant”或者“unpleasant”事件。情感分類(lèi),現(xiàn)在更多的是在一個(gè)寬泛的多樣的語(yǔ)言上和多種媒體資源上(使用Twitter數(shù)據(jù)已經(jīng)成為必須品的了)進(jìn)行立場(chǎng)的檢測(cè)和論據(jù)的挖掘。任務(wù)的定義隨后發(fā)展為更復(fù)雜的挑戰(zhàn),其中主觀性、極性識(shí)別和意見(jiàn)挖掘已經(jīng)使用細(xì)粒度的aspect和基于主題的預(yù)測(cè)變得更加豐富了。極性這個(gè)概念已經(jīng)被心理學(xué)研究中定義的情感模型所補(bǔ)充。
情緒分析的方法、算法和資源也在不斷發(fā)展?,F(xiàn)有的研究已經(jīng)產(chǎn)生了許多不同任務(wù)的技術(shù),包括監(jiān)督和非監(jiān)督的方法。在監(jiān)督環(huán)境下,早期的論文使用了各種監(jiān)督機(jī)器學(xué)習(xí)方法(如支持向量機(jī)、最大熵、樸素貝葉斯等)和特征組合。非監(jiān)督方法包括利用情感詞匯、語(yǔ)法分析和句法模型的方法。近年來(lái),深度學(xué)習(xí)在其他領(lǐng)域的成功和普及導(dǎo)致了它在情緒分析中的應(yīng)用,經(jīng)常使用詞嵌入來(lái)表示輸入文本。
在情感分類(lèi)方面,遞歸神經(jīng)網(wǎng)絡(luò)(RNN)特別是長(zhǎng)短時(shí)記憶(LSTM)網(wǎng)絡(luò)及其捕獲長(zhǎng)距離依賴(lài)關(guān)系的能力已經(jīng)取得了極性分類(lèi)的最新成果。注意力模型也已經(jīng)被證明可以提供有趣的結(jié)果,因?yàn)樗鼈兛梢圆东@句子中有關(guān)aspects的重要信息。
NLP與深度學(xué)習(xí)方法并存。經(jīng)典的NLP方法利用語(yǔ)言先驗(yàn)知識(shí)來(lái)降低監(jiān)督水平,以保證在包括情感分析在內(nèi)的各種任務(wù)上的準(zhǔn)確性。深度學(xué)習(xí)方法的主要缺點(diǎn)是需要大量帶標(biāo)注的數(shù)據(jù)。這意味著一定的成本,特別是對(duì)于復(fù)雜和結(jié)構(gòu)化的語(yǔ)義。鑒于這一點(diǎn),當(dāng)前的研究趨勢(shì)提倡整合先驗(yàn)語(yǔ)法知識(shí)用到深度學(xué)習(xí)架構(gòu)中用于文本分析,還有一些工作得到了情感分析方面的有趣的結(jié)果。
長(zhǎng)期存在的挑戰(zhàn)和新的領(lǐng)域
盡管在情感分析上,越來(lái)越多的研究取得了進(jìn)展,但處理文本中的“‘a(chǎn)ffective phenomena”,如主體性、aspects、情感、情緒、語(yǔ)氣、態(tài)度和感受,已被證明是一個(gè)復(fù)雜的、跨學(xué)科的問(wèn)題,遠(yuǎn)遠(yuǎn)沒(méi)有得到解決。必須考慮許多參數(shù),如作者的個(gè)人資料、文本類(lèi)型、樣式、域、文檔來(lái)源、目標(biāo)語(yǔ)言和最終應(yīng)用的目標(biāo)。公開(kāi)的實(shí)驗(yàn)結(jié)果(通常在相對(duì)有利的環(huán)境中獲得)與系統(tǒng)在真實(shí)環(huán)境中獲得的結(jié)果之間也存在差距。
自然語(yǔ)言
準(zhǔn)確的情緒分析的主要障礙一直是自然語(yǔ)言,現(xiàn)在仍然是,原因有很多。
自然語(yǔ)言是模糊的,詞可能有不同的極性方向,這取決于上下文和領(lǐng)域。例如,形容詞“predictable”在描述電影結(jié)尾時(shí)可能是否定的,但在描述產(chǎn)品質(zhì)量時(shí)可能是肯定的。
為了表達(dá)自己的觀點(diǎn),人們經(jīng)常使用形象化的語(yǔ)言,如反諷和諷刺。這些對(duì)于NLP來(lái)說(shuō)是極具挑戰(zhàn)性的任務(wù),在這些任務(wù)中,機(jī)器學(xué)習(xí)方法很容易被具有強(qiáng)烈極性的詞匯誤導(dǎo),但這些詞匯卻被諷刺地使用(意思是相反的極性是有意的)。
否定(虛假性的表達(dá))和模態(tài)(必然性、可容許性和概率的表達(dá),例如"應(yīng)該是"或"可能是")是復(fù)雜的語(yǔ)言現(xiàn)象,它們對(duì)表達(dá)觀點(diǎn)時(shí)所使用的表達(dá)方式的語(yǔ)義有很大的影響。處理否定的場(chǎng)景和的模態(tài)在情感分析中尤為重要。
理解上下文是理解觀點(diǎn)的必要條件。指代消解,即分辨代詞或名詞短語(yǔ)所指的人或物,是NLP技術(shù)面臨的一個(gè)眾所周知的挑戰(zhàn),也是理解觀點(diǎn)的重要一步。
最后,UGC中充斥著隱含情緒(事實(shí)性表達(dá),暗示積極或消極情緒),例如“She is still looking for another Oscar nod. Not here though”中暗含推理的語(yǔ)句。這些表達(dá)與可用的和不可用的事實(shí)或行為有關(guān),但不要使用自以為是的詞匯,這意味著很難自動(dòng)捕獲它們。
挑戰(zhàn)性的任務(wù)
情感分析在本質(zhì)上是具有挑戰(zhàn)性的,但人們對(duì)其他相關(guān)任務(wù)的興趣越來(lái)越大,而這些任務(wù)可能會(huì)更加困難。
基于aspect的情感分析 (ABSA)旨在捕捉用戶(hù)生成的評(píng)論中對(duì)產(chǎn)品、電影、公司等實(shí)體的不同方面所表達(dá)的情感。Aspect是一個(gè)實(shí)體的屬性,例如手機(jī)屏幕(相對(duì)于它的重量或大小等),餐館的服務(wù)(相對(duì)于位置或價(jià)格等),或相機(jī)的圖像質(zhì)量等。它可以由與實(shí)體相關(guān)聯(lián)的本體來(lái)描述。ABSA意味著識(shí)別一個(gè)實(shí)體的不同aspect以及相應(yīng)的情感。特別是隨著SemEval挑戰(zhàn)賽致力于這個(gè)方面,對(duì)這個(gè)任務(wù)的興趣最近有所增加。除了基本的基線(xiàn)檢測(cè)之外,它正成為情感分析的“標(biāo)準(zhǔn)”任務(wù)。我們開(kāi)發(fā)的一個(gè)ABSA系統(tǒng)獲得的結(jié)果在2016年SemEval挑戰(zhàn)賽的最佳結(jié)果。我們現(xiàn)在將它集成到地圖搜索引擎中,以創(chuàng)建感興趣點(diǎn)的感知地圖搜索。我們也調(diào)查了ABSA在最終的應(yīng)用設(shè)置上的評(píng)價(jià),并為此創(chuàng)造了一個(gè)新的ABSA標(biāo)注數(shù)據(jù)集(基于FourSquare數(shù)據(jù)),可以從這個(gè)網(wǎng)站(http://www.europe.naverlabs.com/Research/Natural-Language-Processing/Aspect-Based-Sentiment-Analysis-Dataset)下載。
情緒分析,檢測(cè)并識(shí)別文本中的情緒類(lèi)型,如憤怒、厭惡、恐懼、快樂(lè)、悲傷和驚訝。根據(jù)美國(guó)心理學(xué)家Paul Ekman和Wallace V. Friesen的理論,這六種基本情緒是最廣泛使用的。這里最大的挑戰(zhàn)之一是,在大多數(shù)情況下,情緒是隱含在文本中的,例如,一個(gè)句子中可能有“憤怒”的元素,但是沒(méi)有使用“憤怒”這個(gè)詞或它的任何同義詞。再加上沒(méi)有標(biāo)注過(guò)的文本數(shù)據(jù),這使它變得更加困難。目前通常使用標(biāo)準(zhǔn)的分類(lèi)技術(shù),結(jié)合WordNet Affect或SentiWordnet等資源,輔以隱含情緒獲取常識(shí)知識(shí)。
垃圾內(nèi)容和虛假檢測(cè):虛假評(píng)論和虛假新聞是一個(gè)緊密相關(guān)的現(xiàn)象,它們都是由寫(xiě)作和傳播虛假信息或信仰組成的。這里最大的挑戰(zhàn)是缺乏一種有效的方法來(lái)區(qū)分真實(shí)的評(píng)論和虛假的評(píng)論。即使是人類(lèi)也很難分辨出其中的區(qū)別。再一次,我們面臨著嚴(yán)重缺乏ground truth數(shù)據(jù)集來(lái)幫助我們。大多數(shù)方法關(guān)注于評(píng)論的內(nèi)容(評(píng)論的長(zhǎng)度、特定的詞匯、詞性等)和評(píng)論者的行為(如發(fā)表時(shí)間、發(fā)表頻率、文章的第一審稿人等)。
多語(yǔ)種情感分析 目前大多數(shù)的情緒分析系統(tǒng)通常只涉及英語(yǔ),但網(wǎng)上的意見(jiàn)存在于更多的語(yǔ)言。只使用一種語(yǔ)言的情緒分析工具會(huì)極大地增加丟失用其他語(yǔ)言編寫(xiě)的重要信息的風(fēng)險(xiǎn)。為了解決這一難題,目前的方法主要是將極性信息與多語(yǔ)言詞嵌入相結(jié)合。
多模態(tài)情感分析 隨著社交多媒體的普及,多模態(tài)情感分析將帶來(lái)新的機(jī)遇,它將整合其他互補(bǔ)的數(shù)據(jù)流,如面部和聲音的顯示和表達(dá),往往以一種非常有力的方式表達(dá)情感。這樣做不僅能改進(jìn)基于文本的情緒分析,甚至還能超越它。難點(diǎn)在于如何在真實(shí)環(huán)境中提取視覺(jué)情感(低分辨率、主體運(yùn)動(dòng)),以及如何從音頻文本中可靠提取語(yǔ)言和副語(yǔ)言特征。
實(shí)時(shí)情感分析:全球每秒鐘都會(huì)產(chǎn)生大量的實(shí)時(shí)數(shù)據(jù),其中大部分是非結(jié)構(gòu)化的文本消息。如果我們能夠?qū)崟r(shí)分析這些數(shù)據(jù),我們不僅能快速發(fā)現(xiàn)問(wèn)題的答案,還能解決實(shí)時(shí)問(wèn)題。這將需要專(zhuān)門(mén)的預(yù)處理或分布式架構(gòu)的開(kāi)發(fā),這些架構(gòu)本身就致力于在線(xiàn)分析算法。
最后,論點(diǎn)挖掘是未來(lái)情感分析技術(shù)最具挑戰(zhàn)性的方向之一。情感分析是了解用戶(hù)對(duì)某些方面的看法,論證的目的是找出這些看法產(chǎn)生的原因和整體的推理路徑。
主要目標(biāo)是從通用文本語(yǔ)料庫(kù)中自動(dòng)提取參數(shù),為參數(shù)和推理引擎的計(jì)算模型提供結(jié)構(gòu)化數(shù)據(jù)。從理論上講,論點(diǎn)挖掘可以發(fā)現(xiàn)知識(shí),使我們能夠發(fā)現(xiàn)一般觀點(diǎn)的“正當(dāng)性”,例如(為什么人們會(huì)這樣想),為復(fù)雜的政治問(wèn)題生成細(xì)粒度的辯論圖,或者改進(jìn)一般觀點(diǎn)挖掘算法。論點(diǎn)挖掘與另一個(gè)新興的任務(wù)立場(chǎng)分類(lèi)高度相關(guān),其(更簡(jiǎn)單的)目標(biāo)是確定評(píng)論的作者是否支持評(píng)論的(通常)有爭(zhēng)議的目標(biāo)主題。挖掘論證是一項(xiàng)極具挑戰(zhàn)性的任務(wù),因?yàn)樗枰罅康某WR(shí)、全局知識(shí)、領(lǐng)域知識(shí)和上下文知識(shí)。人們提出了許多論證模型,并將其應(yīng)用于自動(dòng)識(shí)別,它們是文本論證標(biāo)注的基礎(chǔ)。
近年來(lái),深度學(xué)習(xí)模型被廣泛地應(yīng)用于模型上下文的論證挖掘中,對(duì)全局知識(shí)的獲取有很大的幫助。然而,這些模型在自動(dòng)從文本數(shù)據(jù)獲取常識(shí)和全局知識(shí)方面存在局限性。論證挖掘在某些方面可以看作是情感分析的一種演變:意見(jiàn)挖掘的目的是了解人對(duì)某事的看法,而論證挖掘的目的是了解為什么,即挖掘人的正反論點(diǎn),從而揭示推理過(guò)程。
情感分析是自然語(yǔ)言處理中最活躍的研究領(lǐng)域之一,但它還遠(yuǎn)遠(yuǎn)沒(méi)有成為一個(gè)可以解決的問(wèn)題。它涉及對(duì)詞匯、句法和語(yǔ)義規(guī)則的深刻理解,并結(jié)合背景知識(shí)。在大數(shù)據(jù)背景下,自然語(yǔ)言的內(nèi)在復(fù)雜性和新的具有挑戰(zhàn)性的情感分析任務(wù)意味著,在情感語(yǔ)言理解方面存在著比以往任何時(shí)候都更引人入勝的研究視角。我發(fā)現(xiàn)最鼓舞人心的是一些復(fù)雜的問(wèn)題,如檢測(cè)隱性的情緒、能夠處理多種語(yǔ)言、欺騙檢測(cè)、實(shí)時(shí)事件分析以及自動(dòng)獲取常識(shí)、全局和上下文知識(shí)。
—END—
英文原文:https://europe.naverlabs.com/blog/new-horizons-in-sentiment-analysis-research/
往期精彩回顧適合初學(xué)者入門(mén)人工智能的路線(xiàn)及資料下載機(jī)器學(xué)習(xí)在線(xiàn)手冊(cè)深度學(xué)習(xí)在線(xiàn)手冊(cè)AI基礎(chǔ)下載(pdf更新到25集)本站qq群1003271085,加入微信群請(qǐng)回復(fù)“加群”獲取一折本站知識(shí)星球優(yōu)惠券,請(qǐng)回復(fù)“知識(shí)星球”喜歡文章,點(diǎn)個(gè)在看
總結(jié)
以上是生活随笔為你收集整理的总结和展望:情感分析研究的新视野的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 这群工程师,业余时间将中文 NLP 推进
- 下一篇: 【白话机器学习】算法理论+实战之支持向量