當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

总结和展望：情感分析研究的新视野

發(fā)布時(shí)間：2025/3/8 编程问答 47 豆豆

生活随笔收集整理的這篇文章主要介紹了总结和展望：情感分析研究的新视野小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者：Caroline Brun? ? ?編譯：ronghuaiyang

導(dǎo)讀

本文對(duì)情感分析研究領(lǐng)域做了非常好的總結(jié)和展望。

假新聞、受歡迎程度、健康狀況、金融和社會(huì)風(fēng)險(xiǎn)：情感分析正在幫助理解這一切。甚至可能引導(dǎo)我們理解為什么。。。

人們從一開(kāi)始就對(duì)彼此的觀點(diǎn)感興趣，這是很自然的。然而，分析觀點(diǎn)的科學(xué)工作可以追溯到20世紀(jì)初，當(dāng)時(shí)人們?cè)噲D從問(wèn)卷中獲取、分析和量化公眾意見(jiàn)。與此同時(shí)，學(xué)術(shù)期刊“Public Opinion Quarterly”于1937年出版。然而，正是社交媒體平臺(tái)的出現(xiàn)和采用導(dǎo)致了“情感分析”研究領(lǐng)域的誕生，以分析這種大規(guī)模的在線(xiàn)非結(jié)構(gòu)化意見(jiàn)資源。

一般來(lái)說(shuō)，情感分析利用文本分析來(lái)獲取公眾意見(jiàn)。它是自然語(yǔ)言處理(NLP)最有吸引力的用例之一，業(yè)界和學(xué)術(shù)界對(duì)此都很感興趣。在情感分析中，基于nlp的數(shù)據(jù)挖掘過(guò)程和技術(shù)被應(yīng)用于從用戶(hù)生成內(nèi)容(UGC)中提取和分析主觀信息，其中大部分來(lái)自社交媒體(因?yàn)樯缃幻襟w太多了)。

它允許你衡量對(duì)某些產(chǎn)品、人或想法的情感(意見(jiàn)，但也包括情感)。情感分析傳統(tǒng)上是關(guān)于意見(jiàn)的極性，即一個(gè)人是否對(duì)某人或某事有積極的、中立的或消極的看法，但它也可以是關(guān)于一個(gè)人或物體的特定方面。

它的流行自然源于它的廣泛用途?？蛻?hù)服務(wù)、商業(yè)智能和產(chǎn)品或品牌聲譽(yù)管理等商業(yè)應(yīng)用尤其突出。在醫(yī)療保健領(lǐng)域，它可以用于檢測(cè)藥物不良反應(yīng)的異常。它可以幫助監(jiān)控金融市場(chǎng)的犯罪活動(dòng)或情緒，但也可以衡量公眾如何看待政治候選人。

如今，任何事件都可以在社交媒體上以閃電般的速度發(fā)布、查看、評(píng)論和分享，潛在的數(shù)百萬(wàn)人都可以參與其中。情感分析是一個(gè)重要工具，可以幫助人們理解所有事件，并在必要時(shí)做出反應(yīng)。

情感分析是如何隨著時(shí)間演變的

隨著社交媒體渠道的發(fā)展，情感分析的研究任務(wù)和方法也在不斷增加。在它的初期，情感分析僅僅是給英語(yǔ)語(yǔ)言的客戶(hù)評(píng)論分配一個(gè)全局的，全面的極性標(biāo)簽(積極的，消極的，有時(shí)是中立的)。現(xiàn)階段的研究包括了句子級(jí)別的主題檢測(cè)，基于不同aspect的情感分析，在比喻型語(yǔ)言上的情感分析，基于主題的極性分類(lèi)，事件的隱性的的極性分類(lèi)，比如在沒(méi)有顯式的極性標(biāo)記被提起的情況下，識(shí)別“pleasant”或者“unpleasant”事件。情感分類(lèi)，現(xiàn)在更多的是在一個(gè)寬泛的多樣的語(yǔ)言上和多種媒體資源上（使用Twitter數(shù)據(jù)已經(jīng)成為必須品的了）進(jìn)行立場(chǎng)的檢測(cè)和論據(jù)的挖掘。任務(wù)的定義隨后發(fā)展為更復(fù)雜的挑戰(zhàn)，其中主觀性、極性識(shí)別和意見(jiàn)挖掘已經(jīng)使用細(xì)粒度的aspect和基于主題的預(yù)測(cè)變得更加豐富了。極性這個(gè)概念已經(jīng)被心理學(xué)研究中定義的情感模型所補(bǔ)充。

情緒分析的方法、算法和資源也在不斷發(fā)展?，F(xiàn)有的研究已經(jīng)產(chǎn)生了許多不同任務(wù)的技術(shù)，包括監(jiān)督和非監(jiān)督的方法。在監(jiān)督環(huán)境下，早期的論文使用了各種監(jiān)督機(jī)器學(xué)習(xí)方法(如支持向量機(jī)、最大熵、樸素貝葉斯等)和特征組合。非監(jiān)督方法包括利用情感詞匯、語(yǔ)法分析和句法模型的方法。近年來(lái)，深度學(xué)習(xí)在其他領(lǐng)域的成功和普及導(dǎo)致了它在情緒分析中的應(yīng)用，經(jīng)常使用詞嵌入來(lái)表示輸入文本。

在情感分類(lèi)方面，遞歸神經(jīng)網(wǎng)絡(luò)(RNN)特別是長(zhǎng)短時(shí)記憶(LSTM)網(wǎng)絡(luò)及其捕獲長(zhǎng)距離依賴(lài)關(guān)系的能力已經(jīng)取得了極性分類(lèi)的最新成果。注意力模型也已經(jīng)被證明可以提供有趣的結(jié)果，因?yàn)樗鼈兛梢圆东@句子中有關(guān)aspects的重要信息。

NLP與深度學(xué)習(xí)方法并存。經(jīng)典的NLP方法利用語(yǔ)言先驗(yàn)知識(shí)來(lái)降低監(jiān)督水平，以保證在包括情感分析在內(nèi)的各種任務(wù)上的準(zhǔn)確性。深度學(xué)習(xí)方法的主要缺點(diǎn)是需要大量帶標(biāo)注的數(shù)據(jù)。這意味著一定的成本，特別是對(duì)于復(fù)雜和結(jié)構(gòu)化的語(yǔ)義。鑒于這一點(diǎn)，當(dāng)前的研究趨勢(shì)提倡整合先驗(yàn)語(yǔ)法知識(shí)用到深度學(xué)習(xí)架構(gòu)中用于文本分析，還有一些工作得到了情感分析方面的有趣的結(jié)果。

長(zhǎng)期存在的挑戰(zhàn)和新的領(lǐng)域

盡管在情感分析上，越來(lái)越多的研究取得了進(jìn)展，但處理文本中的“‘a(chǎn)ffective phenomena”，如主體性、aspects、情感、情緒、語(yǔ)氣、態(tài)度和感受，已被證明是一個(gè)復(fù)雜的、跨學(xué)科的問(wèn)題，遠(yuǎn)遠(yuǎn)沒(méi)有得到解決。必須考慮許多參數(shù)，如作者的個(gè)人資料、文本類(lèi)型、樣式、域、文檔來(lái)源、目標(biāo)語(yǔ)言和最終應(yīng)用的目標(biāo)。公開(kāi)的實(shí)驗(yàn)結(jié)果(通常在相對(duì)有利的環(huán)境中獲得)與系統(tǒng)在真實(shí)環(huán)境中獲得的結(jié)果之間也存在差距。

自然語(yǔ)言

準(zhǔn)確的情緒分析的主要障礙一直是自然語(yǔ)言，現(xiàn)在仍然是，原因有很多。

自然語(yǔ)言是模糊的，詞可能有不同的極性方向，這取決于上下文和領(lǐng)域。例如，形容詞“predictable”在描述電影結(jié)尾時(shí)可能是否定的，但在描述產(chǎn)品質(zhì)量時(shí)可能是肯定的。

為了表達(dá)自己的觀點(diǎn)，人們經(jīng)常使用形象化的語(yǔ)言，如反諷和諷刺。這些對(duì)于NLP來(lái)說(shuō)是極具挑戰(zhàn)性的任務(wù)，在這些任務(wù)中，機(jī)器學(xué)習(xí)方法很容易被具有強(qiáng)烈極性的詞匯誤導(dǎo)，但這些詞匯卻被諷刺地使用(意思是相反的極性是有意的)。

否定(虛假性的表達(dá))和模態(tài)(必然性、可容許性和概率的表達(dá)，例如"應(yīng)該是"或"可能是")是復(fù)雜的語(yǔ)言現(xiàn)象，它們對(duì)表達(dá)觀點(diǎn)時(shí)所使用的表達(dá)方式的語(yǔ)義有很大的影響。處理否定的場(chǎng)景和的模態(tài)在情感分析中尤為重要。

理解上下文是理解觀點(diǎn)的必要條件。指代消解，即分辨代詞或名詞短語(yǔ)所指的人或物，是NLP技術(shù)面臨的一個(gè)眾所周知的挑戰(zhàn)，也是理解觀點(diǎn)的重要一步。

最后，UGC中充斥著隱含情緒(事實(shí)性表達(dá)，暗示積極或消極情緒)，例如“She is still looking for another Oscar nod. Not here though”中暗含推理的語(yǔ)句。這些表達(dá)與可用的和不可用的事實(shí)或行為有關(guān)，但不要使用自以為是的詞匯，這意味著很難自動(dòng)捕獲它們。

挑戰(zhàn)性的任務(wù)

情感分析在本質(zhì)上是具有挑戰(zhàn)性的，但人們對(duì)其他相關(guān)任務(wù)的興趣越來(lái)越大，而這些任務(wù)可能會(huì)更加困難。

基于aspect的情感分析 (ABSA)旨在捕捉用戶(hù)生成的評(píng)論中對(duì)產(chǎn)品、電影、公司等實(shí)體的不同方面所表達(dá)的情感。Aspect是一個(gè)實(shí)體的屬性，例如手機(jī)屏幕(相對(duì)于它的重量或大小等)，餐館的服務(wù)(相對(duì)于位置或價(jià)格等)，或相機(jī)的圖像質(zhì)量等。它可以由與實(shí)體相關(guān)聯(lián)的本體來(lái)描述。ABSA意味著識(shí)別一個(gè)實(shí)體的不同aspect以及相應(yīng)的情感。特別是隨著SemEval挑戰(zhàn)賽致力于這個(gè)方面，對(duì)這個(gè)任務(wù)的興趣最近有所增加。除了基本的基線(xiàn)檢測(cè)之外，它正成為情感分析的“標(biāo)準(zhǔn)”任務(wù)。我們開(kāi)發(fā)的一個(gè)ABSA系統(tǒng)獲得的結(jié)果在2016年SemEval挑戰(zhàn)賽的最佳結(jié)果。我們現(xiàn)在將它集成到地圖搜索引擎中，以創(chuàng)建感興趣點(diǎn)的感知地圖搜索。我們也調(diào)查了ABSA在最終的應(yīng)用設(shè)置上的評(píng)價(jià)，并為此創(chuàng)造了一個(gè)新的ABSA標(biāo)注數(shù)據(jù)集(基于FourSquare數(shù)據(jù))，可以從這個(gè)網(wǎng)站(http://www.europe.naverlabs.com/Research/Natural-Language-Processing/Aspect-Based-Sentiment-Analysis-Dataset)下載。

情緒分析，檢測(cè)并識(shí)別文本中的情緒類(lèi)型，如憤怒、厭惡、恐懼、快樂(lè)、悲傷和驚訝。根據(jù)美國(guó)心理學(xué)家Paul Ekman和Wallace V. Friesen的理論，這六種基本情緒是最廣泛使用的。這里最大的挑戰(zhàn)之一是，在大多數(shù)情況下，情緒是隱含在文本中的，例如，一個(gè)句子中可能有“憤怒”的元素，但是沒(méi)有使用“憤怒”這個(gè)詞或它的任何同義詞。再加上沒(méi)有標(biāo)注過(guò)的文本數(shù)據(jù)，這使它變得更加困難。目前通常使用標(biāo)準(zhǔn)的分類(lèi)技術(shù)，結(jié)合WordNet Affect或SentiWordnet等資源，輔以隱含情緒獲取常識(shí)知識(shí)。

垃圾內(nèi)容和虛假檢測(cè)：虛假評(píng)論和虛假新聞是一個(gè)緊密相關(guān)的現(xiàn)象，它們都是由寫(xiě)作和傳播虛假信息或信仰組成的。這里最大的挑戰(zhàn)是缺乏一種有效的方法來(lái)區(qū)分真實(shí)的評(píng)論和虛假的評(píng)論。即使是人類(lèi)也很難分辨出其中的區(qū)別。再一次，我們面臨著嚴(yán)重缺乏ground truth數(shù)據(jù)集來(lái)幫助我們。大多數(shù)方法關(guān)注于評(píng)論的內(nèi)容(評(píng)論的長(zhǎng)度、特定的詞匯、詞性等)和評(píng)論者的行為(如發(fā)表時(shí)間、發(fā)表頻率、文章的第一審稿人等)。

多語(yǔ)種情感分析 目前大多數(shù)的情緒分析系統(tǒng)通常只涉及英語(yǔ)，但網(wǎng)上的意見(jiàn)存在于更多的語(yǔ)言。只使用一種語(yǔ)言的情緒分析工具會(huì)極大地增加丟失用其他語(yǔ)言編寫(xiě)的重要信息的風(fēng)險(xiǎn)。為了解決這一難題，目前的方法主要是將極性信息與多語(yǔ)言詞嵌入相結(jié)合。

多模態(tài)情感分析 隨著社交多媒體的普及，多模態(tài)情感分析將帶來(lái)新的機(jī)遇，它將整合其他互補(bǔ)的數(shù)據(jù)流，如面部和聲音的顯示和表達(dá)，往往以一種非常有力的方式表達(dá)情感。這樣做不僅能改進(jìn)基于文本的情緒分析，甚至還能超越它。難點(diǎn)在于如何在真實(shí)環(huán)境中提取視覺(jué)情感(低分辨率、主體運(yùn)動(dòng))，以及如何從音頻文本中可靠提取語(yǔ)言和副語(yǔ)言特征。

實(shí)時(shí)情感分析：全球每秒鐘都會(huì)產(chǎn)生大量的實(shí)時(shí)數(shù)據(jù)，其中大部分是非結(jié)構(gòu)化的文本消息。如果我們能夠?qū)崟r(shí)分析這些數(shù)據(jù)，我們不僅能快速發(fā)現(xiàn)問(wèn)題的答案，還能解決實(shí)時(shí)問(wèn)題。這將需要專(zhuān)門(mén)的預(yù)處理或分布式架構(gòu)的開(kāi)發(fā)，這些架構(gòu)本身就致力于在線(xiàn)分析算法。

最后，論點(diǎn)挖掘是未來(lái)情感分析技術(shù)最具挑戰(zhàn)性的方向之一。情感分析是了解用戶(hù)對(duì)某些方面的看法，論證的目的是找出這些看法產(chǎn)生的原因和整體的推理路徑。

主要目標(biāo)是從通用文本語(yǔ)料庫(kù)中自動(dòng)提取參數(shù)，為參數(shù)和推理引擎的計(jì)算模型提供結(jié)構(gòu)化數(shù)據(jù)。從理論上講，論點(diǎn)挖掘可以發(fā)現(xiàn)知識(shí)，使我們能夠發(fā)現(xiàn)一般觀點(diǎn)的“正當(dāng)性”，例如(為什么人們會(huì)這樣想)，為復(fù)雜的政治問(wèn)題生成細(xì)粒度的辯論圖，或者改進(jìn)一般觀點(diǎn)挖掘算法。論點(diǎn)挖掘與另一個(gè)新興的任務(wù)立場(chǎng)分類(lèi)高度相關(guān)，其(更簡(jiǎn)單的)目標(biāo)是確定評(píng)論的作者是否支持評(píng)論的(通常)有爭(zhēng)議的目標(biāo)主題。挖掘論證是一項(xiàng)極具挑戰(zhàn)性的任務(wù)，因?yàn)樗枰罅康某ＷR(shí)、全局知識(shí)、領(lǐng)域知識(shí)和上下文知識(shí)。人們提出了許多論證模型，并將其應(yīng)用于自動(dòng)識(shí)別，它們是文本論證標(biāo)注的基礎(chǔ)。

近年來(lái)，深度學(xué)習(xí)模型被廣泛地應(yīng)用于模型上下文的論證挖掘中，對(duì)全局知識(shí)的獲取有很大的幫助。然而，這些模型在自動(dòng)從文本數(shù)據(jù)獲取常識(shí)和全局知識(shí)方面存在局限性。論證挖掘在某些方面可以看作是情感分析的一種演變：意見(jiàn)挖掘的目的是了解人對(duì)某事的看法，而論證挖掘的目的是了解為什么，即挖掘人的正反論點(diǎn)，從而揭示推理過(guò)程。

情感分析是自然語(yǔ)言處理中最活躍的研究領(lǐng)域之一，但它還遠(yuǎn)遠(yuǎn)沒(méi)有成為一個(gè)可以解決的問(wèn)題。它涉及對(duì)詞匯、句法和語(yǔ)義規(guī)則的深刻理解，并結(jié)合背景知識(shí)。在大數(shù)據(jù)背景下，自然語(yǔ)言的內(nèi)在復(fù)雜性和新的具有挑戰(zhàn)性的情感分析任務(wù)意味著，在情感語(yǔ)言理解方面存在著比以往任何時(shí)候都更引人入勝的研究視角。我發(fā)現(xiàn)最鼓舞人心的是一些復(fù)雜的問(wèn)題，如檢測(cè)隱性的情緒、能夠處理多種語(yǔ)言、欺騙檢測(cè)、實(shí)時(shí)事件分析以及自動(dòng)獲取常識(shí)、全局和上下文知識(shí)。

—END—

英文原文：https://europe.naverlabs.com/blog/new-horizons-in-sentiment-analysis-research/

往期精彩回顧適合初學(xué)者入門(mén)人工智能的路線(xiàn)及資料下載機(jī)器學(xué)習(xí)在線(xiàn)手冊(cè)深度學(xué)習(xí)在線(xiàn)手冊(cè)AI基礎(chǔ)下載（pdf更新到25集）本站qq群1003271085，加入微信群請(qǐng)回復(fù)“加群”獲取一折本站知識(shí)星球優(yōu)惠券，請(qǐng)回復(fù)“知識(shí)星球”喜歡文章，點(diǎn)個(gè)在看

總結(jié)

以上是生活随笔為你收集整理的总结和展望：情感分析研究的新视野的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：这群工程师，业余时间将中文 NLP 推进
下一篇：【白话机器学习】算法理论+实战之支持向量