當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

实体词典情感词典_人工智能技术落地：情感分析概述

發(fā)布時間：2024/1/23 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了实体词典情感词典_人工智能技术落地：情感分析概述小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

從自然語言處理技術(shù)的角度來看，情感分析的任務(wù)是從評論的文本中提取出評論的實(shí)體，以及評論者對該實(shí)體所表達(dá)的情感傾向，自然語言所有的核心技術(shù)問題。因此，情感分析被認(rèn)為是一個自然語言處理的子任務(wù)。

情感分析概述

與其他的人工智能技術(shù)相比，情感分析(Sentiment Analysis)顯得有些特殊，因?yàn)槠渌念I(lǐng)域都是根據(jù)客觀的數(shù)據(jù)來進(jìn)行分析和預(yù)測，但情感分析則帶有強(qiáng)烈的個人主觀因素。情感分析的目標(biāo)是從文本中分析出人們對于實(shí)體及其屬性所表達(dá)的情感傾向以及觀點(diǎn)，這項(xiàng)技術(shù)最早的研究始于2003年Nasukawa和Yi兩位學(xué)者的關(guān)于商品評論的論文。

隨著推特等社交媒體以及電商平臺的發(fā)展而產(chǎn)生大量帶有觀點(diǎn)的內(nèi)容，給情感分析提供了所需的數(shù)據(jù)基礎(chǔ)。時至今日，情感識別已經(jīng)在多個領(lǐng)域被廣泛的應(yīng)用。

例如：

在商品零售領(lǐng)域，用戶的評價(jià)對于零售商和生產(chǎn)商都是非常重要的反饋信息，通過對海量用戶的評價(jià)進(jìn)行情感分析，可以量化用戶對產(chǎn)品及其競品的褒貶程度，從而了解用戶對于產(chǎn)品的訴求以及自己產(chǎn)品與競品的對比優(yōu)劣。
在社會輿情領(lǐng)域，通過分析大眾對于社會熱點(diǎn)事件的點(diǎn)評可以有效的掌握輿論的走向。
在企業(yè)輿情方面，利用情感分析可以快速了解社會對企業(yè)的評價(jià)，為企業(yè)的戰(zhàn)略規(guī)劃提供決策依據(jù)，提升企業(yè)在市場中的競爭力。
在金融交易領(lǐng)域，分析交易者對于股票及其他金融衍生品的態(tài)度，為行情交易提供輔助依據(jù)。

目前，絕大多數(shù)的人工智能開放平臺都具備情感分析的能力，如圖所示：是玻森中文語義開放平臺的情感分析功能演示，可以看出除了通用領(lǐng)域的情感分析外，還有汽車、廚具、餐飲、新聞和微博幾個特定領(lǐng)域的分析。

玻森中文語義開放平臺的情感分析示例

那么到底什么是情感分析呢？

從自然語言處理技術(shù)的角度來看，情感分析的任務(wù)是從評論的文本中提取出評論的實(shí)體，以及評論者對該實(shí)體所表達(dá)的情感傾向，自然語言所有的核心技術(shù)問題，例如：詞匯語義，指代消解，此役小氣，信息抽取，語義分析等都會在情感分析中用到。

因此，情感分析被認(rèn)為是一個自然語言處理的子任務(wù)，我們可以將人們對于某個實(shí)體目標(biāo)的情感統(tǒng)一用一個五元組的格式來表示：(e,a,s,h,t)

e表示情感分析的目標(biāo)實(shí)體，可以是一個具體的實(shí)例，也可以是一個類，但必須是唯一的對象。
a表示實(shí)體e中一個觀點(diǎn)具體評價(jià)的屬性。
s表示對實(shí)體e的a屬性的觀點(diǎn)中所包含的情感，通常來講會分為正向褒義、負(fù)向貶義和中性三種分類。也可以通過回歸算法轉(zhuǎn)化為1星到5星的評價(jià)等級。
h是情感觀點(diǎn)的持有者，有可能是評價(jià)者本人，也有可能是其他人。
t是觀點(diǎn)發(fā)布的時間。

以圖為例，e是指某餐廳，a為該餐廳的性價(jià)比屬性，s是對該餐廳的性價(jià)比表示了褒義的評價(jià)，h為發(fā)表評論者本人，t是19年7月27日。所以這條評論的情感分析可以表示為五元組(某餐廳，性價(jià)比，正向褒義，評論者，19年7月27日)。

用戶對某餐廳的評價(jià)

情感分析根據(jù)處理文本顆粒度的不同，大致可以分為三個級別的任務(wù)，分別是篇章級、句子級和屬性級。

我們分別來看一下：

1. 篇章級情感分析

篇章級情感分析的目標(biāo)是判斷整篇文檔表達(dá)的是褒義還是貶義的情感，例如一篇書評，或者對某一個熱點(diǎn)時事新聞發(fā)表的評論，只要待分析的文本超過了一句話的范疇，即可視為是篇章級的情感分析。

對于篇章級的情感分析而言有一個前提假設(shè)，那就是全篇章所表達(dá)的觀點(diǎn)僅針對一個單獨(dú)的實(shí)體e，且只包含一個觀點(diǎn)持有者h(yuǎn)的觀點(diǎn)。

這種做法將整個文檔視為一個整體，不對篇章中包含的具體實(shí)體和實(shí)體屬性進(jìn)行研究，使得篇章級的情感分析在實(shí)際應(yīng)用中比較局限，無法對一段文本中的多個實(shí)體進(jìn)行單獨(dú)分析，對于文本中多個觀點(diǎn)持有者的觀點(diǎn)也無法辨別。

例如評價(jià)的文本是：“我覺得這款手機(jī)很棒。”

評價(jià)者表達(dá)的是對手機(jī)整體的褒義評價(jià)，但如果是：“我覺得這款手機(jī)拍照功能很不錯，但信號不是很好”這樣的句子，在同一個評論中出現(xiàn)了褒義詞又出現(xiàn)了貶義詞，篇章級的分析是無法分辨出來的，只能將其作為一個整體進(jìn)行分析。

不過好在有很多的場景是不需要區(qū)分觀點(diǎn)評價(jià)的實(shí)體和觀點(diǎn)持有者，例如：在商品評論的情感分析中，可以默認(rèn)評論的對象是被評論的商品，評論的觀點(diǎn)持有者也是評論者本人。

當(dāng)然，這個也需要看被評論的商品具體是什么東西，如果是親子旅游這樣的旅游服務(wù)，那么評論中就很有可能包含一個以上的觀點(diǎn)持有者。在實(shí)際工作中，篇章級的情感分析無法滿足我們對于評價(jià)更細(xì)致，如果需要對評論進(jìn)行更精確，更細(xì)致的分析，我們需要拆分篇章中的每一句話，這就是句子級的情感分析研究的問題。

2. 句子級情感分析

與篇章級的情感分析類似，句子級的情感分析任務(wù)是判斷一個句子表達(dá)的是褒義還是貶義的情感，雖然顆粒度到了句子層級，但是句子級分析與篇章級存在同樣的前提假設(shè)是，那就是一個句子只表達(dá)了一個觀點(diǎn)和一種情感，并且只有一個觀點(diǎn)持有人。

如果一個句子中包含了兩種以上的評價(jià)或多個觀點(diǎn)持有人的觀點(diǎn)，句子級的分析是無法分辨的。好在現(xiàn)實(shí)生活中，絕大多數(shù)的句子都只表達(dá)了一種情感。

既然句子級的情感分析在局限性上與篇章級是一樣的，那么進(jìn)行句子級的情感分析意義何在呢？

關(guān)于這個問題，需要先解釋一下語言學(xué)上主觀句與客觀句的分別。在我們?nèi)粘Ｓ谜Z當(dāng)中，根據(jù)語句中是否帶有說話人的主觀情感可以將句子分為主觀句和客觀句，例如：“我喜歡這款新手機(jī)。”就是一個主觀句，表達(dá)了說話人內(nèi)心的情感或觀點(diǎn)，而：“這個APP昨天更新了新功能。”則是一個客觀句，陳述的是一個客觀事實(shí)性信息，并不包含說話人內(nèi)心的主觀情感。

通過分辨一個句子是否是主觀句，可以幫助我們過濾掉一部分不含情感的句子，讓數(shù)據(jù)處理更有效率。

但是在實(shí)操過程中，我們會發(fā)現(xiàn)這樣的分類方法似乎并不是特別準(zhǔn)確，因?yàn)橐粋€主觀句也可能沒有表達(dá)任何的情感信息，知識表達(dá)了期望或者猜測。例如：“我覺得他現(xiàn)在已經(jīng)在回家的路上了。”這句話是一個主觀句，表達(dá)了說話人的猜測，但是并沒有表達(dá)出任何的情感。

而客觀句也有可能包含情感信息，表明說話者并不希望這個事實(shí)發(fā)生，例如：“昨天剛買的新車就被人刮花了。”這句話是一個客觀句，但結(jié)合常識我們會發(fā)現(xiàn)，這句話中其實(shí)是包含了說話人的負(fù)面情感。

所以，僅僅對句子進(jìn)行主客觀的分類還不足以達(dá)到對數(shù)據(jù)進(jìn)行過濾的要求，我們需要的是對句子是否含有情感信息進(jìn)行分類。如果一個句子直接表達(dá)或隱含了情感信息，則認(rèn)為這個句子是含有情感觀點(diǎn)的，對于不含情感觀點(diǎn)的句子則可以進(jìn)行過濾。

目前對于句子是否含有情感信息的分類技術(shù)大多都是采用有監(jiān)督的學(xué)習(xí)算法，這種方法需要大量的人工標(biāo)注數(shù)據(jù)，基于句子特征來對句子進(jìn)行分類。

總之，我們可以將句子級的情感分析分成兩步：

第一步是判斷待分析的句子是否含有觀點(diǎn)信息；
第二步則是針對這些含有觀點(diǎn)信息的句子進(jìn)行情感分析，發(fā)現(xiàn)其中情感的傾向性，判斷是褒義還是貶義。

關(guān)于分析情感傾向性的方法與篇章級類似，依然是可以采用監(jiān)督學(xué)習(xí)或根據(jù)情感詞詞典的方法來處理，我們會在后續(xù)的小節(jié)詳細(xì)講解。句子級的情感分析相較于篇章級而言，顆粒度更加細(xì)分，但同樣只能判斷整體的情感，忽略了對于被評價(jià)實(shí)體的屬性，同時它也無法判斷比較型的情感觀點(diǎn)。

例如：“A產(chǎn)品的用戶體驗(yàn)比B產(chǎn)品好多了。”對于這樣一句話中表達(dá)了多個情感的句子，我們不能將其簡單的歸類為褒義或貶義的情感，而是需要更進(jìn)一步的細(xì)化顆粒度，對評價(jià)實(shí)體的屬性進(jìn)行抽取，并將屬性與相關(guān)實(shí)體之間進(jìn)行關(guān)聯(lián)，這就是屬性級情感分析。

3. 屬性級情感分析

上文介紹的篇章級和句子級的情感分析，都無法確切的知道評價(jià)者喜歡和不喜歡的具體是什么東西，同時也無法區(qū)分對某一個被評價(jià)實(shí)體的A屬性持褒義傾向，對B屬性卻持貶義傾向的情況。但在實(shí)際的語言表達(dá)中，一個句子中可能包含了多個不同情感傾向的觀點(diǎn)。

例如：“我喜歡這家餐廳的裝修風(fēng)格，但菜的味道卻很一般。”類似于這樣的句子，很難通過篇章級和句子級的情感分析了解到對象的屬性層面。

為了在句子級分析的基礎(chǔ)上更加細(xì)化，我們需要從文本中發(fā)現(xiàn)或抽取評價(jià)的對象主體信息，并根據(jù)文本的上下文判斷評價(jià)者針對每一個屬性所表達(dá)的是褒義還是貶義的情感，這種就稱之為屬性級的情感分析。

屬性級的情感分析關(guān)注的是被評價(jià)實(shí)體及其屬性，包括評價(jià)者以及評價(jià)時間，目標(biāo)是挖掘與發(fā)現(xiàn)評論在實(shí)體及其屬性上的觀點(diǎn)信息，使之能夠生成有關(guān)目標(biāo)實(shí)體及其屬性完整的五元組觀點(diǎn)摘要。

具體到技術(shù)層面來看，屬性級的情感分析可以分為以下6個步驟：

實(shí)體抽取和消解：抽取文檔中所有涉及到實(shí)體的表達(dá)語句，并使用聚類方法將同一個實(shí)體的表達(dá)聚為一類，每一類都對應(yīng)唯一的一個實(shí)體。

屬性抽取和消解：抽取文檔中所有實(shí)體的屬性，并把這些屬性進(jìn)行聚類，每個屬性類別對應(yīng)對象實(shí)體唯一的一個屬性。

觀點(diǎn)持有者抽取和消解：抽取文檔中觀點(diǎn)的持有者，并將持有者進(jìn)行聚類，每個觀點(diǎn)持有者類別對應(yīng)唯一的一個觀點(diǎn)持有者。

時間抽取和標(biāo)準(zhǔn)化：抽取每個觀點(diǎn)的發(fā)布時間，并把不同時間的格式進(jìn)行標(biāo)準(zhǔn)化。

屬性的情感分類和回歸：對具體的屬性進(jìn)行情感分析，判斷它是褒義、貶義還是中性情感，或者通過回歸算法給屬性賦予一個數(shù)值化的情感得分，例如1至5分。

生成觀點(diǎn)五元組：使用任務(wù)1-6的結(jié)果構(gòu)造文檔中所有觀點(diǎn)的五元組。

關(guān)于文本中的實(shí)體抽取和指代消解問題，我們已經(jīng)在知識圖譜的相關(guān)章節(jié)中做了介紹，這里就不再贅述。針對篇章級、句子級、屬性級這三種類型的情感分析任務(wù)，人們做了大量的研究并提出了很多分類的方法，這些方法大致可以分為基于詞典和基于機(jī)器學(xué)習(xí)兩種，下面我們進(jìn)行詳細(xì)的講解。

基于詞典的情感分析

做情感分析離不開情感詞，情感詞是承載情感信息最基本的單元，除了基本的詞之外，一些包含了情感含義的短語和成語我們也將其統(tǒng)稱為情感詞。基于情感詞典的情感分析方法，主要是基于一個包含了已標(biāo)注的情感詞和短語的詞典，在這個詞典中包括了情感詞的情感傾向以及情感強(qiáng)度，一般將褒義的情感標(biāo)注為正數(shù)，貶義的情感標(biāo)注為負(fù)數(shù)。

具體的步驟如圖所示，首先將待分析的文本先進(jìn)行分詞，并對分詞后的結(jié)果做去除停用詞和無用詞等文本數(shù)據(jù)的預(yù)處理。然后將分詞的結(jié)果與情感詞典中的詞進(jìn)行匹配，并根據(jù)詞典標(biāo)注的情感分對文本進(jìn)行加法計(jì)算，最終的計(jì)算結(jié)果如果為正則是褒義情感，如果為負(fù)則是貶義情感，如果為0或情感傾向不明顯的得分則為中性情感或無情感。

基于詞典的情感分析流程

情感詞典是整個分析流程的核心，情感詞標(biāo)注數(shù)據(jù)的好壞直接決定了情感分類的結(jié)果，在這方面可以直接采用已有的開源情感詞典。例如：BosonNLP基于微博、新聞、論壇等數(shù)據(jù)來源構(gòu)建的情感詞典，知網(wǎng)(Hownet)情感詞典，臺灣大學(xué)簡體中文情感極性詞典(NTSUSD)，snownlp框架的詞典等，同時還可以使用哈工大整理的同義詞詞林拓展詞典作為輔助，通過這個詞典可以找到情感詞的同義詞，拓展情感詞典的范圍。

當(dāng)然，我們也可以根據(jù)業(yè)務(wù)的需要來自己訓(xùn)練情感詞典，目前主流的情感詞詞典有三種構(gòu)建方法：人工方法、基于字典的方法和基于語料庫的方法。

對于情感詞的情感賦值，最簡單的方法是將所有的褒義情感詞賦值為+1，貶義的情感詞賦值為-1，最后進(jìn)行相加得出情感分析的結(jié)果。但是這種賦值方式顯然不符合實(shí)際的需求，在實(shí)際的語言表達(dá)中，存在著非常多的表達(dá)方式可以改變情感的強(qiáng)度，最典型的就是程度副詞。

程度副詞分為兩種：

一種是可以加強(qiáng)情感詞原本的情感，這種稱之為情感加強(qiáng)詞，例如“很好”相較于“好”的情感程度會更強(qiáng)烈，“非常好”又比“很好”更強(qiáng)。另外一種是情感減弱詞，例如“沒那么好”雖然也是褒義傾向，但情感強(qiáng)度相較于“好”會弱很多。如果出現(xiàn)了增強(qiáng)詞，則需要在原來的賦值基礎(chǔ)上增加情感得分，如果出現(xiàn)了減弱詞則需要減少相應(yīng)的情感得分。

另一種需要注意的情況是否定詞，否定詞的出現(xiàn)一般會改變情感詞原本的情感傾向，變?yōu)橄喾吹那楦?#xff0c;例如“不好”就是在“好”前面加上了否定詞“不”，使之變成了貶義詞。

早期的研究會將否定詞搭配的情感詞直接取相反數(shù)，即如果“好”的情感傾向是+1，那么“不好”的情感傾向就是-1。但是這種簡單粗暴的規(guī)則無法對應(yīng)上真實(shí)的表達(dá)情感，例如“太好”是一個比“好”褒義傾向更強(qiáng)的詞，如果“好”的值為+1，那么“太好”可以賦值為+3，加上否定詞的“不太好”變成-3則顯然有點(diǎn)過于貶義了，將其賦值為-1或者-0.5可能更合適。

基于這種情況，我們可以對否定詞也添加上程度的賦值而不是簡單的取相反數(shù)，對于表達(dá)強(qiáng)烈否定的詞例如“不那么”賦值為±4。當(dāng)遇到與褒義詞的組合時褒義詞則取負(fù)數(shù)，與貶義詞的組合則取正數(shù)，例如貶義詞“難聽”的賦值是-3，加上否定詞變成“不那么難聽”的情感得分就會是(-3+4=1)。

第三種需要注意的情況是條件詞，如果一個條件詞出現(xiàn)在句子中，則這個句子很可能不適合用來做情感分析，例如“如果我明天可以去旅行，那么我一定會非常開心。”，在這句話中有明顯的褒義情感詞，但是因?yàn)榇嬖跅l件詞“如果”，使得這個句子的并沒有表達(dá)觀點(diǎn)持有者的真實(shí)情感，而是一種假設(shè)。

除了條件句之外，還有一種語言表達(dá)也是需要在數(shù)據(jù)預(yù)處理階段進(jìn)行排除的，那就是疑問句。

例如“這個餐廳真的有你說的那么好嗎？”，雖然句子中出現(xiàn)了很強(qiáng)烈的褒義情感詞“那么好”，但依然不能將它分類為褒義句。疑問句通常會有固定的結(jié)尾詞，例如“……嗎？”或者“……么？”，但是也有的疑問句會省略掉結(jié)尾詞，直接使用標(biāo)點(diǎn)符號“？”，例如“你今天是不是不開心？”，這個句子中含有否定詞和褒義詞組成的“不開心”，但不能將其分類為貶義情感。

最后一種需要注意的情況是轉(zhuǎn)折詞，典型詞是“但是”，出現(xiàn)在轉(zhuǎn)折詞之前的情感傾向通常與轉(zhuǎn)折詞之后的情感傾向相反，例如：“我上次在這家酒店的住宿體驗(yàn)非常好，但是這次卻讓我很失望。”在這個轉(zhuǎn)折句中，轉(zhuǎn)折詞之前的“非常好”是一個很強(qiáng)的褒義詞，但真實(shí)的情感表達(dá)卻是轉(zhuǎn)折詞之后的“很失望”，最終應(yīng)該將其分類為貶義情感。

當(dāng)然，也存在出現(xiàn)了轉(zhuǎn)折詞，但語句本身的情感并沒有發(fā)生改變的情況，例如“你這次考試比上次有了很大的進(jìn)步，但是我覺得你可以做得更好”，這里的轉(zhuǎn)折詞沒有轉(zhuǎn)折含義，而是一種遞進(jìn)含義。

在實(shí)際操作中，我們所以需要先判斷轉(zhuǎn)折句真實(shí)的情感表達(dá)到底是哪個，才能進(jìn)行正確的分析計(jì)算。

構(gòu)建情感詞典是一件比較耗費(fèi)人工的事情，除了上述需要注意的問題外，還存在精準(zhǔn)度不高，新詞和網(wǎng)絡(luò)用語難以快速收錄進(jìn)詞典等問題，同時基于詞典的分析方法也存在很多的局限性。

例如一個句子可能出現(xiàn)了情感詞，但并沒有表達(dá)情感。或者一個句子不含任何情感詞，但卻蘊(yùn)含了說話人的情感。以及部分情感詞的含義會隨著上下文語境的變化而變化的問題，例如“精明”這個詞可以作為褒義詞夸獎他人，也可以作為貶義詞批評他人。

盡管目前存在諸多問題，但基于字典的情感分析方法也有著不可取代的優(yōu)勢，那就是這種分析方法通用性較強(qiáng)，大多數(shù)情況下無需特別的領(lǐng)域數(shù)據(jù)標(biāo)注就可以分析文本所表達(dá)的情感，對于通用領(lǐng)域的情感分析可以將其作為首選的方案。

基于機(jī)器學(xué)習(xí)的情感識別

我們在機(jī)器學(xué)習(xí)算法的章節(jié)介紹過很多分類算法，例如邏輯回歸、樸素貝葉斯、KNN等，這些算法都可以用于情感識別。

具體的做法與機(jī)器學(xué)習(xí)一樣需要分為兩個步驟：第一步是根據(jù)訓(xùn)練數(shù)據(jù)構(gòu)建算法模型；第二步是將測試數(shù)據(jù)輸入到算法模型中輸出對應(yīng)的結(jié)果，接下來做具體的講解。

首先，我們需要準(zhǔn)備一些訓(xùn)練用的文本數(shù)據(jù)，并人工給這些數(shù)據(jù)做好情感分類的標(biāo)注。通常的做法下：如果是褒義和貶義的兩分類，則褒義標(biāo)注為1，貶義標(biāo)注為0，如果是褒義、貶義和中性三分類，則褒義標(biāo)注為1，中性標(biāo)注為0，貶義標(biāo)注為-1。

在這一環(huán)節(jié)中如果用純?nèi)斯し椒▉磉M(jìn)行標(biāo)注，可能會因?yàn)閭€人主觀因素對標(biāo)注的結(jié)果造成一定影響，為了避免人的因素帶來的影響，也為了提高標(biāo)注的效率，有一些其他取巧的方法來對數(shù)據(jù)進(jìn)行自動標(biāo)注。

比如：在電商領(lǐng)域中，商品的評論除了文本數(shù)據(jù)之外通常還會帶有一個5星的等級評分，我們可以根據(jù)用戶的5星評分作為標(biāo)注依據(jù)，如果是1-2星則標(biāo)注為貶義，如果是3星標(biāo)注為中性，4-5星標(biāo)注為褒義。

又比如：在社區(qū)領(lǐng)域中，很多社區(qū)會對帖子有贊和踩的功能，這一數(shù)據(jù)也可以作為情感標(biāo)注的參考依據(jù)。

第二步是將標(biāo)注好情感傾向的文本進(jìn)行分詞，并進(jìn)行數(shù)據(jù)的預(yù)處理，前文已經(jīng)對分詞有了很多的介紹，這里就不再過多的贅述。

第三步是從分詞的結(jié)果中標(biāo)注出具備情感特征的詞，這里特別說一下，如果是對情感進(jìn)行分類，可以參考情感詞典進(jìn)行標(biāo)注，也可以采用TF-IDF算法自動抽取出文檔的特征詞進(jìn)行標(biāo)注。如果分析的是某個特定領(lǐng)域的，還需要標(biāo)注出特定領(lǐng)域的詞，例如做商品評價(jià)的情感分析，需要標(biāo)注出商品名稱，品類名稱，屬性名稱等。

第四步根據(jù)分詞統(tǒng)計(jì)詞頻構(gòu)建詞袋模型，形成特征詞矩陣，如表所示。在這一步可以根據(jù)業(yè)務(wù)需要給每個特征詞賦予權(quán)重，并通過詞頻乘以權(quán)重得到特征詞分?jǐn)?shù)。

最后一步就是根據(jù)分類算法，將特征詞矩陣作為輸入數(shù)據(jù)，得到最終的分類模型。

當(dāng)訓(xùn)練好分類模型之后，就可以對測試集進(jìn)行分類了，具體的流程與建模流程類似，先對測試的文本數(shù)據(jù)進(jìn)行分詞并做數(shù)據(jù)預(yù)處理，然后根據(jù)特征詞矩陣抽取測試文本的特征詞構(gòu)建詞袋矩陣，并將詞袋矩陣的詞頻數(shù)據(jù)作為輸入數(shù)據(jù)代入之前訓(xùn)練好的模型進(jìn)行分類，得到分類的結(jié)果。

采用基于機(jī)器學(xué)習(xí)的方法進(jìn)行情感分析有以下幾個不足之處：

第一是每一個應(yīng)用領(lǐng)域之間的語言描述差異導(dǎo)致了訓(xùn)練得到的分類模型不能應(yīng)用與其他的領(lǐng)域，需要單獨(dú)構(gòu)建。
第二是最終的分類效果取決于訓(xùn)練文本的選擇以及正確的情感標(biāo)注，而人對于情感的理解帶有主觀性，如果標(biāo)注出現(xiàn)偏差就會對最終的結(jié)果產(chǎn)生影響。

除了基于詞典和基于機(jī)器學(xué)習(xí)的方法，也有一些學(xué)者將兩者結(jié)合起來使用，彌補(bǔ)兩種方法的缺點(diǎn)，比單獨(dú)采用一種方法的分類效果要更好。

另外，也有學(xué)者嘗試使用基于LSTM等深度學(xué)習(xí)的方法對情感進(jìn)行分析，相信在未來，情感分析會應(yīng)用在更多的產(chǎn)品中，幫助我們更好的理解用戶需求，提升用戶使用智能產(chǎn)品的體驗(yàn)。

情感識別的困難與挑戰(zhàn)

隨著深度神經(jīng)網(wǎng)絡(luò)等算法的應(yīng)用，情感分析的研究方向已經(jīng)有了非常大的進(jìn)展，但依然存在著一些難題是目前尚未解決的，在實(shí)操過程中需特別注意以下幾種類型數(shù)據(jù)：

(1)顏文字、emoji和表情包

互聯(lián)網(wǎng)上的交流不僅僅只是通過單純的文字來進(jìn)行，大量的情感表達(dá)是通過顏文字或表情包來實(shí)現(xiàn)的，例如經(jīng)典的表示笑臉的顏文字“:D”，這類文本表達(dá)無法與上下文形成聯(lián)系，所以很難判斷他們評價(jià)的實(shí)體對象是什么。

不過好在這類數(shù)據(jù)本身就代表了非常強(qiáng)烈的情感傾向，在篇章級和句子級的顆粒度對情感進(jìn)行分析，我們可以將特定的顏文字作為一種特殊的詞組構(gòu)建成情感字典，并人工進(jìn)行情感分的賦值，對于emoji表情也可以將標(biāo)準(zhǔn)的emoji編碼編入情感字典。而對于表情包的識別則是一個計(jì)算機(jī)視覺的問題，目前還沒有學(xué)者在這個領(lǐng)域方向展開研究。

(2)諷刺句

諷刺語句是一種比較特殊的情感表達(dá)語句，諷刺語句的語言組織形式從字面上來看可能是褒義，但實(shí)際的含義卻是貶義，或者字面是貶義但實(shí)際卻是褒義。

例如：“太棒了！這家外賣治好了我多年的便秘！”

諷刺句在情感分析中是非常難以處理的，因?yàn)橐直孢@類語句的含義，通常來講需要結(jié)合常識或者是相關(guān)的背景知識才可以了解，僅僅通過上下文是無法正確解讀諷刺句的含義的。在對商品的評價(jià)語中，諷刺句并不常見，但在輿論或社會新聞的評價(jià)中，諷刺句則比較常見，識別出諷刺句是情感分析分析方向的一個研究難點(diǎn)。

(3)比較句

比較語句也是一種特殊的情感表達(dá)句，例如：“我覺得這件衣服很適合我，但我更喜歡那一件。”

這類比較語句中通常存在著兩個以上的實(shí)體或?qū)傩?#xff0c;如果只是在句子級的顆粒度下可以辨別出這句話是含有褒義的情感，但在屬性級的顆粒度下，以情感五元組來定義的情感無法將一個實(shí)體作為另一個實(shí)體的屬性來進(jìn)行判斷，很難分辨觀點(diǎn)持有者到底是在對哪一個實(shí)體或?qū)傩员磉_(dá)情感。而這類語句在商品的評論中有非常常見，需要特別注意。

(4)情緒分類

目前對于情感的分析依然處于初級階段，僅僅只是對情感做了褒義、貶義、中性三種劃分，但現(xiàn)實(shí)生活中的情緒遠(yuǎn)遠(yuǎn)不止這三種類型，例如：在心理學(xué)領(lǐng)域中，著名的心理學(xué)家羅伯特·普拉切克(Robert Plutchik)提出的情緒輪包含了8種基本情緒，并且每種情緒又劃分了不同的情緒強(qiáng)度等級，8種情緒還可以相互結(jié)合形成更多的情緒，如圖所示。

普拉切克的情緒輪

情緒輪在用戶體驗(yàn)設(shè)計(jì)上被廣泛的應(yīng)用，很多情感化設(shè)計(jì)都是基于情緒輪進(jìn)行的。但是在人工智能領(lǐng)域，將情緒進(jìn)行多分類比情感分析的三分類任務(wù)要難得多，目前大多數(shù)分類方法的結(jié)果準(zhǔn)確性都不到50%。

這是因?yàn)榍榫w本身包含了太多的類別，而且不同的類別之間又可能具有相似性，一個情緒詞在不同的語境下有可能表達(dá)的是不同的情緒類別，算法很難對其進(jìn)行分類。即使是人工對文本進(jìn)行情緒類別標(biāo)注也往往效果不佳，因?yàn)榍榫w是非常主觀性的，不同的人對不同的文本可能產(chǎn)生不同的理解，這使得人工標(biāo)注情緒類比的過程異常困難。

如何讓機(jī)器可以理解真實(shí)的情緒，目前還是一個未能攻克的難題。

本文由 @黃瀚星原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載

題圖來自Unsplash，基于CC0協(xié)議

總結(jié)

以上是生活随笔為你收集整理的实体词典情感词典_人工智能技术落地：情感分析概述的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python中multiple函数_关于
下一篇： 9适应之力加多少攻击_剑盾铠之孤岛DLC