日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

实体词典 情感词典_人工智能技术落地:情感分析概述

發(fā)布時間:2024/1/23 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 实体词典 情感词典_人工智能技术落地:情感分析概述 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

從自然語言處理技術(shù)的角度來看,情感分析的任務(wù)是從評論的文本中提取出評論的實(shí)體,以及評論者對該實(shí)體所表達(dá)的情感傾向,自然語言所有的核心技術(shù)問題。因此,情感分析被認(rèn)為是一個自然語言處理的子任務(wù)。

情感分析概述

與其他的人工智能技術(shù)相比,情感分析(Sentiment Analysis)顯得有些特殊,因?yàn)槠渌念I(lǐng)域都是根據(jù)客觀的數(shù)據(jù)來進(jìn)行分析和預(yù)測,但情感分析則帶有強(qiáng)烈的個人主觀因素。情感分析的目標(biāo)是從文本中分析出人們對于實(shí)體及其屬性所表達(dá)的情感傾向以及觀點(diǎn),這項(xiàng)技術(shù)最早的研究始于2003年Nasukawa和Yi兩位學(xué)者的關(guān)于商品評論的論文。

隨著推特等社交媒體以及電商平臺的發(fā)展而產(chǎn)生大量帶有觀點(diǎn)的內(nèi)容,給情感分析提供了所需的數(shù)據(jù)基礎(chǔ)。時至今日,情感識別已經(jīng)在多個領(lǐng)域被廣泛的應(yīng)用。

例如:

  • 在商品零售領(lǐng)域,用戶的評價(jià)對于零售商和生產(chǎn)商都是非常重要的反饋信息,通過對海量用戶的評價(jià)進(jìn)行情感分析,可以量化用戶對產(chǎn)品及其競品的褒貶程度,從而了解用戶對于產(chǎn)品的訴求以及自己產(chǎn)品與競品的對比優(yōu)劣。
  • 在社會輿情領(lǐng)域,通過分析大眾對于社會熱點(diǎn)事件的點(diǎn)評可以有效的掌握輿論的走向。
  • 在企業(yè)輿情方面,利用情感分析可以快速了解社會對企業(yè)的評價(jià),為企業(yè)的戰(zhàn)略規(guī)劃提供決策依據(jù),提升企業(yè)在市場中的競爭力。
  • 在金融交易領(lǐng)域,分析交易者對于股票及其他金融衍生品的態(tài)度,為行情交易提供輔助依據(jù)。

目前,絕大多數(shù)的人工智能開放平臺都具備情感分析的能力,如圖所示:是玻森中文語義開放平臺的情感分析功能演示,可以看出除了通用領(lǐng)域的情感分析外,還有汽車、廚具、餐飲、新聞和微博幾個特定領(lǐng)域的分析。

玻森中文語義開放平臺的情感分析示例

那么到底什么是情感分析呢?

從自然語言處理技術(shù)的角度來看,情感分析的任務(wù)是從評論的文本中提取出評論的實(shí)體,以及評論者對該實(shí)體所表達(dá)的情感傾向,自然語言所有的核心技術(shù)問題,例如:詞匯語義,指代消解,此役小氣,信息抽取,語義分析等都會在情感分析中用到。

因此,情感分析被認(rèn)為是一個自然語言處理的子任務(wù),我們可以將人們對于某個實(shí)體目標(biāo)的情感統(tǒng)一用一個五元組的格式來表示:(e,a,s,h,t)

  • e表示情感分析的目標(biāo)實(shí)體,可以是一個具體的實(shí)例,也可以是一個類,但必須是唯一的對象。
  • a表示實(shí)體e中一個觀點(diǎn)具體評價(jià)的屬性。
  • s表示對實(shí)體e的a屬性的觀點(diǎn)中所包含的情感,通常來講會分為正向褒義、負(fù)向貶義和中性三種分類。也可以通過回歸算法轉(zhuǎn)化為1星到5星的評價(jià)等級。
  • h是情感觀點(diǎn)的持有者,有可能是評價(jià)者本人,也有可能是其他人。
  • t是觀點(diǎn)發(fā)布的時間。

以圖為例,e是指某餐廳,a為該餐廳的性價(jià)比屬性,s是對該餐廳的性價(jià)比表示了褒義的評價(jià),h為發(fā)表評論者本人,t是19年7月27日。所以這條評論的情感分析可以表示為五元組(某餐廳,性價(jià)比,正向褒義,評論者,19年7月27日)。

用戶對某餐廳的評價(jià)

情感分析根據(jù)處理文本顆粒度的不同,大致可以分為三個級別的任務(wù),分別是篇章級、句子級和屬性級。

我們分別來看一下:

1. 篇章級情感分析

篇章級情感分析的目標(biāo)是判斷整篇文檔表達(dá)的是褒義還是貶義的情感,例如一篇書評,或者對某一個熱點(diǎn)時事新聞發(fā)表的評論,只要待分析的文本超過了一句話的范疇,即可視為是篇章級的情感分析。

對于篇章級的情感分析而言有一個前提假設(shè),那就是全篇章所表達(dá)的觀點(diǎn)僅針對一個單獨(dú)的實(shí)體e,且只包含一個觀點(diǎn)持有者h(yuǎn)的觀點(diǎn)。

這種做法將整個文檔視為一個整體,不對篇章中包含的具體實(shí)體和實(shí)體屬性進(jìn)行研究,使得篇章級的情感分析在實(shí)際應(yīng)用中比較局限,無法對一段文本中的多個實(shí)體進(jìn)行單獨(dú)分析,對于文本中多個觀點(diǎn)持有者的觀點(diǎn)也無法辨別。

例如評價(jià)的文本是:“我覺得這款手機(jī)很棒。”

評價(jià)者表達(dá)的是對手機(jī)整體的褒義評價(jià),但如果是:“我覺得這款手機(jī)拍照功能很不錯,但信號不是很好”這樣的句子,在同一個評論中出現(xiàn)了褒義詞又出現(xiàn)了貶義詞,篇章級的分析是無法分辨出來的,只能將其作為一個整體進(jìn)行分析。

不過好在有很多的場景是不需要區(qū)分觀點(diǎn)評價(jià)的實(shí)體和觀點(diǎn)持有者,例如:在商品評論的情感分析中,可以默認(rèn)評論的對象是被評論的商品,評論的觀點(diǎn)持有者也是評論者本人。

當(dāng)然,這個也需要看被評論的商品具體是什么東西,如果是親子旅游這樣的旅游服務(wù),那么評論中就很有可能包含一個以上的觀點(diǎn)持有者。 在實(shí)際工作中,篇章級的情感分析無法滿足我們對于評價(jià)更細(xì)致,如果需要對評論進(jìn)行更精確,更細(xì)致的分析,我們需要拆分篇章中的每一句話,這就是句子級的情感分析研究的問題。

2. 句子級情感分析

與篇章級的情感分析類似,句子級的情感分析任務(wù)是判斷一個句子表達(dá)的是褒義還是貶義的情感,雖然顆粒度到了句子層級,但是句子級分析與篇章級存在同樣的前提假設(shè)是,那就是一個句子只表達(dá)了一個觀點(diǎn)和一種情感,并且只有一個觀點(diǎn)持有人。

如果一個句子中包含了兩種以上的評價(jià)或多個觀點(diǎn)持有人的觀點(diǎn),句子級的分析是無法分辨的。好在現(xiàn)實(shí)生活中,絕大多數(shù)的句子都只表達(dá)了一種情感。

既然句子級的情感分析在局限性上與篇章級是一樣的,那么進(jìn)行句子級的情感分析意義何在呢?

關(guān)于這個問題,需要先解釋一下語言學(xué)上主觀句與客觀句的分別。在我們?nèi)粘S谜Z當(dāng)中,根據(jù)語句中是否帶有說話人的主觀情感可以將句子分為主觀句和客觀句,例如:“我喜歡這款新手機(jī)。”就是一個主觀句,表達(dá)了說話人內(nèi)心的情感或觀點(diǎn),而:“這個APP昨天更新了新功能。”則是一個客觀句,陳述的是一個客觀事實(shí)性信息,并不包含說話人內(nèi)心的主觀情感。

通過分辨一個句子是否是主觀句,可以幫助我們過濾掉一部分不含情感的句子,讓數(shù)據(jù)處理更有效率。

但是在實(shí)操過程中,我們會發(fā)現(xiàn)這樣的分類方法似乎并不是特別準(zhǔn)確,因?yàn)橐粋€主觀句也可能沒有表達(dá)任何的情感信息,知識表達(dá)了期望或者猜測。例如:“我覺得他現(xiàn)在已經(jīng)在回家的路上了。”這句話是一個主觀句,表達(dá)了說話人的猜測,但是并沒有表達(dá)出任何的情感。

而客觀句也有可能包含情感信息,表明說話者并不希望這個事實(shí)發(fā)生,例如:“昨天剛買的新車就被人刮花了。”這句話是一個客觀句,但結(jié)合常識我們會發(fā)現(xiàn),這句話中其實(shí)是包含了說話人的負(fù)面情感。

所以,僅僅對句子進(jìn)行主客觀的分類還不足以達(dá)到對數(shù)據(jù)進(jìn)行過濾的要求,我們需要的是對句子是否含有情感信息進(jìn)行分類。如果一個句子直接表達(dá)或隱含了情感信息,則認(rèn)為這個句子是含有情感觀點(diǎn)的,對于不含情感觀點(diǎn)的句子則可以進(jìn)行過濾。

目前對于句子是否含有情感信息的分類技術(shù)大多都是采用有監(jiān)督的學(xué)習(xí)算法,這種方法需要大量的人工標(biāo)注數(shù)據(jù),基于句子特征來對句子進(jìn)行分類。

總之,我們可以將句子級的情感分析分成兩步:

  • 第一步是判斷待分析的句子是否含有觀點(diǎn)信息;
  • 第二步則是針對這些含有觀點(diǎn)信息的句子進(jìn)行情感分析,發(fā)現(xiàn)其中情感的傾向性,判斷是褒義還是貶義。

關(guān)于分析情感傾向性的方法與篇章級類似,依然是可以采用監(jiān)督學(xué)習(xí)或根據(jù)情感詞詞典的方法來處理,我們會在后續(xù)的小節(jié)詳細(xì)講解。句子級的情感分析相較于篇章級而言,顆粒度更加細(xì)分,但同樣只能判斷整體的情感,忽略了對于被評價(jià)實(shí)體的屬性,同時它也無法判斷比較型的情感觀點(diǎn)。

例如:“A產(chǎn)品的用戶體驗(yàn)比B產(chǎn)品好多了。”對于這樣一句話中表達(dá)了多個情感的句子,我們不能將其簡單的歸類為褒義或貶義的情感,而是需要更進(jìn)一步的細(xì)化顆粒度,對評價(jià)實(shí)體的屬性進(jìn)行抽取,并將屬性與相關(guān)實(shí)體之間進(jìn)行關(guān)聯(lián),這就是屬性級情感分析。

3. 屬性級情感分析

上文介紹的篇章級和句子級的情感分析,都無法確切的知道評價(jià)者喜歡和不喜歡的具體是什么東西,同時也無法區(qū)分對某一個被評價(jià)實(shí)體的A屬性持褒義傾向,對B屬性卻持貶義傾向的情況。但在實(shí)際的語言表達(dá)中,一個句子中可能包含了多個不同情感傾向的觀點(diǎn)。

例如:“我喜歡這家餐廳的裝修風(fēng)格,但菜的味道卻很一般。”類似于這樣的句子,很難通過篇章級和句子級的情感分析了解到對象的屬性層面。

為了在句子級分析的基礎(chǔ)上更加細(xì)化,我們需要從文本中發(fā)現(xiàn)或抽取評價(jià)的對象主體信息,并根據(jù)文本的上下文判斷評價(jià)者針對每一個屬性所表達(dá)的是褒義還是貶義的情感,這種就稱之為屬性級的情感分析。

屬性級的情感分析關(guān)注的是被評價(jià)實(shí)體及其屬性,包括評價(jià)者以及評價(jià)時間,目標(biāo)是挖掘與發(fā)現(xiàn)評論在實(shí)體及其屬性上的觀點(diǎn)信息,使之能夠生成有關(guān)目標(biāo)實(shí)體及其屬性完整的五元組觀點(diǎn)摘要。

具體到技術(shù)層面來看,屬性級的情感分析可以分為以下6個步驟:

  • 實(shí)體抽取和消解:抽取文檔中所有涉及到實(shí)體的表達(dá)語句,并使用聚類方法將同一個實(shí)體的表達(dá)聚為一類,每一類都對應(yīng)唯一的一個實(shí)體。
  • 屬性抽取和消解:抽取文檔中所有實(shí)體的屬性,并把這些屬性進(jìn)行聚類,每個屬性類別對應(yīng)對象實(shí)體唯一的一個屬性。
  • 觀點(diǎn)持有者抽取和消解:抽取文檔中觀點(diǎn)的持有者,并將持有者進(jìn)行聚類,每個觀點(diǎn)持有者類別對應(yīng)唯一的一個觀點(diǎn)持有者。
  • 時間抽取和標(biāo)準(zhǔn)化:抽取每個觀點(diǎn)的發(fā)布時間,并把不同時間的格式進(jìn)行標(biāo)準(zhǔn)化。
  • 屬性的情感分類和回歸:對具體的屬性進(jìn)行情感分析,判斷它是褒義、貶義還是中性情感,或者通過回歸算法給屬性賦予一個數(shù)值化的情感得分,例如1至5分。
  • 生成觀點(diǎn)五元組:使用任務(wù)1-6的結(jié)果構(gòu)造文檔中所有觀點(diǎn)的五元組。
  • 關(guān)于文本中的實(shí)體抽取和指代消解問題,我們已經(jīng)在知識圖譜的相關(guān)章節(jié)中做了介紹,這里就不再贅述。針對篇章級、句子級、屬性級這三種類型的情感分析任務(wù),人們做了大量的研究并提出了很多分類的方法,這些方法大致可以分為基于詞典和基于機(jī)器學(xué)習(xí)兩種,下面我們進(jìn)行詳細(xì)的講解。

    基于詞典的情感分析

    做情感分析離不開情感詞,情感詞是承載情感信息最基本的單元,除了基本的詞之外,一些包含了情感含義的短語和成語我們也將其統(tǒng)稱為情感詞。基于情感詞典的情感分析方法,主要是基于一個包含了已標(biāo)注的情感詞和短語的詞典,在這個詞典中包括了情感詞的情感傾向以及情感強(qiáng)度,一般將褒義的情感標(biāo)注為正數(shù),貶義的情感標(biāo)注為負(fù)數(shù)。

    具體的步驟如圖所示,首先將待分析的文本先進(jìn)行分詞,并對分詞后的結(jié)果做去除停用詞和無用詞等文本數(shù)據(jù)的預(yù)處理。然后將分詞的結(jié)果與情感詞典中的詞進(jìn)行匹配,并根據(jù)詞典標(biāo)注的情感分對文本進(jìn)行加法計(jì)算,最終的計(jì)算結(jié)果如果為正則是褒義情感,如果為負(fù)則是貶義情感,如果為0或情感傾向不明顯的得分則為中性情感或無情感。

    基于詞典的情感分析流程

    情感詞典是整個分析流程的核心,情感詞標(biāo)注數(shù)據(jù)的好壞直接決定了情感分類的結(jié)果,在這方面可以直接采用已有的開源情感詞典。例如:BosonNLP基于微博、新聞、論壇等數(shù)據(jù)來源構(gòu)建的情感詞典,知網(wǎng)(Hownet)情感詞典,臺灣大學(xué)簡體中文情感極性詞典(NTSUSD),snownlp框架的詞典等,同時還可以使用哈工大整理的同義詞詞林拓展詞典作為輔助,通過這個詞典可以找到情感詞的同義詞,拓展情感詞典的范圍。

    當(dāng)然,我們也可以根據(jù)業(yè)務(wù)的需要來自己訓(xùn)練情感詞典,目前主流的情感詞詞典有三種構(gòu)建方法:人工方法、基于字典的方法和基于語料庫的方法。

    對于情感詞的情感賦值,最簡單的方法是將所有的褒義情感詞賦值為+1,貶義的情感詞賦值為-1,最后進(jìn)行相加得出情感分析的結(jié)果。但是這種賦值方式顯然不符合實(shí)際的需求,在實(shí)際的語言表達(dá)中,存在著非常多的表達(dá)方式可以改變情感的強(qiáng)度,最典型的就是程度副詞。

    程度副詞分為兩種:

    一種是可以加強(qiáng)情感詞原本的情感,這種稱之為情感加強(qiáng)詞,例如“很好”相較于“好”的情感程度會更強(qiáng)烈,“非常好”又比“很好”更強(qiáng)。另外一種是情感減弱詞,例如“沒那么好”雖然也是褒義傾向,但情感強(qiáng)度相較于“好”會弱很多。如果出現(xiàn)了增強(qiáng)詞,則需要在原來的賦值基礎(chǔ)上增加情感得分,如果出現(xiàn)了減弱詞則需要減少相應(yīng)的情感得分。

    另一種需要注意的情況是否定詞,否定詞的出現(xiàn)一般會改變情感詞原本的情感傾向,變?yōu)橄喾吹那楦?#xff0c;例如“不好”就是在“好”前面加上了否定詞“不”,使之變成了貶義詞。

    早期的研究會將否定詞搭配的情感詞直接取相反數(shù),即如果“好”的情感傾向是+1,那么“不好”的情感傾向就是-1。但是這種簡單粗暴的規(guī)則無法對應(yīng)上真實(shí)的表達(dá)情感,例如“太好”是一個比“好”褒義傾向更強(qiáng)的詞,如果“好”的值為+1,那么“太好”可以賦值為+3,加上否定詞的“不太好”變成-3則顯然有點(diǎn)過于貶義了,將其賦值為-1或者-0.5可能更合適。

    基于這種情況,我們可以對否定詞也添加上程度的賦值而不是簡單的取相反數(shù),對于表達(dá)強(qiáng)烈否定的詞例如“不那么”賦值為±4。當(dāng)遇到與褒義詞的組合時褒義詞則取負(fù)數(shù),與貶義詞的組合則取正數(shù),例如貶義詞“難聽”的賦值是-3,加上否定詞變成“不那么難聽”的情感得分就會是(-3+4=1)。

    第三種需要注意的情況是條件詞,如果一個條件詞出現(xiàn)在句子中,則這個句子很可能不適合用來做情感分析,例如“如果我明天可以去旅行,那么我一定會非常開心。”,在這句話中有明顯的褒義情感詞,但是因?yàn)榇嬖跅l件詞“如果”,使得這個句子的并沒有表達(dá)觀點(diǎn)持有者的真實(shí)情感,而是一種假設(shè)。

    除了條件句之外,還有一種語言表達(dá)也是需要在數(shù)據(jù)預(yù)處理階段進(jìn)行排除的,那就是疑問句。

    例如“這個餐廳真的有你說的那么好嗎?”,雖然句子中出現(xiàn)了很強(qiáng)烈的褒義情感詞“那么好”,但依然不能將它分類為褒義句。疑問句通常會有固定的結(jié)尾詞,例如“……嗎?”或者“……么?”,但是也有的疑問句會省略掉結(jié)尾詞,直接使用標(biāo)點(diǎn)符號“?”,例如“你今天是不是不開心?”,這個句子中含有否定詞和褒義詞組成的“不開心”,但不能將其分類為貶義情感。

    最后一種需要注意的情況是轉(zhuǎn)折詞,典型詞是“但是”,出現(xiàn)在轉(zhuǎn)折詞之前的情感傾向通常與轉(zhuǎn)折詞之后的情感傾向相反,例如:“我上次在這家酒店的住宿體驗(yàn)非常好,但是這次卻讓我很失望。”在這個轉(zhuǎn)折句中,轉(zhuǎn)折詞之前的“非常好”是一個很強(qiáng)的褒義詞,但真實(shí)的情感表達(dá)卻是轉(zhuǎn)折詞之后的“很失望”,最終應(yīng)該將其分類為貶義情感。

    當(dāng)然,也存在出現(xiàn)了轉(zhuǎn)折詞,但語句本身的情感并沒有發(fā)生改變的情況,例如“你這次考試比上次有了很大的進(jìn)步,但是我覺得你可以做得更好”,這里的轉(zhuǎn)折詞沒有轉(zhuǎn)折含義,而是一種遞進(jìn)含義。

    在實(shí)際操作中,我們所以需要先判斷轉(zhuǎn)折句真實(shí)的情感表達(dá)到底是哪個,才能進(jìn)行正確的分析計(jì)算。

    構(gòu)建情感詞典是一件比較耗費(fèi)人工的事情,除了上述需要注意的問題外,還存在精準(zhǔn)度不高,新詞和網(wǎng)絡(luò)用語難以快速收錄進(jìn)詞典等問題,同時基于詞典的分析方法也存在很多的局限性。

    例如一個句子可能出現(xiàn)了情感詞,但并沒有表達(dá)情感。或者一個句子不含任何情感詞,但卻蘊(yùn)含了說話人的情感。以及部分情感詞的含義會隨著上下文語境的變化而變化的問題,例如“精明”這個詞可以作為褒義詞夸獎他人,也可以作為貶義詞批評他人。

    盡管目前存在諸多問題,但基于字典的情感分析方法也有著不可取代的優(yōu)勢,那就是這種分析方法通用性較強(qiáng),大多數(shù)情況下無需特別的領(lǐng)域數(shù)據(jù)標(biāo)注就可以分析文本所表達(dá)的情感,對于通用領(lǐng)域的情感分析可以將其作為首選的方案。

    基于機(jī)器學(xué)習(xí)的情感識別

    我們在機(jī)器學(xué)習(xí)算法的章節(jié)介紹過很多分類算法,例如邏輯回歸、樸素貝葉斯、KNN等,這些算法都可以用于情感識別。

    具體的做法與機(jī)器學(xué)習(xí)一樣需要分為兩個步驟:第一步是根據(jù)訓(xùn)練數(shù)據(jù)構(gòu)建算法模型;第二步是將測試數(shù)據(jù)輸入到算法模型中輸出對應(yīng)的結(jié)果,接下來做具體的講解。

    首先,我們需要準(zhǔn)備一些訓(xùn)練用的文本數(shù)據(jù),并人工給這些數(shù)據(jù)做好情感分類的標(biāo)注。通常的做法下:如果是褒義和貶義的兩分類,則褒義標(biāo)注為1,貶義標(biāo)注為0,如果是褒義、貶義和中性三分類,則褒義標(biāo)注為1,中性標(biāo)注為0,貶義標(biāo)注為-1。

    在這一環(huán)節(jié)中如果用純?nèi)斯し椒▉磉M(jìn)行標(biāo)注,可能會因?yàn)閭€人主觀因素對標(biāo)注的結(jié)果造成一定影響,為了避免人的因素帶來的影響,也為了提高標(biāo)注的效率,有一些其他取巧的方法來對數(shù)據(jù)進(jìn)行自動標(biāo)注。

    比如:在電商領(lǐng)域中,商品的評論除了文本數(shù)據(jù)之外通常還會帶有一個5星的等級評分,我們可以根據(jù)用戶的5星評分作為標(biāo)注依據(jù),如果是1-2星則標(biāo)注為貶義,如果是3星標(biāo)注為中性,4-5星標(biāo)注為褒義。

    又比如:在社區(qū)領(lǐng)域中,很多社區(qū)會對帖子有贊和踩的功能,這一數(shù)據(jù)也可以作為情感標(biāo)注的參考依據(jù)。

    第二步是將標(biāo)注好情感傾向的文本進(jìn)行分詞,并進(jìn)行數(shù)據(jù)的預(yù)處理,前文已經(jīng)對分詞有了很多的介紹,這里就不再過多的贅述。

    第三步是從分詞的結(jié)果中標(biāo)注出具備情感特征的詞,這里特別說一下,如果是對情感進(jìn)行分類,可以參考情感詞典進(jìn)行標(biāo)注,也可以采用TF-IDF算法自動抽取出文檔的特征詞進(jìn)行標(biāo)注。如果分析的是某個特定領(lǐng)域的,還需要標(biāo)注出特定領(lǐng)域的詞,例如做商品評價(jià)的情感分析,需要標(biāo)注出商品名稱,品類名稱,屬性名稱等。

    第四步根據(jù)分詞統(tǒng)計(jì)詞頻構(gòu)建詞袋模型,形成特征詞矩陣,如表所示。在這一步可以根據(jù)業(yè)務(wù)需要給每個特征詞賦予權(quán)重,并通過詞頻乘以權(quán)重得到特征詞分?jǐn)?shù)。

    最后一步就是根據(jù)分類算法,將特征詞矩陣作為輸入數(shù)據(jù),得到最終的分類模型。

    當(dāng)訓(xùn)練好分類模型之后,就可以對測試集進(jìn)行分類了,具體的流程與建模流程類似,先對測試的文本數(shù)據(jù)進(jìn)行分詞并做數(shù)據(jù)預(yù)處理,然后根據(jù)特征詞矩陣抽取測試文本的特征詞構(gòu)建詞袋矩陣,并將詞袋矩陣的詞頻數(shù)據(jù)作為輸入數(shù)據(jù)代入之前訓(xùn)練好的模型進(jìn)行分類,得到分類的結(jié)果。

    采用基于機(jī)器學(xué)習(xí)的方法進(jìn)行情感分析有以下幾個不足之處:

    • 第一是每一個應(yīng)用領(lǐng)域之間的語言描述差異導(dǎo)致了訓(xùn)練得到的分類模型不能應(yīng)用與其他的領(lǐng)域,需要單獨(dú)構(gòu)建。
    • 第二是最終的分類效果取決于訓(xùn)練文本的選擇以及正確的情感標(biāo)注,而人對于情感的理解帶有主觀性,如果標(biāo)注出現(xiàn)偏差就會對最終的結(jié)果產(chǎn)生影響。

    除了基于詞典和基于機(jī)器學(xué)習(xí)的方法,也有一些學(xué)者將兩者結(jié)合起來使用,彌補(bǔ)兩種方法的缺點(diǎn),比單獨(dú)采用一種方法的分類效果要更好。

    另外,也有學(xué)者嘗試使用基于LSTM等深度學(xué)習(xí)的方法對情感進(jìn)行分析,相信在未來,情感分析會應(yīng)用在更多的產(chǎn)品中,幫助我們更好的理解用戶需求,提升用戶使用智能產(chǎn)品的體驗(yàn)。

    情感識別的困難與挑戰(zhàn)

    隨著深度神經(jīng)網(wǎng)絡(luò)等算法的應(yīng)用,情感分析的研究方向已經(jīng)有了非常大的進(jìn)展,但依然存在著一些難題是目前尚未解決的,在實(shí)操過程中需特別注意以下幾種類型數(shù)據(jù):

    (1)顏文字、emoji和表情包

    互聯(lián)網(wǎng)上的交流不僅僅只是通過單純的文字來進(jìn)行,大量的情感表達(dá)是通過顏文字或表情包來實(shí)現(xiàn)的,例如經(jīng)典的表示笑臉的顏文字“:D”,這類文本表達(dá)無法與上下文形成聯(lián)系,所以很難判斷他們評價(jià)的實(shí)體對象是什么。

    不過好在這類數(shù)據(jù)本身就代表了非常強(qiáng)烈的情感傾向,在篇章級和句子級的顆粒度對情感進(jìn)行分析,我們可以將特定的顏文字作為一種特殊的詞組構(gòu)建成情感字典,并人工進(jìn)行情感分的賦值,對于emoji表情也可以將標(biāo)準(zhǔn)的emoji編碼編入情感字典。而對于表情包的識別則是一個計(jì)算機(jī)視覺的問題,目前還沒有學(xué)者在這個領(lǐng)域方向展開研究。

    (2)諷刺句

    諷刺語句是一種比較特殊的情感表達(dá)語句,諷刺語句的語言組織形式從字面上來看可能是褒義,但實(shí)際的含義卻是貶義,或者字面是貶義但實(shí)際卻是褒義。

    例如:“太棒了!這家外賣治好了我多年的便秘!”

    諷刺句在情感分析中是非常難以處理的,因?yàn)橐直孢@類語句的含義,通常來講需要結(jié)合常識或者是相關(guān)的背景知識才可以了解,僅僅通過上下文是無法正確解讀諷刺句的含義的。在對商品的評價(jià)語中,諷刺句并不常見,但在輿論或社會新聞的評價(jià)中,諷刺句則比較常見,識別出諷刺句是情感分析分析方向的一個研究難點(diǎn)。

    (3)比較句

    比較語句也是一種特殊的情感表達(dá)句,例如:“我覺得這件衣服很適合我,但我更喜歡那一件。”

    這類比較語句中通常存在著兩個以上的實(shí)體或?qū)傩?#xff0c;如果只是在句子級的顆粒度下可以辨別出這句話是含有褒義的情感,但在屬性級的顆粒度下,以情感五元組來定義的情感無法將一個實(shí)體作為另一個實(shí)體的屬性來進(jìn)行判斷,很難分辨觀點(diǎn)持有者到底是在對哪一個實(shí)體或?qū)傩员磉_(dá)情感。而這類語句在商品的評論中有非常常見,需要特別注意。

    (4)情緒分類

    目前對于情感的分析依然處于初級階段,僅僅只是對情感做了褒義、貶義、中性三種劃分,但現(xiàn)實(shí)生活中的情緒遠(yuǎn)遠(yuǎn)不止這三種類型,例如:在心理學(xué)領(lǐng)域中,著名的心理學(xué)家羅伯特·普拉切克(Robert Plutchik)提出的情緒輪包含了8種基本情緒,并且每種情緒又劃分了不同的情緒強(qiáng)度等級,8種情緒還可以相互結(jié)合形成更多的情緒,如圖所示。

    普拉切克的情緒輪

    情緒輪在用戶體驗(yàn)設(shè)計(jì)上被廣泛的應(yīng)用,很多情感化設(shè)計(jì)都是基于情緒輪進(jìn)行的。但是在人工智能領(lǐng)域,將情緒進(jìn)行多分類比情感分析的三分類任務(wù)要難得多,目前大多數(shù)分類方法的結(jié)果準(zhǔn)確性都不到50%。

    這是因?yàn)榍榫w本身包含了太多的類別,而且不同的類別之間又可能具有相似性,一個情緒詞在不同的語境下有可能表達(dá)的是不同的情緒類別,算法很難對其進(jìn)行分類。即使是人工對文本進(jìn)行情緒類別標(biāo)注也往往效果不佳,因?yàn)榍榫w是非常主觀性的,不同的人對不同的文本可能產(chǎn)生不同的理解,這使得人工標(biāo)注情緒類比的過程異常困難。

    如何讓機(jī)器可以理解真實(shí)的情緒,目前還是一個未能攻克的難題。

    本文由 @黃瀚星 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

    題圖來自Unsplash,基于CC0協(xié)議

    總結(jié)

    以上是生活随笔為你收集整理的实体词典 情感词典_人工智能技术落地:情感分析概述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。