一种情感判别分析体系在汽车品牌舆情管理中的应用
一種情感判別分析體系在汽車品牌輿情管理中的應用
宋云生
深圳聯友科技有限公司,廣東 深圳 518031
摘要:品牌輿情管理涉及文本、語音等自然語言產物的處理,如挖掘文本內涵的情感、觀點等并對其量化,才能進一步分析品牌所處的輿論環境。對自然語言中情感的量化即情感判別分析,針對傳統的基于詞典的情感分析和基于監督模型的情感分析存在的不足,提出了一種新的情感分析系統,并結合樸素貝葉斯分類算法,提高了情感分析的準確率,并增強了量化分析情感強度的能力。經測試,提出的文本情感分析引擎的情感判別準確率高于常見的分析方法,且不具有非常明顯的行業特異性。
關鍵詞:情感分析;監督模型;樸素貝葉斯;自然語言處理
doi:10.11959/j.issn.2096-0271.2017061
論文引用格式:宋云生. 一種情感判別分析體系在汽車品牌輿情管理中的應用[J]. 大數據, 2017, 3(6): 55-64.
SONG Y S. Application of an emotion discriminant analysis system in the management of automobile brand[J]. Big Data Research, 2017, 3(6): 55-64.
1? 引言
隨著互聯網以及各類新興網絡社交媒體的快速發展與普及,由用戶發表的文字信息也在暴增,如論壇帖子、微博、博客、產品評論等。如何有效地對這些海量文本信息進行挖掘,識別其中的情感傾向,并加以合理有效地利用,是非常值得探討的問題。情感分析又稱傾向性分析,是人們對事物以及事物的屬性持有的意見、情緒和情感的計算研究[1]。事物可以是產品、服務、組織、個人、事件、問題或者話題。情感分析也可以被定義為通過自然語言處理(natural language processing,NLP)技術從文本、演講、微博等數據源中自動挖掘態度、觀點、意見和情緒的過程[2]。文本情感分析就是分析一段文字的情感傾向,作為輿情監控的基礎工作,用途廣泛。社交網絡越來越火,“意見領袖”越來越多,允許用戶對商品和服務評價打分的站點更是如雨后春筍,用戶的評價和建議可以全網傳播。這些文本類型的數據毫無疑問是精準營銷的動力來源。企業可以根據情感分析建立自己的數字形象,識別新的市場機會,做好市場細分,進而推動產品成功上市,但抓住這些評論的價值部分也是企業的巨大挑戰。政府同企業一樣,需要通過情感分析監控、緩解、引領輿情,消弭社會矛盾,上述正是情感分析的應用背景。
但與如此重要的背景背道而馳的是中文情感分析系統的弱勢,常見的情感分析分為基于詞典的情感分析和基于監督模型的情感分析。基于詞典的情感分析,顧名思義,非常依賴于情感詞典的構建,KuLW等人[3]和KajiN等人[4]對情感詞典的構建開展了深入的研究。通常先將情感詞分為正向(褒義)和負向(貶義),然后統計一條待分析的中文文本分詞的正向詞個數和負向詞個數,如果正向詞個數大于負向詞個數,則這條文本屬于情感正向,否則屬于情感負向。有些研究者對情感詞典進行了人工加權,比如“愛”和“喜歡”的權重不一樣,人工給予“愛”更高的權重。但是無論怎么改變,這種分析方式都存在以下缺陷:首先,準確率非常低,一般為50%左右,幾乎不能支撐輿情監控要求;其次,人工定義情感詞的正負傾向或權重,工作量巨大,而且非常武斷;最后,這種方式對于否定句和程度副詞加強的語句幾乎無效,從而喪失了分析情感細膩性(程度)的能力。另一種是基于監督模型的情感分析,即通過人工標注一個訓練集(訓練集的每一條文本都要人工將其分為情感正向或情感負向),然后使用訓練集訓練模型,模型訓練完成后,預測待分析文本。這種方法雖然基于大量的訓練集暫時提高了準確率(一般75%左右),但是標注訓練集等如此浩繁的工作讓使用者望而卻步,另外,人工標注訓練集的粒度導致了這種方式同樣不具有分析情感細膩性的能力,或者能力較弱。
本文構建了一種新的情感分析系統,解決了這些比較具體的問題,化繁就簡,提高了情感分析的準確率,并具有細膩分析情感的能力,為各大行業的輿情分析提供了一種新的實踐路徑。
2 ?輿情管理在各個行業的需求
早在互聯網普及之前,人們就讓朋友推薦一個汽車修理工或者在地方選舉投票給誰,又或者向消費者咨詢買什么樣的洗碗機。“別人怎么想在我們做決策的過程中是一個非常重要的信息”[5]。隨著Web2.0平臺的爆發式增長,博客、論壇、點對點網絡等其他各種類型的社交媒體的出現,個人用戶在網上表現出對產品和服務的興趣(積極或消極)會產生一些潛在的影響,通過互聯網的傳播放大,能夠產生前所未有的影響力,商品供應商也越來越關注網絡用戶的評論。目前輿情分析已滲透到生活的方方面面,幾乎在各大行業中都有應用,包括政府、高校、企業、媒體、醫療、電力等領域。
政府對輿情的分析主要關注民生民意、行業動態以及危機公關,如通過分析網絡上的評論可以非常準確地了解大眾對政策的理解和情感傾向。德國慕尼黑大學的研究表明,推特(Twitter)上的信息能夠非常準確地反映選民的政治傾向,通過分析2009年德國大選期間選民涉及政黨和政客的10萬條推特,結論是推特的信息能夠預示大選的結果,其準確性不亞于傳統的民意調研[6]。
2009年7月,一則《應屆畢業生怒問:誰替我簽的就業協議?注水的就業率!》[7]刷爆網絡,“被就業”獲得了社會各界的廣泛關注。通過網絡輿情分析,能夠獲取廣大師生對高校就業的觀點和建議,可以監測社會民眾的情感走向,及時采取相應的政策引導輿論向有利于構建和諧健康的社會主義社會發展。
輿情分析在企業中的運用主要包括兩個方面:品牌危機管理和營銷管理。品牌危機是指突然發生的并能對企業聲譽和生產經營活動構成重大威脅或造成破壞和損失的緊急事件[8]。通過對社會媒體的監測和分析,對危機發生前的環境進行監測和預警,第一時間掌握輿論導向,制定相應的對策和方法化解危機。目前企業越來越熱衷于使用用戶針對產品留下的評論內容等數據,幫助改進市場營銷、品牌定位、產品開發和制定相應的優惠政策等活動。例如,北京小米科技有限責任公司想知道客戶對他們的新機型的評價,在社交媒體和數據挖掘興起之前,他們只能通過市場調研的方式解決。而數據分析則可以抓取消費者在各大消費網站(如亞馬遜、京東、天貓、社交媒體)留下的評論數據,通過分析這些文本內容,從而獲知消費者對某個新機型的情感傾向。通過機器學習量化文本中消費者對品牌或產品屬性喜好的數據挖掘方式,即情感分析。情感分析作為一種數據挖掘的方式,可以用于采集競爭對手的競爭優勢,例如企業可以輕易地跟蹤社交媒體的情感傾向和社交媒體對競爭對手的情感傾向,了解消費者對競爭品牌的印象及對其產品的情感傾向。另外,情感分析的指數和結果還可以作為變量應用到其他數據挖掘項目,例如預測用戶流失的概率時就可以添加情感指數作為變量。
目前,情感分析仍然面臨著很多挑戰,其中主要包括:人們表達態度的方式非常復雜,很難識別真正的情感傾向;另外,僅僅使用詞匯并不能非常準確地識別一條文本表達的情感傾向;一些修辭手法(如反諷、欲揚先抑等)也會給情感分析造成困難。
3 ?情感分析的種類和方法介紹
一般情感分析分為兩個層次:主/客觀分析(subjectivity/objectivity identification)和情感/主體分析(feature/aspect-based sentiment analysis)。前者主要分析一個文本或片段是主觀表述還是客觀表述,需要注意的是在做這類分析時同樣面臨挑戰,因為具體的語境可能會改變句子的意思,原本的主觀評價可能就變成了客觀描述,如“我買的錘子手機外表像廣告一樣光鮮,但速度就像他的名字一樣,就是個錘子”。而情感/主體分析將文本中表現的情感和具體的主體聯系起來,即確定情感的歸屬,顯然 后者對文本情感的分析更加細膩。
目前情感分析方法主要分為兩大類:基于詞典的情感分析方法、基于機器學習的情感分析方法[9]。
基于詞典的情感分析法起源于基于語法規則的文本分析,方法比較簡單純樸,首先需要具有語法敏感性的專業人士構建情感分析的詞典:正向情感詞典和負向情感詞典,即將某語言中用于表達情感的詞匯分為兩個類別,然后比對文本中正負情感詞的個數、頻度,評估文本的情感傾向,這種方法非常容易理解。Taboada M等人[10]通過創建帶有語義傾向標注的詞典(極性和強度),并應用于極性分類任務,即可判斷一個文本是正向還是負向。張成功等人[11]通過構造極性詞典,包括基礎詞典、領域詞典、網絡詞詞典以及修飾詞詞典,深入探究了修飾詞對極性詞的影響,提出一種基于極性詞典的情感分析方法,并驗證了該方法的有效性。然而情感詞也分輕重緩急,比如喜歡和愛雖然都是正向,但其程度不一樣,因此根據語言專家的分析,給予情感詞不同的情感級別或權重,即對上述分析方法的改進,毫無疑問這種方法包含一定的語法分析的成分,谷歌翻譯的早期版本就是基于語法的方式,其效果可見一斑。
基于機器學習的情感分析過程首先制作一個規模龐大的訓練集,人工標注文本的正負向,然后通過機器學習或算法等方式訓練模型,得出模型后,再用來識別新文本的情感傾向,比較像垃圾郵件的分類方法。首先精挑一些垃圾郵件和正常郵件讓模型學習,然后再將模型用于垃圾郵件的分選。基于機器學習的情感分析方法本質上是一個監督分類的方法,當然現在也有非監督分類的嘗試。機器學習技術,如樸素貝葉斯(naive Bayes)、最大熵(maximum entropy)、支持向量機(support vector machine,SVM)等已經成功運用在情感分析中。Firmino A A等人[12]進行了一個案列研究,對比SVM和樸素貝葉斯分類器的性能,結果表明SVM性能更優。孫建旺等人[13]提出基于特征極性值的位置權重計算方法,將SVM作為機器學習模型,能夠有效地對微博文本進行情感分類。關雅夫等人[14]提出了基于主動學習的微博情感分析,并結合SVM進行二級分類,結果表明該方法在提高準確率、降低過擬合及錯誤級聯等方面有著良好的表現。樊娜等人[15]通過對文本結構和情感表達的特點進行分析,提出一種基于K-近鄰的文本情感分析方法,實驗表明該方法優于傳統的機器學習。
4 ?情感分析的新分析體系介紹
本文提出了一種新的中文文本情感分析系統,主要創造了情感分析訓練集的標注方式、加權情感詞典的生成方式、漢語言語法規則的調整方式及基于樸素貝葉斯理論的情感得分計算方法。文本情感傾向值計算主要包括以下幾個步驟:文本預處理;文本特征提取,主要包括:提取文本情感主體、情感詞、情感詞前后的程度詞和否定詞;加權情感詞典構建,情感詞匹配;漢語規則構建,調整情感文本矩陣;模型訓練;文本情感值計算。
4.1 系統分析流程
文本a進入系統后,首先對文本a進行分詞,然后將文本分出來的詞匯與加權情感詞典中的詞匯進行匹配,這樣不僅篩選出了文本a中包含的情感詞,而且給情感詞匯添加了正負向情感權重,即獲得了文本a帶有權重的情感詞矩陣。為了分析文本a情感的強度,本文根據漢語語法構建了兩個比較基本但很重要的規則:程度副詞加權規則和否定詞逆轉規則,用于調整文本的情感詞矩陣,將經過漢語言規則調整后的情感詞矩陣輸入算法模型,計算情感得分。情感得分的區間為[0,1],越靠近0,負向情感越強;越靠近1,正向情感越強。整個流程如圖1所示。
圖1 情感分析系統流程
4.2 加權情感詞典構建
隨著漢語的演化,情感詞還在不斷增加。在文本分析的過程中,筆者積累了大量的情感詞,并構建了情感詞典,大約包括中文情感詞20 000個左右。原始的情感詞典見表1(其中1代表正向詞匯,-1代表負向詞匯),其僅僅是武斷地將情感詞匯分為正向和負向,這樣的詞典除了帶有主觀性以外,而且無法滿足分析情感程度的目的,所以需要一種更加快速、客觀的加權方式。
表1 原始的情感詞典樣例
在構建加權情感詞典之前,首先要有一個標注的情感分析文本集,這本來是一個需要人工標注的過程,工作量巨大,而且具有行業局限性。在絕大多數情況下,人們用于表達情感的詞匯是相似的,僅僅有個別詞匯具有行業特征。而且現在有大量的網站留下了用戶的評論數據,有些網站,如汽車行業 的汽車之家要求用戶發表口碑評論時分為兩個部分:最滿意的部分和最不滿意的部分,筆者抓取了大量的評論,并將“最滿意的部分”標注為正向文本,把“最不滿意的部分”標注為負向文本(類似的方法還可以使用用戶評分進行文本標注),加上其他研究者已經公布的標注文本,共獲得了大約30萬條正負向文本標注訓練集,通過這種批量方法可以節省大量的標注時間,而且擴大了文本的行業來源,還可以隨著數據量的增加持續更新情感分析文本集,進而更新加權情感詞典。
有了標注訓練集,就需要基于標注訓練集對情感詞典加權。
情感加權規則:一個情感詞在正向文本集出現的文檔頻率(document frequency,DF)作為它的正向權重,在負向文本集出現的文檔頻率作為它的負向權重,所謂DF,即包含某詞的文檔數/語料庫的文檔總數。
對于一些一般人無法判斷的中性詞,也能非常快速、合理地獲得正負向情感權重,因此依據以上這種數據驅動的規則獲得情感詞的權重,不僅工作量銳減,而且更加客觀(見表2)。通過以上方法獲得了加權情感詞典。
表2 加權情感詞典樣例
4.3 構建漢語規則
本文系統構建了兩種漢語語法規則,其一用于處理程度副詞出現的情況,比如“我非常喜歡夏天”;其二用于處理否定詞出現的情況,比如“我不喜歡夏天”。一般的基于詞典和監督模型的情感分析系統基本上無法有效處理上述兩種現象,而且上述現象是在漢語中非常常見的情感表達方式,所以針對上述兩種情況本文提出了兩套規則,按照先后順序調整情感詞矩陣即可。
4.3.1 程度副詞加權規則
程度副詞加權規則要求首先準備一張程度詞加權詞典,漢語中的程度副詞比較少,通過人工整理并給予相應的權重可得部分詞典,見表3。
表3 程度副詞加權詞典樣例
程度副詞加權規則:如果情感詞前后不遠處(可以根據標點符號和需求自定義)出現了任意一個程度副詞,那么在該情感詞的正負權重中,較大者加倍。例如“我非常不喜歡喝茶”,“喜歡”這個詞的正向情感權重為0.05,負向情感權重為0.02,它的前方出現了“非常”程度副詞,所以“喜歡”在本文本里的正負向權重就變成了0.1和0.02。
4.3.2 否定詞逆轉規則
一個文本的情感詞矩陣經過程度副詞加權規則調整后,需要根據否定詞規則進一步調整,本文構建了否定詞逆轉規則。所謂否定詞逆轉規則,即如果情感詞前面不遠處(可以根據標點符號和需求自定義)出現了否定詞,且否定詞的個數為奇數,那么該情感詞的正負權重進行一次對調。例如“我非常不喜歡喝茶”,“喜歡”這個詞的正負向情感權重經過程度副詞加權后變成了0.1和0.02,但它的前方出現了“不”字且為否定詞,并只出現了1次,所以“喜歡”的正負向權重就變成了0.02和0.1。那么經過調整后,“我非常不喜歡喝茶”的文本情感詞矩陣就變成了表4。
表4 文本情感詞矩陣樣例
4.4 構建模型
根據上文的基礎詞庫和規則,可以獲得任何一條文本的情感詞矩陣,稍作矩陣變換,就可以作為構建各種監督型機器學習算法的輸入數據,得出文本情感值,加上強大的訓練集標注方法,各種監督模型(隨機森林、SVM、邏輯回歸等)均可以使用上述矩陣進行模型訓練和測試,準確率相較普通系統大幅提高。經過程序測試,本文選擇了樸素貝葉斯分類器算法,并集合汽車行業特有的標注數據,應用于汽車行業品牌情感分析。
5 ?情感分析在汽車行業品牌輿情管理的應用
本文僅挑選樸素貝葉斯算法作為分類算法演示分類體系,具體實現流程如圖2所示。所謂樸素貝葉斯分類器在本文中可以通俗地進行如下解釋:一條文本中的所有情感詞在正向文本中出現的概率連乘積如果大于這條文本中所有情感詞在負向文本中出現的概率連乘積,則這條文本屬于正向,否則屬于負向,計算式如下:
其中,a表示文本的情感詞正負向權重,y代表文本屬于正負向分類的概率。
圖2 汽車行業的情感分析流程
5.1 實驗數據采集
本文通過網絡爬蟲技術抓取發表在汽車之家、 鳳凰汽車網、太平洋汽車網和新浪汽車網的數據約2 100萬條,取數周期為2016年1月1日—4月21日。在進行情感分析之前,首先對獲取的數據集進行數據清洗[16,17],主要包括刪除特殊符號、分詞、去除停用詞,然后對文本屬性特征進行提取,去除不能反映文本主題的詞語。選擇35萬條口碑數據作為標注數據集,口碑數據具有兩個非常明顯的模式片段:最滿意的一點和最不滿意的一點。本文將最滿意的一點作為情感正向標注,將最不滿意的一點作為負向標注,從而豐富了數據標注,增加了行業特異性。
5.2 加權情感詞典構建
本文將知網、清華大學、臺灣大學發布的基礎情感詞典作為基礎詞典,補充汽車行業情感詞,通過訓練汽車行業評論文本,整理出情感詞詞典。部分情感詞典見表5。
表5 情感詞典
5.3 實驗結果
以“我非常不喜歡渦輪增壓,保養貴”這句評論為例。第一步,通過數據清洗后,使用分詞結果與加權情感詞典進行匹配,獲得帶有權重的情感詞矩陣,流程如圖3所示。
圖3 基于樸素貝葉斯算法情感分析流程示例
第二步,在帶有權重的情感詞矩陣中,根據情感詞的位置,在原文本中向前或向后查找程度副詞。如果找到程度副詞,則根據規則調整情感詞矩陣,如本例在“喜歡”的前面找到了程度副詞“非常”,且“喜歡”的正(pDF)負(nDF)情感傾向中較大者為pDF,所以將其乘以程度副詞“非常”的權重2,其nDF不作改變;情感詞“保養貴”前后均未找到程度副詞,所以其權重不作調整,這樣就獲得了調整后的情感詞矩陣1。
第三步,調整后的情感詞矩陣1中,根據情感詞的位置,在原文本中向前查找否定詞,如果找到否定詞,則根據規則調整情感詞矩陣,如本例在“喜歡”的前面找到了否定詞“不”,“喜歡”的正負情感傾向進行逆轉,即將喜歡的pDF替換為nDF,nDF替換為pDF,雙方互換在情感詞矩陣中的位置;情感詞“保養貴”前面沒找到否定詞,所以其權重不作調整,這樣就獲得了調整后的情感詞矩陣2。
最后根據調整后的情感詞矩陣2,構建樸素貝葉斯分類器計算情感得分,求出所有情感詞pDF的乘積,然后計算其與所有情感詞pDF的乘積加上所有情感詞nDF的乘積之和的商值作為情感得分,可以得到文本的情感得分為0.01,較嚴重的負向傾向。
經測試集測試,樸素貝葉斯文本情感分析引擎的情感判別準確率較高,達到86.7%,并能準確應對否定句、雙重否定及程度副詞等在網絡語言中較為普遍的句法、語法類型。
6 ?結束語
本文提出了一種獲得情感特征詞權重的量化方法,并設計了兩個比較常見的漢語規則,用于調整情感權重,結合常見的監督型機器學習算法取得了86.7%的分類準確率。對比其他企業落地實施的情感分析引擎,本系統取得了不錯的成績。系統弱化了行業特異性,更加易于移植到其他行業,整個分析體系弱化了人工干預和標注的工作,更加符合企業應用減少人工的需求,就其分析邏輯而言,很容易與自然語言理解領域其他研究模塊結合,比如與句法解析結合,解決情感歸屬問題。
情感分析正在向語義級別發展,但其在企業應用中的需求至少滿足兩個方面:其一,情感越來越細膩;其二,情感歸屬問題。情感越來越細膩,包括實際情感的細化,但隨著品牌輿情管理的細化,可能需要更加細粒度的情感分類,比如喜歡、高興、傷心、厭惡、憎恨等。每一種情感背后蘊含的看法和觀點存在很大的不同,其中參考文獻[18,19]對情感分析進行了更加細膩的探索研究。不同文本的情感程度是不一樣的,而且其帶來的社會影響也不同,因此除了區分情感的細分分類以外,企業需要更加細膩的情感程度衡量方式,即傳統的二分類問題或多分類問題,轉化為分類和連續的程度衡量問題。
除了細膩的情感分析以外,情感歸屬也是一個亟待解決的問題。情感歸屬正逐步深入自然語言理解的句法分析領域,它不僅要求句法分析做得優秀,而且情感分析做得也同樣優秀,才能做到準確的情感歸屬。
點擊下方?閱讀原文?即可獲取全文
作 者 簡 介
宋云生(1985?),男,深圳聯友科技有限公司數據挖掘工程師,主要研究方向為自然語言理解及深度學習。
?
《大數據》期刊
《大數據(Big?Data?Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的科技期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
總結
以上是生活随笔為你收集整理的一种情感判别分析体系在汽车品牌舆情管理中的应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【CyberSecurityLearni
- 下一篇: 【CyberSecurityLearni