情感分析的现代方法(包含word2vec Doc2Vec)
英文原文地址:https://districtdatalabs.silvrback.com/modern-methods-for-sentiment-analysis
轉(zhuǎn)載文章地址:http://datartisan.com/article/detail/48.html
?
?情感分析是一種常見的自然語言處理(NLP)方法的應(yīng)用,特別是在以提取文本的情感內(nèi)容為目標(biāo)的分類方法中。通過這種方式,情感分析可以被視為利用一些情感得分指標(biāo)來量化定性數(shù)據(jù)的方法。盡管情緒在很大程度上是主觀的,但是情感量化分析已經(jīng)有很多有用的實踐,比如企業(yè)分析消費者對產(chǎn)品的反饋信息,或者檢測在線評論中的差評信息。
? ? ? ?最簡單的情感分析方法是利用詞語的正負(fù)屬性來判定。句子中的每個單詞都有一個得分,樂觀的單詞得分為 +1,悲觀的單詞則為 -1。然后我們對句子中所有單詞得分進(jìn)行加總求和得到一個最終的情感總分。很明顯,這種方法有許多局限之處,最重要的一點在于它忽略了上下文的信息。例如,在這個簡易模型中,因為“not”的得分為 -1,而“good”的得分為 +1,所以詞組“not good”將被歸類到中性詞組中。盡管詞組“not good”中包含單詞“good”,但是人們?nèi)詢A向于將其歸類到悲觀詞組中。
? ? ? ?另外一個常見的方法是將文本視為一個“詞袋”。我們將每個文本看出一個1xN的向量,其中N表示文本詞匯的數(shù)量。該向量中每一列都是一個單詞,其對應(yīng)的值為該單詞出現(xiàn)的頻數(shù)。例如,詞組“bag of bag of words”可以被編碼為 [2, 2, 1]。這些數(shù)據(jù)可以被應(yīng)用到機(jī)器學(xué)習(xí)分類算法中(比如羅吉斯回歸或者支持向量機(jī)),從而預(yù)測未知數(shù)據(jù)的情感狀況。需要注意的是,這種有監(jiān)督學(xué)習(xí)的方法要求利用已知情感狀況的數(shù)據(jù)作為訓(xùn)練集。雖然這個方法改進(jìn)了之前的模型,但是它仍然忽略了上下文的信息和數(shù)據(jù)集的規(guī)模情況。
?
Word2Vec 和 Doc2Vec
最近,谷歌開發(fā)了一個叫做 Word2Vec 的方法,該方法可以在捕捉語境信息的同時壓縮數(shù)據(jù)規(guī)模。Word2Vec實際上是兩種不同的方法:Continuous Bag of Words (CBOW) 和 Skip-gram。CBOW的目標(biāo)是根據(jù)上下文來預(yù)測當(dāng)前詞語的概率。Skip-gram剛好相反:根據(jù)當(dāng)前詞語來預(yù)測上下文的概率(如圖 1 所示)。這兩種方法都利用人工神經(jīng)網(wǎng)絡(luò)作為它們的分類算法。起初,每個單詞都是一個隨機(jī) N 維向量。經(jīng)過訓(xùn)練之后,該算法利用 CBOW 或者 Skip-gram 的方法獲得了每個單詞的最優(yōu)向量。
?
? ? ? ?現(xiàn)在這些詞向量已經(jīng)捕捉到上下文的信息。我們可以利用基本代數(shù)公式來發(fā)現(xiàn)單詞之間的關(guān)系(比如,“國王”-“男人”+“女人”=“王后”)。這些詞向量可以代替詞袋用來預(yù)測未知數(shù)據(jù)的情感狀況。該模型的優(yōu)點在于不僅考慮了語境信息還壓縮了數(shù)據(jù)規(guī)模(通常情況下,詞匯量規(guī)模大約在300個單詞左右而不是之前模型的100000個單詞)。因為神經(jīng)網(wǎng)絡(luò)可以替我們提取出這些特征的信息,所以我們僅需要做很少的手動工作。但是由于文本的長度各異,我們可能需要利用所有詞向量的平均值作為分類算法的輸入值,從而對整個文本文檔進(jìn)行分類處理。
? ? ? ?然而,即使上述模型對詞向量進(jìn)行平均處理,我們?nèi)匀缓雎粤藛卧~之間的排列順序?qū)η楦蟹治龅挠绊憽W鳛橐粋€處理可變長度文本的總結(jié)性方法,Quoc Le 和 Tomas Mikolov 提出了 Doc2Vec方法。除了增加一個段落向量以外,這個方法幾乎等同于 Word2Vec。和 Word2Vec 一樣,該模型也存在兩種方法:Distributed Memory(DM) 和 Distributed Bag of Words(DBOW)。DM 試圖在給定上下文和段落向量的情況下預(yù)測單詞的概率。在一個句子或者文檔的訓(xùn)練過程中,段落 ID 保持不變,共享著同一個段落向量。DBOW 則在僅給定段落向量的情況下預(yù)測段落中一組隨機(jī)單詞的概率。(如圖 2 所示)
?
? ? ? 一旦開始被訓(xùn)練,這些段落向量可以被納入情感分類器中而不必對單詞進(jìn)行加總處理。這個方法是當(dāng)前最先進(jìn)的方法,當(dāng)它被用于對 IMDB 電影評論數(shù)據(jù)進(jìn)行情感分類時,該模型的錯分率僅為 7.42%。當(dāng)然如果我們無法真正實施的話,一切都是浮云。幸運的是,genism(Python 軟件庫)中 Word2Vec 和 Doc2Vec 的優(yōu)化版本是可用的。
利用 Python 實現(xiàn)的 Word2Vec 實例
? ? ? ?在本節(jié)中,我們展示了人們?nèi)绾卧谇楦蟹诸愴椖恐惺褂迷~向量。我們可以在 Anaconda 分發(fā)版中找到 genism 庫,或者可以通過 pip 安裝 genism 庫。從這里開始,你可以訓(xùn)練自己語料庫(一個文本數(shù)據(jù)集)的詞向量或者從文本格式或二進(jìn)制格式文件中導(dǎo)入已經(jīng)訓(xùn)練好的詞向量。
? ? ? ?我發(fā)現(xiàn)利用谷歌預(yù)訓(xùn)練好的詞向量數(shù)據(jù)來構(gòu)建模型是非常有用的,該詞向量是基于谷歌新聞數(shù)據(jù)(大約一千億個單詞)訓(xùn)練所得。需要注意的是,這個文件解壓后的大小是 3.5 GB。利用谷歌的詞向量我們可以看到單詞之間一些有趣的關(guān)系:
?
有趣的是,我們可以從中發(fā)現(xiàn)語法關(guān)系,比如識別出最高級或單詞形態(tài)的單詞:
“biggest”-“big”+“small”=“smallest”
?
“ate”-“eat”+“speak”=“spoke”
?
? ? ? ? 從上述的例子中我們可以看出 Word2Vec 可以識別單詞之間重要的關(guān)系。這使得它在許多 NLP 項目和我們的情感分析案例中非常有用。在我們將它運用到情感分析案例之前,讓我們先來測試下 Word2Vec 對單詞的分類能力。我們將利用三個分類的樣本集:食物、運動和天氣單詞集合,我們可以從Enchanted Learning網(wǎng)中下載得到這三個數(shù)據(jù)集。由于這是一個 300 維的向量,為了在 2D 視圖中對其進(jìn)行可視化,我們需要利用 Scikit-Learn 中的降維算法 t-SNE 處理源數(shù)據(jù)。
首先,我們必須獲得如下所示的詞向量:
?
然后我們利用 TSNE 和 matplotlib 對分類結(jié)果進(jìn)行可視化處理:
?
可視化結(jié)果如下圖所示:
?
從上圖可以看出,Word2Vec 很好地分離了不相關(guān)的單詞,并對它們進(jìn)行聚類處理。
Emoji 推文的情感分析
? ? ? ? 現(xiàn)在我們將分析帶有 Emoji 表情推文的情感狀況。我們利用 emoji 表情對我們的數(shù)據(jù)添加模糊的標(biāo)簽。笑臉表情(:-))表示樂觀情緒,皺眉標(biāo)簽(:-()表示悲觀情緒。總的 400000 條推文被分為樂觀和悲觀兩組數(shù)據(jù)。我們隨機(jī)從這兩組數(shù)據(jù)中抽取樣本,構(gòu)建比例為 8:2 的訓(xùn)練集和測試集。隨后,我們對訓(xùn)練集數(shù)據(jù)構(gòu)建 Word2Vec 模型,其中分類器的輸入值為推文中所有詞向量的加權(quán)平均值。我們可以利用 Scikit-Learn 構(gòu)建許多機(jī)器學(xué)習(xí)模型。
首先,我們導(dǎo)入數(shù)據(jù)并構(gòu)建 Word2Vec 模型:
?
接下來,為了利用下面的函數(shù)獲得推文中所有詞向量的平均值,我們必須構(gòu)建作為輸入文本的詞向量。
?
? ? ? ?調(diào)整數(shù)據(jù)集的量綱是數(shù)據(jù)標(biāo)準(zhǔn)化處理的一部分,我們通常將數(shù)據(jù)集轉(zhuǎn)化成服從均值為零的高斯分布,這說明數(shù)值大于均值表示樂觀,反之則表示悲觀。為了使模型更有效,許多機(jī)器學(xué)習(xí)模型需要預(yù)先處理數(shù)據(jù)集的量綱,特別是文本分類器這類具有許多變量的模型。
?
最后我們需要建立測試集向量并對其標(biāo)準(zhǔn)化處理:
?
接下來我們想要通過計算測試集的預(yù)測精度和 ROC 曲線來驗證分類器的有效性。 ROC 曲線衡量當(dāng)模型參數(shù)調(diào)整的時候,其真陽性率和假陽性率的變化情況。在我們的案例中,我們調(diào)整的是分類器模型截斷閾值的概率。一般來說,ROC 曲線下的面積(AUC)越大,該模型的表現(xiàn)越好。你可以在這里找到更多關(guān)于 ROC 曲線的資料
(https://en.wikipedia.org/wiki/Receiver_operating_characteristic)
在這個案例中我們使用羅吉斯回歸的隨機(jī)梯度下降法作為分類器算法。
?
隨后我們利用 matplotlib 和 metric 庫來構(gòu)建 ROC 曲線。
?
ROC 曲線如下圖所示:
?
? ? ? ?在沒有創(chuàng)建任何類型的特性和最小文本預(yù)處理的情況下,我們利用 Scikit-Learn 構(gòu)建的簡單線性模型的預(yù)測精度為 73%。有趣的是,刪除標(biāo)點符號會影響預(yù)測精度,這說明 Word2Vec 模型可以提取出文檔中符號所包含的信息。處理單獨的單詞,訓(xùn)練更長時間,做更多的數(shù)據(jù)預(yù)處理工作,和調(diào)整模型的參數(shù)都可以提高預(yù)測精度。我發(fā)現(xiàn)使用人工神經(jīng)網(wǎng)絡(luò)(ANNs)模型可以提高 5% 的預(yù)測精度。需要注意的是,Scikit-Learn 沒有提供 ANN 分類器的實現(xiàn)工具,所以我利用了自己創(chuàng)建的自定義庫:
?
? ? ? ?分類結(jié)果的精度為 77%。對于任何機(jī)器學(xué)習(xí)項目來說,選擇正確的模型通常是一種藝術(shù)而非科學(xué)的行為。如果你想要使用我自定義的庫,你可以在我的 github 主頁上找到它,但是這個庫非常混亂而且沒有定期維護(hù)!如果你想要貢獻(xiàn)自己的力量,請隨時復(fù)刻我的項目。
利用 Doc2Vec 分析電影評論數(shù)據(jù)
? ? ? ?利用詞向量均值對推文進(jìn)行分析效果不錯,這是因為推文通常只有十幾個單詞,所以即使經(jīng)過平均化處理仍能保持相關(guān)的特性。一旦我們開始分析段落數(shù)據(jù)時,如果忽略上下文和單詞順序的信息,那么我們將會丟掉許多重要的信息。在這種情況下,最好是使用 Doc2Vec 來創(chuàng)建輸入信息。作為一個示例,我們將使用 IMDB 電影評論數(shù)據(jù)及來測試 Doc2Vec 在情感分析中的有效性。該數(shù)據(jù)集包含 25000 條樂觀的電影評論,25000 條悲觀評論和 50000 條尚未添加標(biāo)簽的評論。我們首先對未添加標(biāo)簽的評論數(shù)據(jù)構(gòu)建 Doc2Vec 模型:
?
這個代碼創(chuàng)建了 LabeledSentence 類型的對象:
?
? ? ? ?接下來,我們舉例說明 Doc2Vec 的兩個模型,DM 和 DBOW。gensim 的說明文檔建議多次訓(xùn)練數(shù)據(jù)集并調(diào)整學(xué)習(xí)速率或在每次訓(xùn)練中打亂輸入信息的順序。我們從Doc2Vec 模型中獲得電影評論向量。
?
現(xiàn)在我們準(zhǔn)備利用評論向量構(gòu)建分類器模型。我們將再次使用 sklearn 中的 SGDClassifier。
?
這個模型的預(yù)測精度為 86%,我們還可以利用下面的代碼繪制 ROC 曲線:
?
?
原論文中聲稱:與簡單羅吉斯回歸模型相比,他們利用 50 個節(jié)點的神經(jīng)網(wǎng)絡(luò)分類器能獲得較高的預(yù)測精度。
?
? ? ? ?有趣的是,在這里我們并沒有看到這樣的改進(jìn)效果。該模型的預(yù)測精度為 85%,我們沒有看到他們所聲稱的 7.42% 誤差率。這可能存在以下幾個原因:我們沒有對訓(xùn)練集和測試集進(jìn)行足夠多的訓(xùn)練,他們的 Doc2Vec 和 ANN 的實現(xiàn)方法不一樣等原因。因為論文中沒有詳細(xì)的說明,所以我們很難知道到底是哪個原因。不管這么說,沒有經(jīng)過很多的數(shù)據(jù)預(yù)處理和變量選擇過程,我們?nèi)匀蝗〉昧?86% 的預(yù)測精度。而且這不需要復(fù)雜的卷積和樹圖資料庫。
結(jié)論
? ? ? ? 我希望你已經(jīng)看到 Word2Vec 和 Doc2Vec 的實用性和便捷性。通過一個非常簡單的算法,我們可以獲得豐富的詞向量和段落向量,這些向量數(shù)據(jù)可以被應(yīng)用到各種各樣的 NLP 應(yīng)用中。更關(guān)鍵的是谷歌公司開放了他們自己的預(yù)訓(xùn)練詞向量結(jié)果,這個詞向量是基于一個別人難以獲取的大數(shù)據(jù)集而訓(xùn)練得到的。如果你想要在大數(shù)據(jù)集中訓(xùn)練自己的向量結(jié)果,現(xiàn)在已經(jīng)有一個基于 Apache Spark 的 Word2Vec 實現(xiàn)工具。
(https://spark.apache.org/mllib/)
轉(zhuǎn)載于:https://www.cnblogs.com/zhangliustc/p/5921001.html
總結(jié)
以上是生活随笔為你收集整理的情感分析的现代方法(包含word2vec Doc2Vec)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: springmvc的讲解
- 下一篇: 聊聊原子操作那些事