基于Python分析实现酒店评论的中文情感
資源下載地址:https://download.csdn.net/download/sheziqiong/85820698
資源下載地址:https://download.csdn.net/download/sheziqiong/85820698
1 開發環境準備
1.1 Python環境
在python官網https://www.python.org/downloads/ 下載計算機對應的python版本,本人使用的是Python2.7.13的版本。
1.2 第三方模塊
本實例代碼的實現使用到了多個著名的第三方模塊,主要模塊如下所示:
- 1)Jieba
目前使用最為廣泛的中文分詞組件。下載地址:https://pypi.python.org/pypi/jieba/ - 2)Gensim
用于主題模型、文檔索引和大型語料相似度索引的python庫,主要用于自然語言處理(NLP)和信息檢索(IR)。下載地址:https://pypi.python.org/pypi/gensim
本實例中的維基中文語料處理和中文詞向量模型構建需要用到該模塊。 - 3)Pandas
用于高效處理大型數據集、執行數據分析任務的python庫,是基于Numpy的工具包。下載地址:https://pypi.python.org/pypi/pandas/0.20.1 - 4)Numpy
用于存儲和處理大型矩陣的工具包。下載地址:https://pypi.python.org/pypi/numpy - 5)Scikit-learn
用于機器學習的python工具包,python模塊引用名字為sklearn,安裝前還需要Numpy和Scipy兩個Python庫。官網地址:http://scikit-learn.org/stable/ - 6)Matplotlib
Matplotlib是一個python的圖形框架,用于繪制二維圖形。下載地址:https://pypi.python.org/pypi/matplotlib - 7)Tensorflow
Tensorflow是一個采用數據流圖用于數值計算的開源軟件庫,用于人工智能領域。
官網地址:http://www.tensorfly.cn/
下載地址:https://pypi.python.org/pypi/tensorflow/1.1.0
2 數據獲取
2.1 停用詞詞典
本文使用中科院計算所中文自然語言處理開放平臺發布的中文停用詞表,包含了1208個停用詞。下載地址:http://www.hicode.cc/download/view-software-13784.html
2.2 正負向語料庫
文本從http://www.datatang.com/data/11936 下載“有關中文情感挖掘的酒店評論語料”作為訓練集與測試集,該語料包含了4種語料子集,本文選用正負各1000的平衡語料(ChnSentiCorp_htl_ba_2000)作為數據集進行分析。
3 數據預處理
3.1 正負向語料預處理
下載并解壓ChnSentiCorp_htl_ba_2000.rar文件,得到的文件夾中包含neg(負向語料)和pos(正向語料)兩個文件夾,而文件夾中的每一篇評論為一個txt文檔,為了方便之后的操作,需要把正向和負向評論分別規整到對應的一個txt文件中,即正向語料的集合文檔(命名為2000_pos.txt)和負向語料的集合文檔(命名為2000_neg.txt)。
具體Python實現代碼如下所示:
運行完成后得到2000_pos.txt和2000_neg.txt兩個文本文件,分別存放正向評論和負向評論,每篇評論為一行。文檔部分截圖如下所示:
3.2 中文文本分詞
本文采用結巴分詞分別對正向語料和負向語料進行分詞處理。特別注意,在執行代碼前需要把txt源文件手動轉化成UTF-8格式,否則會報中文編碼的錯誤。在進行分詞前,需要對文本進行去除數字、字母和特殊符號的處理,使用python自帶的string和re模塊可以實現,其中string模塊用于處理字符串操作,re模塊用于正則表達式處理。
具體實現代碼如下所示:
處理完成后,得到2000_pos_cut.txt和2000_neg_cut.txt兩個txt文件,分別存放正負向語料分詞后的結果。分詞結果部分截圖如下所示:
3.3 去停用詞
分詞完成后,即可讀取停用詞表中的停用詞,對分詞后的正負向語料進行匹配并去除停用詞。去除停用詞的步驟非常簡單,主要有兩個:
- 1)讀取停用詞表;
- 2)遍歷分詞后的句子,將每個詞丟到此表中進行匹配,若停用詞表存在則替換為空。
具體實現代碼如下所示:
根據代碼所示,停用詞表的獲取使用到了python特有的廣播形式,一句代碼即可搞定:
stopkey = [w.strip() for w in codecs.open('data\stopWord.txt', 'r', encoding='utf-8').readlines()]讀取出的每一個停用詞必須要經過去符號處理即w.strip(),因為讀取出的停用詞還包含有換行符和制表符,如果不處理則匹配不上。代碼執行完成后,得到2000_neg_cut_stopword.txt和2000_pos_cut_stopword.txt兩個txt文件。
由于去停用詞的步驟是在句子分詞后執行的,因此通常與分詞操作在同一個代碼段中進行,即在句子分詞操作完成后直接調用去停用詞的函數,并得到去停用詞后的結果,再寫入結果文件中。本文是為了便于步驟的理解將兩者分開為兩個代碼文件執行,各位可根據自己的需求進行調整。
3.4 獲取特征詞向量
根據以上步驟得到了正負向語料的特征詞文本,而模型的輸入必須是數值型數據,因此需要將每條由詞語組合而成的語句轉化為一個數值型向量。常見的轉化算法有Bag of Words(BOW)、TF-IDF、Word2Vec。本文采用Word2Vec詞向量模型將語料轉換為詞向量。
由于特征詞向量的抽取是基于已經訓練好的詞向量模型,而wiki中文語料是公認的大型中文語料,本文擬從wiki中文語料生成的詞向量中抽取本文語料的特征詞向量。Wiki中文語料的Word2vec模型訓練在之前寫過的一篇文章“利用Python實現wiki中文語料的word2vec模型構建” 中做了詳盡的描述,在此不贅述。即本文從文章最后得到的wiki.zh.text.vector中抽取特征詞向量作為模型的輸入。
獲取特征詞向量的主要步驟如下:
- 1)讀取模型詞向量矩陣;
- 2)遍歷語句中的每個詞,從模型詞向量矩陣中抽取當前詞的數值向量,一條語句即可得到一個二維矩陣,行數為詞的個數,列數為模型設定的維度;
- 3)根據得到的矩陣計算矩陣均值作為當前語句的特征詞向量;
- 4)全部語句計算完成后,拼接語句類別代表的值,寫入csv文件中。
主要代碼如下圖所示:
代碼執行完成后,得到一個名為2000_data.csv的文件,第一列為類別對應的數值(1-pos, 0-neg),第二列開始為數值向量,每一行代表一條評論。結果的部分截圖如下所示:
3.5 降維
Word2vec模型設定了400的維度進行訓練,得到的詞向量為400維,本文采用PCA算法對結果進行降維。具體實現代碼如下所示:
運行代碼,根據結果圖發現前100維就能夠較好的包含原始數據的絕大部分內容,因此選定前100維作為模型的輸入。
4 分類模型構建
本文采用支持向量機(SVM)作為本次實驗的中文文本分類模型,其他分類模型采用相同的分析流程,在此不贅述。
支持向量機(SVM)是一種有監督的機器學習模型。本文首先采用經典的機器學習算法SVM作為分類器算法,通過計算測試集的預測精度和ROC曲線來驗證分類器的有效性,一般來說ROC曲線的面積(AUC)越大模型的表現越好。
首先使用SVM作為分類器算法,隨后利用matplotlib和metric庫來構建ROC曲線。具體python代碼如下所示:
運行代碼,得到Test Accuracy: 0.88,即本次實驗測試集的預測準確率為88%,ROC曲線如下圖所示。
資源下載地址:https://download.csdn.net/download/sheziqiong/85820698
資源下載地址:https://download.csdn.net/download/sheziqiong/85820698
總結
以上是生活随笔為你收集整理的基于Python分析实现酒店评论的中文情感的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Mybatis、使用注解的方式编写用户和
- 下一篇: 第一百二十五期:程序员的自我救赎,使用P