當(dāng)前位置：首頁 >

python 文本分析库_Python有趣|中文文本情感分析

發(fā)布時間：2025/3/21 53 豆豆

生活随笔收集整理的這篇文章主要介紹了 python 文本分析库_Python有趣|中文文本情感分析小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

前言

前文給大家說了python機器學(xué)習(xí)的路徑，這光說不練假把式，這次，羅羅攀就帶大家完成一個中文文本情感分析的機器學(xué)習(xí)項目，今天的流程如下：

數(shù)據(jù)情況和處理

數(shù)據(jù)情況

這里的數(shù)據(jù)為大眾點評上的評論數(shù)據(jù)（王樹義老師提供），主要就是評論文字和打分。我們首先讀入數(shù)據(jù)，看下數(shù)據(jù)的情況：

import numpy as np

import pandas as pd

data = pd.read_csv('data1.csv')

data.head()

情感劃分

對star字段看唯一值，打分有1，2，4，5。

中文文本情感分析屬于我們的分類問題（也就是消極和積極），這里是分?jǐn)?shù)，那我們設(shè)計代碼，讓分?jǐn)?shù)小于3的為消極（0），大于3的就是積極（1）。

定義一個函數(shù)，然后用apply方法，這樣就得到了一個新列（數(shù)據(jù)分析里的知識點）

def make_label(star):

if star > 3:

return 1

else:

return 0

data['sentiment'] = data.star.apply(make_label)

工具包（snownlp）

我們首先不用機器學(xué)習(xí)方法，我們用一個第三庫（snownlp），這個庫可以直接對文本進行情感分析（記得安裝），使用方法也是很簡單。返回的是積極性的概率。

from snownlp import SnowNLP

text1 = '這個東西不錯'

text2 = '這個東西很垃圾'

s1 = SnowNLP(text1)

s2 = SnowNLP(text2)

print(s1.sentiments,s2.sentiments)

# result 0.8623218777387431 0.21406279508712744

這樣，我們就定義大于0.6，就是積極的，同樣的方法，就能得到結(jié)果。

def snow_result(comemnt):

s = SnowNLP(comemnt)

if s.sentiments >= 0.6:

return 1

else:

return 0

data['snlp_result'] = data.comment.apply(snow_result)

上面前五行的結(jié)果看上去很差（5個就2個是對的），那到底有多少是對的了？我們可以將結(jié)果與sentiment字段對比，相等的我就計數(shù)，這樣在除以總樣本，就能看大概的精度了。

counts = 0

for i in range(len(data)):

if data.iloc[i,2] == data.iloc[i,3]:

counts+=1

print(counts/len(data))

# result 0.763

樸素貝葉斯

前面利用第三庫的方法，結(jié)果不是特別理想（0.763），而且這種方法存在一個很大的弊端：針對性差。

什么意思了？我們都知道，不同場景下，語言表達都是不同的，例如這個在商品評價中有用，在博客評論中可能就不適用了。

所以，我們需要針對這個場景，訓(xùn)練自己的模型。本文將使用sklearn實現(xiàn)樸素貝葉斯模型（原理在后文中講解）。slearn小抄先送上（下文有高清下載地址）。

大概流程為：

導(dǎo)入數(shù)據(jù)

切分?jǐn)?shù)據(jù)

數(shù)據(jù)預(yù)處理

訓(xùn)練模型

測試模型

jieba分詞

首先，我們對評論數(shù)據(jù)分詞。為什么要分詞了？中文和英文不一樣，例如：i love python，就是通過空格來分詞的；我們中文不一樣，例如：我喜歡編程，我們要分成我/喜歡/編程（通過空格隔開），這個主要是為了后面詞向量做準(zhǔn)備。

import jieba

def chinese_word_cut(mytext):

return " ".join(jieba.cut(mytext))

data['cut_comment'] = data.comment.apply(chinese_word_cut)

劃分?jǐn)?shù)據(jù)集

分類問題需要x（特征），和y（label）。這里分詞后的評論為x，情感為y。按8:2的比例切分為訓(xùn)練集和測試集。

X = data['cut_comment']

y = data.sentiment

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=22)

詞向量（數(shù)據(jù)處理）

電腦是沒法識別文字的，只能識別數(shù)字。那文本怎么處理了，最簡單的就是詞向量。什么是詞向量，我們通過一個案例來說明下，下面是我們的文本：

I love the dog

I hate the dog

詞向量處理后就是這樣的：

簡單的說，詞向量就是我們將整個文本出現(xiàn)的單詞一一排列，然后每行數(shù)據(jù)去映射到這些列上，出現(xiàn)的就是1，沒出現(xiàn)就是0，這樣，文本數(shù)據(jù)就轉(zhuǎn)換成了01稀疏矩陣（這也是上文中文分詞的原因，這樣一個詞就是一個列）。

好在，sklearn中直接有這樣的方法給我們使用。CountVectorizer方法常用的參數(shù)：

max_df：在超過這一比例的文檔中出現(xiàn)的關(guān)鍵詞（過于平凡），去除掉。

min_df：在低于這一數(shù)量的文檔中出現(xiàn)的關(guān)鍵詞（過于獨特），去除掉。

token_pattern：主要是通過正則處理掉數(shù)字和標(biāo)點符號。

stop_words：設(shè)置停用詞表，這樣的詞我們就不會統(tǒng)計出來（多半是虛擬詞，冠詞等等），需要列表結(jié)構(gòu)，所以代碼中定義了一個函數(shù)來處理停用詞表。

from sklearn.feature_extraction.text import CountVectorizer

def get_custom_stopwords(stop_words_file):

with open(stop_words_file) as f:

stopwords = f.read()

stopwords_list = stopwords.split('\n')

custom_stopwords_list = [i for i in stopwords_list]

return custom_stopwords_list

stop_words_file = '哈工大停用詞表.txt'

stopwords = get_custom_stopwords(stop_words_file)

vect = CountVectorizer(max_df = 0.8,

min_df = 3,

token_pattern=u'(?u)\\b[^\\d\\W]\\w+\\b',

stop_words=frozenset(stopwords))

如果想看到底出來的是什么數(shù)據(jù)，可通過下面代碼查看。

test = pd.DataFrame(vect.fit_transform(X_train).toarray(), columns=vect.get_feature_names())

test.head()

訓(xùn)練模型

訓(xùn)練模型，很簡單，用的是樸素貝葉斯算法，結(jié)果為0.899，比之前的snownlp好很多了。

from sklearn.naive_bayes import MultinomialNB

nb = MultinomialNB()

X_train_vect = vect.fit_transform(X_train)

nb.fit(X_train_vect, y_train)

train_score = nb.score(X_train_vect, y_train)

print(train_score)

# result 0.899375

測試數(shù)據(jù)

當(dāng)然，我們需要測試數(shù)據(jù)來驗證精確度了，結(jié)果為0.8275，精度還是不錯的。

X_test_vect = vect.transform(X_test)

print(nb.score(X_test_vect, y_test))

# result 0.8275

當(dāng)然，我們也可以將結(jié)果放到data數(shù)據(jù)中：

X_vec = vect.transform(X)

nb_result = nb.predict(X_vec)

data['nb_result'] = nb_result

討論和不足

樣本量少

模型沒調(diào)參

沒有交叉驗證

今日互動

留言打卡：說說評論杠精那些事。公眾號后臺回復(fù)【打卡】，加入打卡學(xué)習(xí)群，2019年一起搞事情。

總結(jié)

以上是生活随笔為你收集整理的python 文本分析库_Python有趣|中文文本情感分析的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python找水仙花数_Python一句
下一篇： python协程实时输出_python协

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python 文本分析库_Python有趣|中文文本情感分析

總結(jié)