jieba库词频统计_网购评论之词频分析
日常數據分析中,詞頻分析是一個很好的文本挖掘方法,這篇文章說說詞頻分析方法。
這里選用京東商場中購買手機的部分數據信息,利用jieba詞庫對購物評論進行分詞,提取客戶群體對手機的關注點。
數據集來源:https://www.kesci.com/home/project/5ece06fb12fba90036cf26bd/dataset
1.導出所需庫
#導入所需基本包 import pandas as pd # 導入擴展庫 import re # 正則表達式庫 import jieba # 結巴分詞 import jieba.posseg # 詞性獲取 import collections # 詞頻統計庫2.導入文件
#導入數據集 data = pd.read_csv('C:/Users/dwhyx/Downloads/data/京東評論數據.csv') #查看數據基本情況 data.info()共21個字段,基本上購物平臺后臺基本字段,如:sku_id,item_name(商品名稱),content(評論),creation_time(創建時間),其中content是我們本次主要分析對象。
#預覽文件,展示前3行 data.head(3)通過對文件預覽,可以對整個數據集有更加直觀了解。(若對本數據集涉及的字段比較熟悉,可以省略,這里方便第一次接觸網購后臺數據的同學)
3.合并文本單元格
content= ("".join(i for i in data['content'])) #利用循環語句合并文本這里只分析首次評論(content),暫不考慮用戶追加的評論(after_user_comment)。
4.文本處理
#預處理 pattern = re.compile(u't|n|.|-|:|;|)|(|?| |"') # 定義正則表達式匹配模式(空格等) string_data = re.sub(pattern, '', content) # 將符合模式的字符去除#文本分詞 seg_list_exact = jieba.cut(string_data, cut_all=False, HMM=True) # 精確模式分詞+HMM object_list = []#獲取停用詞 with open(r'C:/Users/dwhyx/Downloads/data/中文停用詞庫.txt', encoding='gbk') as file:stopwords = [x.strip() for x in file.readlines()]#去除停用詞(目的是去掉一些意義不大的詞) for word in seg_list_exact: # 循環讀出每個分詞if word not in stopwords: # 如果不在去除詞庫中object_list.append(word) # 分詞追加到列表5.詞頻統計
word_counts = collections.Counter(object_list) # 對分詞做詞頻統計 word_counts_top = word_counts.most_common(100) # 獲取前100個最高頻的詞 print(word_counts_top)輸入結果如下:
如果想把結果保存為Excel表格,可以將字典形式轉化為列表,寫入Excel。
import csv Excel = open("評論詞頻分析.csv", 'w', newline = '') #打開表格文件,若表格文件不存在則創建 write = csv.writer(Excel) #創建一個csv的writer對象用于寫每一行內容 write.writerow(['詞語','出現次數']) #寫表格表頭 item = list(word_counts.items()) #將字典轉化為列表格式 item.sort(key = lambda x: x[1], reverse = True) #對列表按照第二列進行排序 for i in range(100):write.writerow(item[i]) #把前100詞語寫入表格Excel只截取部分6.詞頻分析
從前100個高頻關鍵詞中看出,“不錯”出現了1294次,說明這批手機訂單客戶評價對商品較為滿意。這點也可以結合數據集中score(評分)字段,繪制直方圖發現5分好評占絕大部分。
其次,我們能看出“速度”、“屏幕”、“電池”、“好看”、“內存”、“質量”、“攝像頭”等高頻詞語,說明客戶對手機運行的速度,電池容量大小,手機外觀、內存等配置還是比較在意的,廠商可以針對這些客戶的關注點,更好的改進,優化。
最后,評論中出現“小米”、“華為”、“蘋果”等字眼,因為本數據集item_name(商品名稱)已脫敏,不太清楚具體每個訂單銷售的手機品牌,評論中出現各手機品牌,可能是本訂單是相關品牌手機,也有可能評論中與其他手機品牌對比。我們可以通過關鍵詞匹配,查詢具體評論內容,進行瀏覽閱讀,這里以搜索“小米”相關評論內容為例。
為了讓print內容完全展示,便于閱讀,可以對pandas展示列表進行設置總結
詞頻挖掘分析在運營中用處很多,比如,某款新上產品,想要了解新產品具體情況,可以跟蹤分析發布后一個月的app評論或網上爬取貼吧論壇等相關文章,分析客戶的關注點和反饋比較多的問題,針對客戶關注點可以側重的優化,對反饋比較的問題優先解決。運營中也可以根據時間序列對評論進行分析,分析運營過程中客戶關注點的變動,及時把握客戶心理等變化。畢竟市場是檢驗需要的唯一標準。
總結
以上是生活随笔為你收集整理的jieba库词频统计_网购评论之词频分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 原生js已载入就执行函数_手写Commo
- 下一篇: accessdeniedexceptio