日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

jieba库词频统计_网购评论之词频分析

發布時間:2024/9/3 编程问答 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 jieba库词频统计_网购评论之词频分析 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

日常數據分析中,詞頻分析是一個很好的文本挖掘方法,這篇文章說說詞頻分析方法。

這里選用京東商場中購買手機的部分數據信息,利用jieba詞庫對購物評論進行分詞,提取客戶群體對手機的關注點。

數據集來源:https://www.kesci.com/home/project/5ece06fb12fba90036cf26bd/dataset

1.導出所需庫

#導入所需基本包 import pandas as pd # 導入擴展庫 import re # 正則表達式庫 import jieba # 結巴分詞 import jieba.posseg # 詞性獲取 import collections # 詞頻統計庫

2.導入文件

#導入數據集 data = pd.read_csv('C:/Users/dwhyx/Downloads/data/京東評論數據.csv') #查看數據基本情況 data.info()

共21個字段,基本上購物平臺后臺基本字段,如:sku_id,item_name(商品名稱),content(評論),creation_time(創建時間),其中content是我們本次主要分析對象。

#預覽文件,展示前3行 data.head(3)

通過對文件預覽,可以對整個數據集有更加直觀了解。(若對本數據集涉及的字段比較熟悉,可以省略,這里方便第一次接觸網購后臺數據的同學)

3.合并文本單元格

content= ("".join(i for i in data['content'])) #利用循環語句合并文本

這里只分析首次評論(content),暫不考慮用戶追加的評論(after_user_comment)。

4.文本處理

#預處理 pattern = re.compile(u't|n|.|-|:|;|)|(|?| |"') # 定義正則表達式匹配模式(空格等) string_data = re.sub(pattern, '', content) # 將符合模式的字符去除#文本分詞 seg_list_exact = jieba.cut(string_data, cut_all=False, HMM=True) # 精確模式分詞+HMM object_list = []#獲取停用詞 with open(r'C:/Users/dwhyx/Downloads/data/中文停用詞庫.txt', encoding='gbk') as file:stopwords = [x.strip() for x in file.readlines()]#去除停用詞(目的是去掉一些意義不大的詞) for word in seg_list_exact: # 循環讀出每個分詞if word not in stopwords: # 如果不在去除詞庫中object_list.append(word) # 分詞追加到列表

5.詞頻統計

word_counts = collections.Counter(object_list) # 對分詞做詞頻統計 word_counts_top = word_counts.most_common(100) # 獲取前100個最高頻的詞 print(word_counts_top)

輸入結果如下:

如果想把結果保存為Excel表格,可以將字典形式轉化為列表,寫入Excel。

import csv Excel = open("評論詞頻分析.csv", 'w', newline = '') #打開表格文件,若表格文件不存在則創建 write = csv.writer(Excel) #創建一個csv的writer對象用于寫每一行內容 write.writerow(['詞語','出現次數']) #寫表格表頭 item = list(word_counts.items()) #將字典轉化為列表格式 item.sort(key = lambda x: x[1], reverse = True) #對列表按照第二列進行排序 for i in range(100):write.writerow(item[i]) #把前100詞語寫入表格

Excel只截取部分

6.詞頻分析

從前100個高頻關鍵詞中看出,“不錯”出現了1294次,說明這批手機訂單客戶評價對商品較為滿意。這點也可以結合數據集中score(評分)字段,繪制直方圖發現5分好評占絕大部分。

其次,我們能看出“速度”、“屏幕”、“電池”、“好看”、“內存”、“質量”、“攝像頭”等高頻詞語,說明客戶對手機運行的速度,電池容量大小,手機外觀、內存等配置還是比較在意的,廠商可以針對這些客戶的關注點,更好的改進,優化。

最后,評論中出現“小米”、“華為”、“蘋果”等字眼,因為本數據集item_name(商品名稱)已脫敏,不太清楚具體每個訂單銷售的手機品牌,評論中出現各手機品牌,可能是本訂單是相關品牌手機,也有可能評論中與其他手機品牌對比。我們可以通過關鍵詞匹配,查詢具體評論內容,進行瀏覽閱讀,這里以搜索“小米”相關評論內容為例。

為了讓print內容完全展示,便于閱讀,可以對pandas展示列表進行設置

總結

詞頻挖掘分析在運營中用處很多,比如,某款新上產品,想要了解新產品具體情況,可以跟蹤分析發布后一個月的app評論或網上爬取貼吧論壇等相關文章,分析客戶的關注點和反饋比較多的問題,針對客戶關注點可以側重的優化,對反饋比較的問題優先解決。運營中也可以根據時間序列對評論進行分析,分析運營過程中客戶關注點的變動,及時把握客戶心理等變化。畢竟市場是檢驗需要的唯一標準。

總結

以上是生活随笔為你收集整理的jieba库词频统计_网购评论之词频分析的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 人人玩人人干 | h视频在线免费观看 | 国产精品伦理一区二区 | 日日日日操 | 亚洲精品www久久久 一级aaa毛片 | 午夜不卡av免费 | 中文字幕精品久久久久人妻红杏1 | 中文字幕在线欧美 | 亚洲我射| 亚洲人性生活视频 | 九九在线精品 | 国产明星换脸xxxx色视频 | av中文字幕av | 欧美xxxx83d | 森林影视官网在线观看 | 国内成人精品 | 亚洲欧美综合久久 | 四虎成人永久免费视频 | 欧美精品一区二区视频 | 91免费视频国产 | 天天操夜夜干 | 6680新视觉电影免费观看 | 欧美午夜激情视频 | 成人精品一区二区三区电影 | 草草影院第一页 | 精品少妇人妻av免费久久久 | 69av网| 亚洲黄片一区二区 | 可以看黄色的网站 | 日韩伦理中文字幕 | 亚洲国产精品福利 | 国产高清无密码一区二区三区 | 狠狠干狠狠干狠狠干 | 蜜色影院 | 日韩99 | 欧美在线网站 | 国产综合区 | 男女激情av | 让人下面流水的视频 | 成人在线观看免费高清 | 99热久久这里只有精品 | 亚洲妇熟xx妇色黄蜜桃 | 麻豆网 | 欧美激情视频一区二区三区 | 18禁免费无码无遮挡不卡网站 | 欧美一性一乱一交一视频 | 久久午夜精品人妻一区二区三区 | av免费国产 | 免费国产高清 | 国产在线播 | 亚洲午夜精品一区二区三区他趣 | 一本色道久久综合狠狠躁 | 福利国产在线 | 在线免费观看高清视频 | 欧美成人三级精品 | av在线成人 | 日韩在线不卡 | 伊人色网| 麻豆av一区二区三区久久 | 日韩经典午夜福利发布 | 大奶一区二区 | 好吊妞精品 | 嫩草网站在线观看 | 日韩在线电影一区二区 | 国产午夜福利视频在线观看 | 亚洲专区一区 | 中文字幕在线视频日韩 | 鲁鲁在线| 国产成人无码一二三区视频 | 无码国产精品高潮久久99 | 久久国产精品免费看 | 亚洲人一区二区三区 | 熊出没之冬日乐翻天免费高清观看 | 美女洗澡隐私免费网站 | 成人黄色av网址 | 一区二区三区四区五区六区 | 毛片网站在线播放 | 懂色一区二区三区免费观看 | a v在线视频 | 亚洲精品少妇久久久久久 | 国产精品主播视频 | 亚洲激情一区二区 | 免费久久av| 熟女少妇精品一区二区 | 无遮挡在线观看 | 国产福利资源在线 | 午夜资源 | 亚洲精品在线视频免费观看 | 成人免费观看cn | 超碰免费视| 久久亚洲电影 | 麻豆精品视频 | 免费日韩成人 | 黑人操亚洲美女 | 在线播放国产精品 | 亚洲成色在线 | 日韩免费视频一区 | 国产麻豆一精品一av一免费 | 永久免费快色 |