當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

【万能小说分析】【python】【词频分析】【词频统计】【jieba】【matplotlib】【wordcloud】【绘图】

發(fā)布時(shí)間：2024/8/26 python 48 豆豆

生活随笔收集整理的這篇文章主要介紹了【万能小说分析】【python】【词频分析】【词频统计】【jieba】【matplotlib】【wordcloud】【绘图】小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

測(cè)試文章【無(wú)盡武裝】與字?jǐn)?shù)【557萬(wàn)】分析：

1、環(huán)境需求：【python】【jieba】【wordcloud】【matplotlib】

我這里提供了【wordcloud】與【matplotlib】，【jieba如果使用失敗請(qǐng)查看我【python爬蟲(chóng)】文章里的解決內(nèi)容】

2、提供的代碼：【只需要更換你想解析文本的地址即可】

import jieba import os from wordcloud import WordCloud import matplotlib.pyplot as pltfile=open(r"E:\save\study\python\keyWords\keyWords\無(wú)盡武裝.txt","r") strs=file.read() file.close() words = jieba.lcut(strs)# 使用精確模式對(duì)文本進(jìn)行分詞 counts = {}# 通過(guò)鍵值對(duì)的形式存儲(chǔ)詞語(yǔ)及其出現(xiàn)的次數(shù) #統(tǒng)計(jì)詞頻 for word in words:if len(word) == 1: # 單個(gè)詞語(yǔ)不計(jì)算在內(nèi)continueelse:counts[word] = counts.get(word, 0) + 1 # 遍歷所有詞語(yǔ)，每出現(xiàn)一次其對(duì)應(yīng)的值加 1 #注解：dict.get(word,0)當(dāng)能查詢到相匹配的字典時(shí)，就會(huì)顯示相應(yīng)key對(duì)應(yīng)的value，如果不能的話，就會(huì)顯示后面的這個(gè)參數(shù)#有些不重要的詞語(yǔ)但出現(xiàn)次數(shù)較多，可以通過(guò)構(gòu)建排除詞庫(kù)excludes來(lái)刪除 text=' '.join(words) excludes = {'一個(gè)','就是','我們','他們','你們','不可','知道','這里','卻說(shuō)','自己','這樣','怎么','不是', '不知','這個(gè)','不能','如此'} #刪除不重要的詞語(yǔ) for exword in excludes:del(counts[exword])items = list(counts.items()) items.sort(key=lambda x: x[1], reverse=True) # 根據(jù)詞語(yǔ)出現(xiàn)的次數(shù)進(jìn)行從大到小排序#輸出統(tǒng)計(jì)結(jié)果 for i in range(50):word, count = items[i]print("{0:<5}{1:>5}".format(word, count))#繪圖 wc=WordCloud(background_color='white',# 設(shè)置背景顏色font_path='msyh.ttc',# 若是有中文的話，這句代碼必須添加，不然會(huì)出現(xiàn)方框，不出現(xiàn)漢字 scale=2, #按照比例進(jìn)行放大畫(huà)布，如設(shè)置為2，則長(zhǎng)和寬都是原來(lái)畫(huà)布的1.5倍max_words=100,# 設(shè)置最大現(xiàn)實(shí)的字?jǐn)?shù) max_font_size=80,# 設(shè)置字體最大值 stopwords=excludes)# 設(shè)置停用詞 wc.generate(text) # 顯示詞云圖 plt.imshow(wc) plt.axis('off') plt.show() wc.to_file(r'無(wú)盡武裝詞頻統(tǒng)計(jì).jpg')

3、顯示效果與文件保存：

【會(huì)在當(dāng)前項(xiàng)目文件夾下保存名稱(chēng).jpg文件，測(cè)試代碼中是【無(wú)盡武裝詞頻統(tǒng)計(jì).jpg】自行更換即可】

希望能對(duì)大家有所幫助。

歡迎【點(diǎn)贊】、【評(píng)論】、【關(guān)注】、【收藏】、【打賞】，為推廣知識(shí)貢獻(xiàn)力量。

總結(jié)

以上是生活随笔為你收集整理的【万能小说分析】【python】【词频分析】【词频统计】【jieba】【matplotlib】【wordcloud】【绘图】的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：【时光之穿越一千年】python全文字频
下一篇：程序员数学基础【一、基础运算符号(整数、