【万能小说分析】【python】【词频分析】【词频统计】【jieba】【matplotlib】【wordcloud】【绘图】
生活随笔
收集整理的這篇文章主要介紹了
【万能小说分析】【python】【词频分析】【词频统计】【jieba】【matplotlib】【wordcloud】【绘图】
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
測(cè)試文章【無(wú)盡武裝】與字?jǐn)?shù)【557萬(wàn)】分析:
1、環(huán)境需求:【python】【jieba】【wordcloud】【matplotlib】
我這里提供了【wordcloud】與【matplotlib】,【jieba如果使用失敗請(qǐng)查看我【python爬蟲(chóng)】文章里的解決內(nèi)容】
2、提供的代碼:【只需要更換你想解析文本的地址即可】
import jieba import os from wordcloud import WordCloud import matplotlib.pyplot as pltfile=open(r"E:\save\study\python\keyWords\keyWords\無(wú)盡武裝.txt","r") strs=file.read() file.close() words = jieba.lcut(strs)# 使用精確模式對(duì)文本進(jìn)行分詞 counts = {}# 通過(guò)鍵值對(duì)的形式存儲(chǔ)詞語(yǔ)及其出現(xiàn)的次數(shù) #統(tǒng)計(jì)詞頻 for word in words:if len(word) == 1: # 單個(gè)詞語(yǔ)不計(jì)算在內(nèi)continueelse:counts[word] = counts.get(word, 0) + 1 # 遍歷所有詞語(yǔ),每出現(xiàn)一次其對(duì)應(yīng)的值加 1 #注解:dict.get(word,0)當(dāng)能查詢到相匹配的字典時(shí),就會(huì)顯示相應(yīng)key對(duì)應(yīng)的value,如果不能的話,就會(huì)顯示后面的這個(gè)參數(shù)#有些不重要的詞語(yǔ)但出現(xiàn)次數(shù)較多,可以通過(guò)構(gòu)建排除詞庫(kù)excludes來(lái)刪除 text=' '.join(words) excludes = {'一個(gè)','就是','我們','他們','你們','不可','知道','這里','卻說(shuō)','自己','這樣','怎么','不是', '不知','這個(gè)','不能','如此'} #刪除不重要的詞語(yǔ) for exword in excludes:del(counts[exword])items = list(counts.items()) items.sort(key=lambda x: x[1], reverse=True) # 根據(jù)詞語(yǔ)出現(xiàn)的次數(shù)進(jìn)行從大到小排序#輸出統(tǒng)計(jì)結(jié)果 for i in range(50):word, count = items[i]print("{0:<5}{1:>5}".format(word, count))#繪圖 wc=WordCloud(background_color='white',# 設(shè)置背景顏色font_path='msyh.ttc',# 若是有中文的話,這句代碼必須添加,不然會(huì)出現(xiàn)方框,不出現(xiàn)漢字 scale=2, #按照比例進(jìn)行放大畫(huà)布,如設(shè)置為2,則長(zhǎng)和寬都是原來(lái)畫(huà)布的1.5倍max_words=100,# 設(shè)置最大現(xiàn)實(shí)的字?jǐn)?shù) max_font_size=80,# 設(shè)置字體最大值 stopwords=excludes)# 設(shè)置停用詞 wc.generate(text) # 顯示詞云圖 plt.imshow(wc) plt.axis('off') plt.show() wc.to_file(r'無(wú)盡武裝詞頻統(tǒng)計(jì).jpg')3、顯示效果與文件保存:
【會(huì)在當(dāng)前項(xiàng)目文件夾下保存名稱(chēng).jpg文件,測(cè)試代碼中是【無(wú)盡武裝詞頻統(tǒng)計(jì).jpg】自行更換即可】
希望能對(duì)大家有所幫助。
歡迎【點(diǎn)贊】、【評(píng)論】、【關(guān)注】、【收藏】、【打賞】,為推廣知識(shí)貢獻(xiàn)力量。
總結(jié)
以上是生活随笔為你收集整理的【万能小说分析】【python】【词频分析】【词频统计】【jieba】【matplotlib】【wordcloud】【绘图】的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【时光之穿越一千年】python全文字频
- 下一篇: 程序员数学基础【一、基础运算符号(整数、