日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

jieba库词频统计_用jieba库统计文本词频及云词图的生成

發(fā)布時(shí)間:2025/3/8 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 jieba库词频统计_用jieba库统计文本词频及云词图的生成 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、安裝jieba庫(kù)

:\>pip install jieba #或者 pip3 install jieba

二、jieba庫(kù)解析

jieba庫(kù)主要提供提供分詞功能,可以輔助自定義分詞詞典。

jieba庫(kù)中包含的主要函數(shù)如下:

jieba.cut(s) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 精確模式,返回一個(gè)可迭代的數(shù)據(jù)類型

jieba.cut(s,cut_all=True) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? 全模式,輸出文本s中所有可能的單詞

jieba.cut_for_search(s) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? 搜索引擎模式,適合搜索引擎建立索引的分詞結(jié)果

jieba.lcut(s) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? 精確模式,返回一個(gè)列表類型,建議使用

jieba.lcut(s,cut_all=True) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 全模式,返回一個(gè)列表類型,建議使用

jieba.lcut_for_search(s) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 搜索引擎模式,返回一個(gè)列表類型,建議使用

jieba.add_word(w) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 向分詞詞典中增加新詞w

三、用jieba庫(kù)統(tǒng)計(jì)文本的詞頻

《流浪地球》是劉慈欣的一部作品。該書講述了龐大的地球逃脫計(jì)劃,逃離太陽(yáng)系,前往新家園。從網(wǎng)上獲取該書的文本文件,保存于桌面上,命名為“流浪地球。”

現(xiàn)統(tǒng)計(jì)其文本中出現(xiàn)次數(shù)最多的是個(gè)詞語(yǔ),源代碼如下:

importjieba

txt= open("C:\\Users\\Administrator\\Desktop\\流浪地球.txt", "r", encoding='utf-8').read()

words=jieba.lcut(txt)

counts={}for word inwords:if len(word) == 1: #排除單個(gè)字符的分詞結(jié)果

continue

else:

counts[word]= counts.get(word,0) + 1items=list(counts.items())

items.sort(key=lambda x:x[1], reverse=True)for i in range(10):

word, count=items[i]print ("{0:<10}{1:>5}".format(word, count))

運(yùn)行程序后,輸出結(jié)果如下:

故容易得知流浪地球中出現(xiàn)頻次較高的詞語(yǔ)

四、結(jié)合jieba庫(kù)的詞頻統(tǒng)計(jì)制作詞云圖

1、準(zhǔn)備工作:pip 安裝 jieba , wordcloud ,matplotlib

2以阿Q正傳為例:

源代碼為:

from wordcloud importWordCloudimportmatplotlib.pyplot as pltimportjieba#生成詞云

defcreate_word_cloud(filename):

text= open("{}.txt".format(filename)).read()#結(jié)巴分詞

wordlist = jieba.cut(text, cut_all=True)

wl= " ".join(wordlist)#設(shè)置詞云

wc =WordCloud(#設(shè)置背景顏色

background_color="white",#設(shè)置最大顯示的詞云數(shù)

max_words=2000,#這種字體都在電腦字體中,一般路徑

font_path='C:\Windows\Fonts\simfang.ttf',

height=1200,

width=1600,#設(shè)置字體最大值

max_font_size=200,#設(shè)置有多少種隨機(jī)生成狀態(tài),即有多少種配色方案

random_state=100,

)

myword= wc.generate(wl) #生成詞云

#展示詞云圖

plt.imshow(myword)

plt.axis("off")

plt.show()

wc.to_file('p.png') #把詞云保存下

if __name__ == '__main__':

create_word_cloud('C:\\Users\\Administrator\\Desktop\\阿Q正傳')

運(yùn)行程序后,輸出結(jié)果如下:

故可得出文本的云詞圖。

總結(jié)

以上是生活随笔為你收集整理的jieba库词频统计_用jieba库统计文本词频及云词图的生成的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。