日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

jieba库的使用和好看的词元

發布時間:2025/3/14 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 jieba库的使用和好看的词元 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一.jieba庫的使用與說明

1.jieba庫基本介紹

jieba庫是優秀的中文分詞第三方庫

? ? ? ? ?-中文文本需要通過分詞獲得單個的詞語
????? ? ?- jieba是優秀的中文分詞第三方庫,需要額外安裝

????? ? ?- jieba庫提供三種分詞模式,最簡單只需掌握一個函數

2.jieba庫使用說明

? (1)、jieba分詞的三種模式

????? ? ?精確模式、全模式、搜索引擎模式

????? ? ?- 精確模式:把文本精確的切分開,不存在冗余單詞
????? ? ?- 全模式:把文本中所有可能的詞語都掃描出來,有冗余

????? ? ?- 搜索引擎模式:在精確模式基礎上,對長詞再次切分

(2)、jieba庫常用函數

?3.jieba庫的利用實例顯示

?

4.利用jieba庫統計三國演義的人物出場次數

(1)代碼如下

import jieba excludes = {"將軍","卻說","荊州","二人","不可","不能","如此","商議","軍士","如何","主公","軍馬","左右",} txt = open("./三國演義.txt", "r", encoding='utf-8').read() words = jieba.lcut(txt) counts = {} for word in words:if len(word) == 1:continueelif word == "諸葛亮" or word == "孔明曰":rword = "孔明"elif word == "關公" or word == "云長":rword = "關羽"elif word == "玄德" or word == "玄德曰":rword = "劉備"elif word == "孟德" or word == "丞相":rword = "曹操"else:rword = wordcounts[rword] = counts.get(rword,0) + 1 for word in excludes:del counts[word] items = list(counts.items()) items.sort(key=lambda x:x[1], reverse=True) for i in range(5):word, count = items[i]print ("{0:<10}{1:>5}".format(word, count))

(2)結果顯示如下:

二、利用好看的詞元

1.Python的詞元圖的生成

(1)安裝庫

pip install jieba wordcloud matplotlib

(2)準備

  • txt文本
  • 字體(simhei.ttf)
  • 詞云背景圖片

由上面的三國演義的文本txt可以生成如下圖形:

Python jieba和詞元的利用到此結束....................

轉載于:https://www.cnblogs.com/psl1234/p/10652467.html

與50位技術專家面對面20年技術見證,附贈技術全景圖

總結

以上是生活随笔為你收集整理的jieba库的使用和好看的词元的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。