當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

jieba是python中一个重要的标准函数库_python——Jieba库整理（基础知识+实例）

發(fā)布時間：2025/3/19 python 23 豆豆

生活随笔收集整理的這篇文章主要介紹了 jieba是python中一个重要的标准函数库_python——Jieba库整理（基础知识+实例）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

先上目錄,1.Jieba庫是什么

2.Jieba庫的使用（常見方法及函數(shù)）

3.實例——英文文本解析和中文文本解析

1.Jieba庫是什么

Jieba庫是優(yōu)秀的中文分詞第三方庫，中文文本需要通過分詞獲得單個的詞語。

Jieba庫的分詞原理：利用一個中文詞庫，確定漢字之間的關(guān)聯(lián)概率，漢字間概率大的組成詞組，形成分詞結(jié)果。除了分詞，用戶還可以添加自定義的詞組。

2.Jieba庫的使用

Jieba庫分詞有3種模式

1）精確模式：就是把一段文本精確地切分成若干個中文單詞，若干個中文單詞之間經(jīng)過組合，就精確地還原為之前的文本。其中不存在冗余單詞。

2）全模式：將一段文本中所有可能的詞語都掃描出來，可能有一段文本它可以切分成不同的模式，或者有不同的角度來切分變成不同的詞語，在全模式下，Jieba庫會將各種不同的組合都挖掘出來。分詞后的信息再組合起來會有冗余，不再是原來的文本。

3）搜索引擎模式：在精確模式基礎(chǔ)上，對發(fā)現(xiàn)的那些長的詞語，我們會對它再次切分，進而適合搜索引擎對短詞語的索引和搜索。也有冗余。

Jieba庫常用函數(shù)：重點記輸入什么類型（字符串？列表？）、輸出什么類型（字符串？列表？）；

搜索引擎模式：首先按照精確模式進行分詞，分出來有“中華人民共和國”這個詞，搜索引擎模式覺得它太長，又對改詞進行了切詞。

3.實例——要注意英文文本和中文文本解析的不同方法

1）英文文本解析

溫馨提示：這里有很多關(guān)于文本的使用，相關(guān)部分我會寫在另一篇文章中~~

def getext():

fname=input("請輸入要打開的文件路徑及名稱，以txt結(jié)尾：")

fo=open(fname) #打開該文件，默認是文本文件，文本文件其實就是一個字符串

txt=fo.read() #<文件名>.read() 默認是讀取文件全部內(nèi)容

txt=txt.lower() #將文本所有字母小寫

for ch in '!"#$%()*+<_>/:;<>=?@[\]\^_{}|~':

txt=txt.replace(ch,'') #將文本中含有的所有上述字符都變?yōu)榭崭?/p>

return txt

hamlettxt=getext()

words=hamlettxt.split() #默認值，是將文本中單詞按照空格分成一個一個的單詞，并將結(jié)果保存成列表類型

counts={} #定義一個空字典類型，因為我們希望單詞和該單詞出現(xiàn)的次數(shù)作為一個鍵值對

for word in words: #遍歷words列表的每一個值

counts[word]=counts.get(word,0)+1

items=list(counts.items()) #將該字典轉(zhuǎn)化成一個列表,其中的鍵值對是以元組的形式存在

items.sort(key=lambda x:x[1],reverse=True)

for i in range(10):

word,count=items[i] #items[i] 是個元組，元組可以帶括號，可以不帶括號；賦值

print("{:<10}{:>5}".format(word,count))

2）中文文本解析

溫馨提示：1.continue是結(jié)束當(dāng)次循環(huán)，繼續(xù)執(zhí)行后續(xù)次數(shù)循環(huán)

<列表>.sort()函數(shù)是列表的排序方法，相關(guān)內(nèi)容有點多，后面我會另外放在一篇文章中

import jieba

fname=input("請輸入要打開的文件地址及文本名稱，以.txt結(jié)尾，路徑要使用/:")

fo=open(fname,encoding="utf-8")

txt=fo.read()

liebiao=jieba.lcut(txt) #分詞后形成的是列表形式

counts={}

for word in liebiao:

if len(word)==1:

continue

else:

counts[word] = counts.get(word, 0) + 1

items=list(counts.items())

items.sort(key=lambda x:x[1],reverse=True)

for i in range(15):

word,count=items[i]

print('{:<10}{:>5}'.format(word,count))

好啦，如果以后有新的發(fā)現(xiàn)會繼續(xù)補充~~

各位看到的小伙伴，如果覺得有用，可不可以點個贊，蟹蟹蟹蟹~你們的喜歡是我堅持的動力！！

總結(jié)

以上是生活随笔為你收集整理的jieba是python中一个重要的标准函数库_python——Jieba库整理（基础知识+实例）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： java byte数组转string_J
下一篇： python动态显示进度条_实例详解py