日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

jieba是python中一个重要的标准函数库_python——Jieba库整理(基础知识+实例)

發(fā)布時間:2025/3/19 python 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 jieba是python中一个重要的标准函数库_python——Jieba库整理(基础知识+实例) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

先上目錄,1.Jieba庫是什么

2.Jieba庫的使用(常見方法及函數(shù))

3.實例——英文文本解析和中文文本解析

1.Jieba庫是什么

Jieba庫是優(yōu)秀的中文分詞第三方庫,中文文本需要通過分詞獲得單個的詞語。

Jieba庫的分詞原理:利用一個中文詞庫,確定漢字之間的關(guān)聯(lián)概率,漢字間概率大的組成詞組,形成分詞結(jié)果。除了分詞,用戶還可以添加自定義的詞組。

2.Jieba庫的使用

Jieba庫分詞有3種模式

1)精確模式:就是把一段文本精確地切分成若干個中文單詞,若干個中文單詞之間經(jīng)過組合,就精確地還原為之前的文本。其中不存在冗余單詞。

2)全模式:將一段文本中所有可能的詞語都掃描出來,可能有一段文本它可以切分成不同的模式,或者有不同的角度來切分變成不同的詞語,在全模式下,Jieba庫會將各種不同的組合都挖掘出來。分詞后的信息再組合起來會有冗余,不再是原來的文本。

3)搜索引擎模式:在精確模式基礎(chǔ)上,對發(fā)現(xiàn)的那些長的詞語,我們會對它再次切分,進而適合搜索引擎對短詞語的索引和搜索。也有冗余。

Jieba庫常用函數(shù):重點記輸入什么類型(字符串?列表?)、輸出什么類型(字符串?列表?);

搜索引擎模式:首先按照精確模式進行分詞,分出來有“中華人民共和國”這個詞,搜索引擎模式覺得它太長,又對改詞進行了切詞。

3.實例——要注意英文文本和中文文本解析的不同方法

1)英文文本解析

溫馨提示:這里有很多關(guān)于文本的使用,相關(guān)部分我會寫在另一篇文章中~~

def getext():

fname=input("請輸入要打開的文件路徑及名稱,以txt結(jié)尾:")

fo=open(fname) #打開該文件,默認是文本文件,文本文件其實就是一個字符串

txt=fo.read() #<文件名>.read() 默認是讀取文件全部內(nèi)容

txt=txt.lower() #將文本所有字母小寫

for ch in '!"#$%()*+<_>/:;<>=?@[\]\^_{}|~':

txt=txt.replace(ch,'') #將文本中含有的所有上述字符都變?yōu)榭崭?/p>

return txt

hamlettxt=getext()

words=hamlettxt.split() #默認值,是將文本中單詞按照空格分成一個一個的單詞,并將結(jié)果保存成列表類型

counts={} #定義一個空字典類型,因為我們希望單詞和該單詞出現(xiàn)的次數(shù)作為一個鍵值對

for word in words: #遍歷words列表的每一個值

counts[word]=counts.get(word,0)+1

items=list(counts.items()) #將該字典轉(zhuǎn)化成一個列表,其中的鍵值對是以元組的形式存在

items.sort(key=lambda x:x[1],reverse=True)

for i in range(10):

word,count=items[i] #items[i] 是個元組,元組可以帶括號,可以不帶括號;賦值

print("{:<10}{:>5}".format(word,count))

2)中文文本解析

溫馨提示:1.continue是結(jié)束當(dāng)次循環(huán),繼續(xù)執(zhí)行后續(xù)次數(shù)循環(huán)

<列表>.sort()函數(shù)是列表的排序方法,相關(guān)內(nèi)容有點多,后面我會另外放在一篇文章中

import jieba

fname=input("請輸入要打開的文件地址及文本名稱,以.txt結(jié)尾,路徑要使用/:")

fo=open(fname,encoding="utf-8")

txt=fo.read()

liebiao=jieba.lcut(txt) #分詞后形成的是列表形式

counts={}

for word in liebiao:

if len(word)==1:

continue

else:

counts[word] = counts.get(word, 0) + 1

items=list(counts.items())

items.sort(key=lambda x:x[1],reverse=True)

for i in range(15):

word,count=items[i]

print('{:<10}{:>5}'.format(word,count))

好啦,如果以后有新的發(fā)現(xiàn)會繼續(xù)補充~~

各位看到的小伙伴,如果覺得有用,可不可以點個贊,蟹蟹蟹蟹~你們的喜歡是我堅持的動力!!

總結(jié)

以上是生活随笔為你收集整理的jieba是python中一个重要的标准函数库_python——Jieba库整理(基础知识+实例)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。