日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程语言 > python >内容正文

python

【数据平台】python中文分词工具jieba

發(fā)布時(shí)間:2025/4/16 python 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【数据平台】python中文分词工具jieba 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1、官網(wǎng):

https://pypi.python.org/pypi/jieba/

https://github.com/fxsjy/jieba


自動(dòng)安裝:pip install jieba


2、特點(diǎn):

  • 支持三種分詞模式:
    • 精確模式,試圖將句子最精確地切開,適合文本分析;
    • 全模式,把句子中所有的可以成詞的詞語都掃描出來,速度非常快,但是不能解決歧義;
    • 搜索引擎模式,在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適合用于搜索引擎分詞。
  • 支持繁體分詞
  • 支持自定義詞典
  • MIT 授權(quán)協(xié)議

3、主要功能:

1)分詞:

  • jieba.cut 方法接受三個(gè)輸入?yún)?shù): 需要分詞的字符串;cut_all 參數(shù)用來控制是否采用全模式;HMM 參數(shù)用來控制是否使用 HMM 模型
  • jieba.cut_for_search 方法接受兩個(gè)參數(shù):需要分詞的字符串;是否使用 HMM 模型。該方法適合用于搜索引擎構(gòu)建倒排索引的分詞,粒度比較細(xì)
  • 待分詞的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建議直接輸入 GBK 字符串,可能無法預(yù)料地錯(cuò)誤解碼成 UTF-8
  • jieba.cut 以及 jieba.cut_for_search 返回的結(jié)構(gòu)都是一個(gè)可迭代的 generator,可以使用 for 循環(huán)來獲得分詞后得到的每一個(gè)詞語(unicode),或者用
  • jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
  • jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定義分詞器,可用于同時(shí)使用不同詞典。jieba.dt 為默認(rèn)分詞器,所有全局分詞相關(guān)函數(shù)都是該分詞器的映射。

2)自定義詞典

載入詞典

  • 開發(fā)者可以指定自己自定義的詞典,以便包含 jieba 詞庫(kù)里沒有的詞。雖然 jieba 有新詞識(shí)別能力,但是自行添加新詞可以保證更高的正確率
  • 用法: jieba.load_userdict(file_name) # file_name 為文件類對(duì)象或自定義詞典的路徑
  • 詞典格式和 dict.txt 一樣,一個(gè)詞占一行;每一行分三部分:詞語、詞頻(可省略)、詞性(可省略),用空格隔開,順序不可顛倒。file_name 若為路徑或二進(jìn)制方式打開的文件,則文件必須為 UTF-8 編碼。
  • 詞頻省略時(shí)使用自動(dòng)計(jì)算的能保證分出該詞的詞頻。

3)關(guān)鍵詞抽取

import jieba.analyse

  • jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
    • sentence 為待提取的文本
    • topK 為返回幾個(gè) TF/IDF 權(quán)重最大的關(guān)鍵詞,默認(rèn)值為 20
    • withWeight 為是否一并返回關(guān)鍵詞權(quán)重值,默認(rèn)值為 False
    • allowPOS 僅包括指定詞性的詞,默認(rèn)值為空,即不篩選
  • jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 實(shí)例,idf_path 為 IDF 頻率文件

有TFIDF和TextRank兩種算法


4)詞性標(biāo)注功能

  • jieba.posseg.POSTokenizer(tokenizer=None)?新建自定義分詞器,tokenizer?參數(shù)可指定內(nèi)部使用的?jieba.Tokenizer?分詞器。jieba.posseg.dt?為默認(rèn)詞性標(biāo)注分詞器。
  • 標(biāo)注句子分詞后每個(gè)詞的詞性,采用和 ictclas 兼容的標(biāo)記法。

4、Demo代碼:

#encoding=utf-8 ''' Created on 2017年10月26日@author: Administrator '''from __future__ import unicode_literals import sys sys.path.append("../")import jieba import jieba.posseg import jieba.analyseprint('='*40) print('1. 分詞') print('-'*40)seg_list = jieba.cut("我來到北京清華大學(xué)", cut_all=True) print("Full Mode: " + "/ ".join(seg_list)) # 全模式seg_list = jieba.cut("我來到北京清華大學(xué)", cut_all=False) print("Default Mode: " + "/ ".join(seg_list)) # 默認(rèn)模式seg_list = jieba.cut("他來到了網(wǎng)易杭研大廈") print(", ".join(seg_list))seg_list = jieba.cut_for_search("小明碩士畢業(yè)于中國(guó)科學(xué)院計(jì)算所,后在日本京都大學(xué)深造") # 搜索引擎模式 print(", ".join(seg_list))print('='*40) print('2. 添加自定義詞典/調(diào)整詞典') print('-'*40)print('/'.join(jieba.cut('如果放到post中將出錯(cuò)。', HMM=False))) #如果/放到/post/中將/出錯(cuò)/。 print(jieba.suggest_freq(('中', '將'), True)) #494 print('/'.join(jieba.cut('如果放到post中將出錯(cuò)。', HMM=False))) #如果/放到/post/中/將/出錯(cuò)/。 print('/'.join(jieba.cut('「臺(tái)中」正確應(yīng)該不會(huì)被切開', HMM=False))) #「/臺(tái)/中/」/正確/應(yīng)該/不會(huì)/被/切開 print(jieba.suggest_freq('臺(tái)中', True)) #69 print('/'.join(jieba.cut('「臺(tái)中」正確應(yīng)該不會(huì)被切開', HMM=False))) #「/臺(tái)中/」/正確/應(yīng)該/不會(huì)/被/切開print('='*40) print('3. 關(guān)鍵詞提取') print('-'*40) print(' TF-IDF') print('-'*40)s = "此外,公司擬對(duì)全資子公司吉林歐亞置業(yè)有限公司增資4.3億元,增資后,吉林歐亞置業(yè)注冊(cè)資本由7000萬元增加到5億元。吉林歐亞置業(yè)主要經(jīng)營(yíng)范圍為房地產(chǎn)開發(fā)及百貨零售等業(yè)務(wù)。目前在建吉林歐亞城市商業(yè)綜合體項(xiàng)目。2013年,實(shí)現(xiàn)營(yíng)業(yè)收入0萬元,實(shí)現(xiàn)凈利潤(rùn)-139.13萬元。" for x, w in jieba.analyse.extract_tags(s, withWeight=True):print('%s %s' % (x, w))print('-'*40) print(' TextRank') print('-'*40)for x, w in jieba.analyse.textrank(s, withWeight=True):print('%s %s' % (x, w))print('='*40) print('4. 詞性標(biāo)注') print('-'*40)words = jieba.posseg.cut("我愛北京天安門") for word, flag in words:print('%s %s' % (word, flag))print('='*40) print('6. Tokenize: 返回詞語在原文的起止位置') print('-'*40) print(' 默認(rèn)模式') print('-'*40)result = jieba.tokenize('永和服裝飾品有限公司') for tk in result:print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))print('-'*40) print(' 搜索模式') print('-'*40)result = jieba.tokenize('永和服裝飾品有限公司', mode='search') for tk in result:print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))
結(jié)果:

======================================== 1. 分詞 ---------------------------------------- Building prefix dict from the default dictionary ... Loading model from cache c:\users\admini~1\appdata\local\temp\jieba.cache Loading model cost 1.342 seconds. Full Mode: 我/ 來到/ 北京/ 清華/ 清華大學(xué)/ 華大/ 大學(xué) Default Mode: 我/ 來到/ 北京/ 清華大�� Prefix dict has been built succesfully. 他, 來到, 了, 網(wǎng)易, 杭研, 大廈 小明, 碩士, 畢業(yè), 于, 中國(guó), 科學(xué), 學(xué)院, 科學(xué)院, 中國(guó)科學(xué)院, 計(jì)算, 計(jì)算所, ,, 后, 在, 日本, 京都, 大學(xué), 日本京都大學(xué), 深造 ======================================== 2. 添加自定義詞典/調(diào)整詞典 ---------------------------------------- 如果/放到/post/中將/出錯(cuò)/。 494 如果/放到/post/中/將/出錯(cuò)/�� 「/臺(tái)/中/」/正確/應(yīng)該/不會(huì)/被/切�� 69 「/臺(tái)中/」/正確/應(yīng)該/不會(huì)/被/切開 ======================================== 3. 關(guān)鍵詞提取 ----------------------------------------TF-IDF ---------------------------------------- 歐亞 0.730014270029 吉林 0.659038184374 置業(yè) 0.488713452211 萬元 0.339272248186 增資 0.335824019852 4.3 0.254356755381 7000 0.254356755381 139.13 0.254356755381 2013 0.254356755381 實(shí)現(xiàn) 0.199009799004 綜合體 0.194803096247 經(jīng)營(yíng)范圍 0.193897572536 億元 0.191442162359 在建 0.175418847684 全資 0.171801649885 注冊(cè)資本 0.1712441526 百貨 0.167344600414 零售 0.147505711706 子公司 0.145960452378 營(yíng)業(yè) 0.13920178509 ----------------------------------------TextRank ---------------------------------------- 吉林 1.0 歐亞 0.996689335418 置業(yè) 0.643436031309 實(shí)現(xiàn) 0.589860669286 收入 0.43677859948 增資 0.409990053128 子公司 0.356782959477 城市 0.349713836674 商業(yè) 0.34817220716 業(yè)務(wù) 0.309223099262 在建 0.307792916403 營(yíng)業(yè) 0.303577704932 全資 0.303540981053 綜合體 0.295808691724 注冊(cè)資本 0.290005194641 有限公司 0.280783079858 零售 0.278836208612 百貨 0.278165762845 開發(fā) 0.26934887793 經(jīng)營(yíng)范圍 0.264276217356 ======================================== 4. 詞性標(biāo)注 ---------------------------------------- 我 r 愛 v 北京 ns 天安門 ns ======================================== 6. Tokenize: 返回詞語在原文的起止位置 ----------------------------------------默認(rèn)模式 ---------------------------------------- word 永和 start: 0 end:2 word 服裝 start: 2 end:4 word 飾品 start: 4 end:6 word 有限公司 start: 6 end:10 ----------------------------------------搜索模式 ---------------------------------------- word 永和 start: 0 end:2 word 服裝 start: 2 end:4 word 飾品 start: 4 end:6 word 有限 start: 6 end:8 word 公司 start: 8 end:10 word 有限公司 start: 6 end:10

總結(jié)

以上是生活随笔為你收集整理的【数据平台】python中文分词工具jieba的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 日韩精品一区二区亚洲av性色 | 67194少妇| 神秘马戏团在线观看免费高清中文 | 精品国产免费观看 | 国产黄色在线 | 色综合91 | 韩国电影一区二区三区 | 欧美性一级片 | 特级西西444www大精品视频免费看 | 欧美老女人性视频 | 99爱这里只有精品 | 美女扒开内裤让男人桶 | 成人综合区 | 午夜精品久久99蜜桃的功能介绍 | 精品1卡二卡三卡四卡老狼 日韩三级网 | 天天看天天摸天天操 | 偷偷操不一样的99 | 无码成人精品区一级毛片 | 总裁边开会边做小娇妻h | 亚洲欧美成人综合 | 成年人在线视频网站 | 成人激情免费视频 | 蜜乳av一区二区 | www四虎com| 国产视频污 | 自拍视频在线观看 | av永久在线| 青青草综合在线 | 依人久久 | 色小姐在线视频 | 91九色偷拍 | 成年人精品 | 成人在线免费网站 | 日本人妻一区 | 日本五十肥熟交尾 | 亚洲一级Av无码毛片久久精品 | 亚洲男性天堂 | 伊人久久精品视频 | 杨幂一区二区三区免费看视频 | 中文一区二区 | 亚洲欧美专区 | 天天操bb | 可以免费在线观看的av | 日批毛片 | 国产精品自拍小视频 | 伊人成人在线 | 成年人黄色大片 | 欧美黄色一级大片 | 午夜黄色av| 麻豆影视免费观看 | 97在线免费观看视频 | 天堂在线一区 | 中日韩男男gay无套 人人草人人干 | 亚洲午夜视频在线观看 | 96精品视频在线观看 | 黄色99视频 | 欧美日韩不卡一区二区 | 国产免费激情视频 | 日韩成人欧美 | 国产电影一区二区三区爱妃记 | 1024中文字幕| 国产成人网 | 久久久久亚洲AV成人无在 | 嫩草影院中文字幕 | 国产精品黄 | 欧美激情视频一区二区三区在线播放 | 少妇高潮一区二区三区四区 | 国产区精品在线观看 | 免费无码av片在线观看 | 91免费国产视频 | 国产精品无码一区二区三 | 后进极品白嫩翘臀在线视频 | 欧美r级在线观看 | av大全在线观看 | 男女午夜影院 | 久本草精品 | 男女啪啪资源 | 黑人中文字幕一区二区三区 | 免费观看黄色一级视频 | 农村搞破鞋视频大全 | 天堂网视频| 久久久久久亚洲av无码专区 | 日本不卡视频 | 国产高清www | 巨胸大乳www视频免费观看 | 国产97色 | 久久久久久久久国产精品 | 色黄大色黄女片免费中国 | 亚洲19p| 巨乳美女在线 | 在线观看三级网站 | 黄瓜视频在线免费观看 | 国产精品专区在线观看 | 成人欧美一区二区三区 | 国产乱子伦农村叉叉叉 | 黄金网站在线观看 | 黄色成人小视频 | 成人av色 | 亚洲国产欧美在线人成 |