日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

中文分词器

發(fā)布時間:2025/3/15 编程问答 15 豆豆
生活随笔 收集整理的這篇文章主要介紹了 中文分词器 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1.IKAnalyzer

IK Analyzer 是一個開源的,基于java語言開發(fā)的輕量級的中文分詞工具包??膳clucene配合使用。

IK Analyzer是一個結(jié)合詞典分詞和文法分詞的中文分詞開源工具包。它使用了全新的正向迭代最細粒度切分算法。

項目地址:http://www.oschina.net/p/ikanalyzer/

下載頁面:http://git.oschina.net/wltea/IK-Analyzer-2012FF

central repository中似乎沒有。

示例代碼:

該代碼的工程結(jié)構(gòu):下圖


1.1部署在web應(yīng)用

把IKAnalyzer.cfg.xml與stopword.dic配置在WEB-INF\lib\目錄下就行了。

1.2中文停用詞

中文停用詞所在文件(一般就直接加在stopword.dic中)要求utf-8無bom格式編碼,否則無效。

2.SmartChineseAnalyzer

org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer
是一個中文、中英混合的分詞器。

2.1依賴

compile 'org.apache.lucene:lucene-analyzers-smartcn:6.0.0'

2.2 效果

Example phrase: "我是中國人"
StandardAnalyzer: 我-是-中-國-人
CJKAnalyzer: 我是-是中-中國-國人
SmartChineseAnalyzer: 我-是-中國-人

3.ansj_seg

github地址:https://github.com/NLPchina/ansj_seg 它是ict 的java實現(xiàn),分詞效果速度都超過開源版的ict. 。
特點是中文分詞,人名識別,詞性標(biāo)注,用戶自定義詞典。 分詞示例: String str = "歡迎使用ansj_seg,(ansj中文分詞)在這里如果你遇到什么問題都可以聯(lián)系我.我一定盡我所能.幫助大家.ansj_seg更快,更準(zhǔn),更自由!" ;System.out.println(ToAnalysis.parse(str));歡迎/v,使用/v,ansj/en,_,seg/en,,,(,ansj/en,中文/nz,分詞/n,),在/p,這里/r,如果/c,你/r,遇到/v,什么/r,問題/n,都/d,可以/v,聯(lián)系/v,我/r,./m,我/r,一定/d,盡我所能/l,./m,幫助/v,大家/r,./m,ansj/en,_,seg/en,更快/d,,,更/d,準(zhǔn)/a,,,更/d,自由/a,!


總結(jié)

以上是生活随笔為你收集整理的中文分词器的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。