小叮咚切分词方法加入sourceforge.net中WebLucene分词模块
??? 小叮咚采用的是逆向最大匹配分詞法,算法簡單,可以滿足大部分的分詞應(yīng)用。現(xiàn)在已經(jīng)集成到WebLucene項(xiàng)目中,開放源代碼。有需要的朋友可以下載代碼使用。
??? 這個(gè)版本還沒有實(shí)現(xiàn)我在一種面向搜索引擎的中文切分詞方法 一文中提到的分詞思路。比如: 漢字的StopWords,對標(biāo)點(diǎn)符號的處理等等。
??? 也希望對分詞感興趣的朋友一起討論實(shí)現(xiàn)改進(jìn)實(shí)現(xiàn)小叮咚分詞的切分效果。
???
??? 下面是Readme.txt中的內(nèi)容:
使用說明:
-------------------------------------------------------------------------
||| !!! 注意分詞的詞庫位置:
||| Util.java 中的配置路徑一定要正確,指向:dict\chinesePhraseIndex
||| 詞庫包括3個(gè)文件:
||| 2005-01-13 16:05 4 deletable
||| 2005-01-13 16:24 0 a.txt
||| 2005-01-13 16:05 30 segments
||| 2005-01-13 16:05 1,485,193 _11p5.cfs
||| 4 個(gè)文件 1,485,227 字節(jié)
-------------------------------------------------------------------------
java類說明:
SentenceSpliter.java
分詞主類,可以直接運(yùn)行來打印測試分詞語句.
ChineseAnalyzer.java
ChineseTokenizer.java
是為lucene寫的中文分詞算法,其中調(diào)用了SentenceSpliter.java來獲得分詞結(jié)果。
SearchUtil.java 中說明了使用ChineseAnalyzer的方法。
-------------------------------------------------------------------------
使用的類庫:
java jdk 1.4.2
lucene-1.4.3.jar
java-getopt.jar
下載地址:http://apache.justdn.org/jakarta/lucene/binaries/lucene-1.4.3.zip
相關(guān)說明:
http://jakarta.apache.org/lucene/docs/index.html
http://blog.csdn.net/accesine960/archive/2004/12/23/227134.aspx
可以使用eclipse 直接打開這個(gè)項(xiàng)目
-------------------------------------------------------------------------
其他信息:
**************************************************************************
作者信息:
* @time Created on 2005-1-13
* @author tcf
* @mail xiaodingdong@gmail.com
* @website http://blog.csdn.net/accesine960
* @info 歡迎大家來 http://blog.csdn.net/accesine960/category/35308.aspx
* 這個(gè)算法還是beta版本,大家共同努力,把中文分詞做的更好
**************************************************************************
?? 近期將推出C#版本的實(shí)現(xiàn)。
?
??? 有相關(guān)問題請寫信給小叮咚: xiaodingdong A T Gmail dot Com
轉(zhuǎn)載于:https://www.cnblogs.com/tianchunfeng/archive/2005/01/18/93799.html
總結(jié)
以上是生活随笔為你收集整理的小叮咚切分词方法加入sourceforge.net中WebLucene分词模块的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关于《用C#编写ActiveX控件》的几
- 下一篇: AspectJ的实现机制