改动下ICTCLAS4J 0.9.1 提供了分词速度
生活随笔
收集整理的這篇文章主要介紹了
改动下ICTCLAS4J 0.9.1 提供了分词速度
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
?
改動(dòng)下ICTCLAS4J 0.9.1,簡(jiǎn)化代碼并做了一個(gè)提高了性能的不死機(jī)的DOS 命令segtag.bat
ICTCLAS4J_0.9.1 是中科院張華平的分詞系統(tǒng)的Java?版,改版作者Sinboy,發(fā)布在http://code.google.com/p/ictclas4j/,?我改動(dòng)了一下幾個(gè)地方1. 對(duì)getNextElement采用建立臨時(shí)索引的方式提高了幾倍的分詞速度
2. 注釋了firstAdjust處的 index-- 和 index -= 2兩句
3. 建立segtag.bat 方便處理文本文件
? ?現(xiàn)在對(duì)一個(gè)文本文件分詞, 運(yùn)行下列命令即可
? ? ? ? segtag < input_corpus.txt > output_segtaged.txt
? 直接運(yùn)行 segtag?
????????那么自己輸入語(yǔ)句,一回車就可以看到分詞結(jié)果
4. 刪除了使用Log4J的監(jiān)控日志代碼,刪除了每一步驟耗用的時(shí)間信息輸出,刪除了圖形界面代碼,
只留下bin目錄下的class文件,src目錄下的Java 源代碼,Data目錄下的詞典數(shù)據(jù)和SegTag.bat 簡(jiǎn)化了程序
下載可以在 http://groups.google.com/group/ictclas/web/ictclas4j.zip
總結(jié)
以上是生活随笔為你收集整理的改动下ICTCLAS4J 0.9.1 提供了分词速度的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 查询数据,插入临时表
- 下一篇: 项目管理-时间冲突带来的问题