ictclas4j 分词工具包 安装流程
首先把 ictclasj解壓縮,然后
1.把 Data文件夾整個拷貝到 Eclipse項目的文件夾下,
2.而 bin目錄下的 org文件夾整個拷貝到你 Eclipse項目的 bin目錄下,(將class文件存進去)
3.把src目錄下的org文件夾整個拷貝到 Eclipse項目 的src目錄下。
4.把目錄中commons-lang-2.4.jar 加到項目中(右鍵新建folder--設(shè)置名字為LIB--直接復(fù)制jar到此文件夾--點擊此jar-右鍵-buidpath-add 點擊即可)
3.測試分詞結(jié)果
Java代碼
import?org.ictclas4j.bean.SegResult; ??
import?org.ictclas4j.segment.SegTag; ??
public?class?TextSegmentation?{ ??
public?static?void?main(String[]?args)?{ ??
String?fileContent?=?"中國科學(xué)院計算技術(shù)研究所在多年研究基礎(chǔ)上,"?+ ??"耗時一年研制出了ICTCLAS漢語詞法分析系統(tǒng)"; ?
SegTag?segTag?=?new?SegTag(1);//?分詞路徑的數(shù)目???????? ??
SegResult?segResult?=?segTag.split(fileContent.trim()); ??
String?classifyContent?=?segResult.getFinalResult();
System.out.println("分詞結(jié)果\n"+classifyContent);
}
}??
就是這樣,我們可以得到輸出的結(jié)果,并且?guī)в性~性的標注。
Java代碼
分詞結(jié)果 ??
中國科學(xué)院/n?計算/n?技術(shù)/n?研究所/n?在/c?多年/m?研究/n?基礎(chǔ)/a?上/f?,/w?耗時/v?一/d?年/a?研制/v?出/q?了/u?ICTCLAS/nx?漢語/n?詞法/n?分析/v?系統(tǒng)/a???
分詞結(jié)果
中國科學(xué)院/n 計算/n 技術(shù)/n 研究所/n 在/c 多年/m 研究/n 基礎(chǔ)/a 上/f ,/w 耗時/v 一/d 年/a 研制/v 出/q 了/u ICTCLAS/nx 漢語/n 詞法/n 分析/v 系統(tǒng)/a
?
?
?
?
?
三、關(guān)于可能出現(xiàn)的錯誤??
????1.越界錯誤
在Dictionary.java里面的getMaxMatch()函數(shù)里要注意加上對wis的判斷語句
if(wis != null)?否則有時會報出越界錯誤
?
2.關(guān)于第三點越界的問題之前的博主沒有注意到
在Dictionary.Java的findInModifyTable方法中有這么一段:
?
if (mts != null && mts.size() > index) {ArrayList<WordItem> wis = mts.get(index).getWords(); .....}?
此處需要對index進行負數(shù)的判斷,應(yīng)改為
if (mts != null && mts.size() > index) {if(index < 0)return result;ArrayList<WordItem> wis = mts.get(index).getWords(); ........}?
在對大文件進行中文分詞時,出現(xiàn)了以下的錯誤信息
?
java.lang.ArrayIndexOutOfBoundsException: -39at java.util.ArrayList.get(ArrayList.java:324)at org.ictclas4j.bean.Dictionary.findInOriginalTable(Dictionary.java: 422)at org.ictclas4j.bean.Dictionary.getFreq(Dictionary.java:632)at org.ictclas4j.segment.GraphGenerate.biGenerate(GraphGenerate.java: 170)at org.ictclas4j.segment.Segment.split(Segment.java:81)at com.ictclas4j.test.MyTest.main(MyTest.java:19)?
經(jīng)過上網(wǎng)查詢資料以及閱讀相關(guān)源代碼,找到可能的出錯原因:
?
分詞過程中出現(xiàn)了未能識別的字,如繁體字等
改錯方法:在Dictionary.java文件中找到findInOriginalTable()方法,將其中的
?
修改為
?
即可。
?
?
轉(zhuǎn)載于:https://www.cnblogs.com/lifegoesonitself/p/3214015.html
總結(jié)
以上是生活随笔為你收集整理的ictclas4j 分词工具包 安装流程的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 6个免费下载课件的资源网站,小学、初中、
- 下一篇: CorelDRAWX4的VBA插件开发(