日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

java nlpir_中科院NLPIR中文分词java版

發布時間:2025/3/12 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 java nlpir_中科院NLPIR中文分词java版 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

摘要:為解決中文搜索的問題,最開始使用 版 SCWS ,但是處理人名和地名時,會出現截斷人名地名出現錯誤。開始使用 NLPIR 分詞,在分詞準確性上效果要比 SCWS 好。本文介紹如何在 系統下 JAVA ,生成可以執行的 jar 文件。

NLPIR 的下載地址:

http://ictclas.nlpir.org/downloads

兩個版本有一些不同,本文將分別講解如何利用 Ecl 建立工程。

一、NLPIR 官方版本

下載后文件夾中 bin NLPIR_WinDemo.exe 是一個 NLPIR 的演示程序,可以嘗試運行,了解 NLPIR 的功能。

工程sample 目錄下,包含 C 、 C++ 、 、 JAVA 、 Python 等語言示例。

用 Eclipse 新建一個工程導入 JAVA 工程目錄 JnaTest_NLPIR ,

( 1 ) Eclipse?->?File->import

(2)選擇 JnaTest_NLPIR 所在的路徑,點擊 Finish

(3)查看 Eclipse 工程

(4)NlpirTest.文件中包含 main 函數,下面的語句初始化 NLPIR 需要的庫文件

CLibrery 類是包含在 NlpirTest.java 文件中,

CLibrary Instance = (CLibrary) Native.loadLibrary("H://workspace//ictclas//1//ICTCLAS2015//lib//win64//NLPIR", CLibrary.class);

函數 loadLibrary 需要傳遞庫文件位置,源碼提供了多種語言類庫,我們的工程需要加載 win64 類庫,該文件夾內容如下 ,

(5)加載分詞Data 文件夾路徑

String argu = "H://workspace//ictclas//1//ICTCLAS2015"; String system_charset= "UTF-8";int charset_type = 1;int init_flag = CLibrary.Instance.NLPIR_Init(argu, charset_type, "0");

H://workspace//ictclas//1//ICTCLAS2015是Data 文件夾的父文件夾。

這步驟完成后,你就可以可以閱讀手冊。

二、github 上下載的代碼

目錄中包含了 NLPIR?SDK 目錄,每一個目錄是 NLPIR 提供的一個組件。 NLPIR-ICTCLAS 目錄包含 NLPIR 組件的代碼。

在 Eclipse 中導入 ICTCLAS_java 工程,工程目錄如下圖

工程中沒有填寫main 函數,可以在 NlpirTest.java 文件中,加入 main 函數

public classNlpirTest {public static void main(String[] args) throwsException{ NlpirTest t= newNlpirTest(); t.testParticiple(); }public void testParticiple() throwsIOException { ..... } ....... }

和官方 win32 、 win64 、 、 linux64 都是包含庫文件的文件夾。

同時會自動加載“工程當前目錄“下 Data 問佳佳為分詞數據目錄。這些目錄設置好,就可以進行調試工作了。

三、在 github 中"查找關鍵字"的組件 Key_Extract

工程目錄如下,

project 中提供 java 版本的示例代碼,利用 Eclipse 導入工程

同樣在 KeyExtractor.java 文件中添加 main 函數。 KeyExtract_GetKeyWords 的第一個

public static voidmain(String[] args) { String= CLibraryKeyExtractor.instance.KeyExtract_GetKeyWords(args[0], 10, true); System.out.println(keyWordsStr); CLibraryKeyExtractor.instance.KeyExtract_Exit(); }

在工程的當前文件夾下,有一個 Data 目錄,是分詞和提取關鍵詞需要用到的分詞數據。需要將需要的 license 考入到這個文件夾。你可以不用區分用到哪一個 user 文件,建議把全部文件都考到當前工程目錄 Data 文件夾中。

這些設置完成,在 Eclipse 中傳入參數,菜單項 run–>run?configure 。

四、導出 jar

Eclipse 工程目錄上,右鍵選擇 Export

選擇 runnablejar ,生成 jar 文件

之后就可以利用 執行,傳遞參數,效果如下

總結

以上是生活随笔為你收集整理的java nlpir_中科院NLPIR中文分词java版的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。