日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

coreseek添加新词库

發布時間:2023/12/10 编程问答 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 coreseek添加新词库 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

coreseek添加新詞庫

coreseek使用mmseg作為分詞工具,默認的詞庫是有限的,我們需要為mmseg增加自定義詞,用來豐富詞庫,實現更加精準的搜索服務。本文介紹如何自定義mmseg詞,并通過腳本和mmseg命令導入詞庫。

1、下載搜狗詞庫
搜狗詞庫下載地址:http://pinyin.sogou.com/dict/

2、然后通過以下工具 把搜狗詞庫scel轉txt/mmseg
https://www.toolnb.com/tools/scelto.html

3、將多個詞庫txt文本文件合并為一個文件

新建一個文本文檔,文本中輸入如下代碼:

copy *.txt unigram.txt
將文本文檔的擴展名改為bat,如“merge.bat”。

雙擊運行merge.bat,會將所有以.txt結尾的文件合并到unigram.txt中


4、生成uni.lib最終詞庫
用cmd命令行進入bin文件夾,里面有個mmseg.exe 程序
cd E:\..\coreseek-3.2.14-win32\coreseek-3.2.14-win32\bin
unigram.txt也放入這個文件夾
在cmd中運行以下命令

mmseg -u unigram.txt

將會在unigram.txt所在目錄中產生一個名為unigram.txt.uni的文件,
將該文件改名為uni.lib,
完成詞典的構造。

需要注意的是,unigram.txt需要預先準備,并且編碼格式必須為UTF-8編碼。

?

  5. 測試新詞庫能否正解分詞。在C:\coreseek\bin下新建文本文件test.txt。輸入要測試的關鍵詞。 例如:四季服裝網中大面料輔料,然后保存。當中一定要包含你新加進詞庫的某個關鍵詞。例如四季服裝網是我新加的 關鍵詞。然后在剛才的命令行下執行mmseg -d C:\coreseek\bin test.txt>result.txt .執行完后打開新生產 的結果文件result.txt .如果看到分詞結果類似四季服裝網/x 中大/x 面料/x 輔料/x 的話證明詞庫已正確生成, 如果看到新關鍵詞被分切開如: 四/x 季/x 服/x 裝/x網/x 中大/x 面料/x 輔料/x的話就說明新的詞庫并不正確。 要檢查一下哪里出錯了,重新生產。

  6. 再把得到的uni.lib復制到C:\coreseek\etc覆蓋原文件就大功告成了

?

把uni.lib放回uni.lib所在目錄


?

總結

以上是生活随笔為你收集整理的coreseek添加新词库的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。