日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Coreseek-带中文分词的Sphinx

發布時間:2024/4/14 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Coreseek-带中文分词的Sphinx 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Sphinx并不支持中文分詞,?也就不支持中文搜索, Coreseek = Sphinx +?MMSEG(中文分詞算法)

1.下載

  1).到官網下載

  2).解壓后有三個文件夾

    csft-3.2.14:?Sphinx

    mmseg-3.2.14:?中文分詞組件

    testpack: 接口開發包

2.安裝

  1).先安裝mmseg,?因為Coreseek會用到

cd mmseg-3.2.14 ./configure --prefix=/usr/local/mmseg

  此時如果Makefile文件創建成功,?但是出現了一個config.status: error: cannot find input file: src/Makefile.in錯誤信息,?使用以下命令重新編譯

aclocal libtoolize --force automake --add-missing autoconf autoheader make clean ./configure --prefix=/usr/local/mmseg

  執行安裝

make && make install

  2).安裝csft(即Coreseek)

./configure --prefix=/usr/local/coreseek --with-mysql=/usr/local/mysql --with-mmseg=/usr/local/mmseg --with-mmseg-includes=/usr/local/mmseg/include/mmseg --with-mmseg-libs=/usr/local/mmseg/lib make && make install

3.中文分詞算法分類

  1).基于字符串匹配的分詞方法

    基于字典,?進行挨個的詞條匹配

    三個要素: 分詞詞典, 文本掃描順序, 匹配原則

    掃描順序: 正向, 逆向, 雙向

    匹配原則: 最大, 最小, 逐詞,最佳

  2).基于理解的分詞方法,?正在測試階段

  3).基于統計的分詞方法,?可以根據相鄰的字出現的次數和頻率等自動識別生詞,?自動消除歧義

?4.配置Coreseek

cp /usr/local/coreseek/etc/sphinx.conf.dist /usr/local/coreseek/etc/csft.conf #與Sphinx不同的是配置文件名不同 #接下來按照Sphinx配置即可, 注意索引中的此兩處配置 #charset_type = zh_cn.utf-8 #charset_dictpath = /usr/local/mmseg/etc/

5.生成索引

cd /usr/local/coreseek/bin ./indexer --all

6.查找內容

cd /usr/local/coreseek/bin ./search 隨永杰

?

轉載于:https://www.cnblogs.com/JohnABC/p/4733682.html

總結

以上是生活随笔為你收集整理的Coreseek-带中文分词的Sphinx的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。