日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

postgres中的中文分词zhparser

發布時間:2023/12/18 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 postgres中的中文分词zhparser 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

postgres中的中文分詞zhparser

2015-04-09 10:32 by 軒脈刃, ... 閱讀, ... 評論, 收藏, 編輯

postgres中的中文分詞zhparser

postgres中的中文分詞方法

基本查了下網絡,postgres的中文分詞大概有兩種方法:

  • Bamboo
  • zhparser

其中的Bamboo安裝和使用都比較復雜,所以我選擇的是zhparser

zhparse基于scws

scws是簡易中文分詞系統的縮寫,它的原理其實很簡單,基于詞典,將文本中的內容按照詞典進行分詞,提取關鍵字等。github上的地址在這里。它是xunsearch的核心分詞系統。

而zhparser是基于scws來做的postgres的擴展。

安裝

基本按照zhparser 中的步驟就可以了。

使用

在postgres.conf中你可以設置下面的參數:

zhparser.punctuation_ignore = fzhparser.seg_with_duality = fzhparser.dict_in_memory = fzhparser.multi_short = fzhparser.multi_duality = fzhparser.multi_zmain = fzhparser.multi_zall = f

還可以設置自有詞典

zhparser.extra_dicts = 'dict_extra.txt,mydict.xdb'

雖然項目文檔說用txt也是可以的,但是我自己嘗試過的時候,自有詞典只能使用xdb

sql使用

按照文檔說明

CREATE EXTENSION zhparser; CREATE TEXT SEARCH CONFIGURATION testzhcfg (PARSER = zhparser); ALTER TEXT SEARCH CONFIGURATION testzhcfg ADD MAPPING FOR n,v,a,i,e,l WITH simple;

在這三步之后,你就創建了一個testzhcfg的解析器

to_tsvector, to_tsquery 其實都是有第一個參數的,第一個參數表示解析器是什么。比如你想要進行文本搜索,可以使用下面的語句:

SELECT id FROM question_viewWHERE to_tsvector('testzhcfg', content) @@ to_tsquery('testzhcfg', '寶馬') AND status = 1 ORDER BY id DESC

這個語句是基于視圖question_view的

總結

以上是生活随笔為你收集整理的postgres中的中文分词zhparser的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。