日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

搜索引擎学习(四)中文分词器

發布時間:2024/4/17 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 搜索引擎学习(四)中文分词器 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、簡介

分詞原理

  • Reader讀取數據流
  • 數據經過第一個分詞器將大寫轉換小寫
  • 數據經過第二個分詞器根據空格分割成一個一個的單詞
  • 數據經過第三個分詞器把標點符號,介詞等剔除
  • 經過三次過濾,生成若干語匯單元
  • 常見的分詞器(中文分詞場景不推薦用)

    StandardAnalyzer(官方推薦的分詞器):英文分詞效果比較好,無法對中文進行正確分詞。(單字分詞,對中文分詞會一個字一個字的分)

    CJKAnalyzer(中日韓聯合分詞器):二分法分詞,按兩個字進行切分

    smartChineseAnalyzer:對中文支持較好,但擴展性差,擴展詞庫,禁用詞庫和同義詞庫等不好處理

    第三方中文分詞器(中文支持效果比較好,中文分詞場景推薦使用)

    IK Analyzer:目前較為推薦的中文分詞器

    二、IK Analyzer分詞器

    使用方式

    ?

    ?

    ?

    ?

    ?PS:搜索時使用的分詞器要與索引時使用的分詞器一致!

    轉載于:https://www.cnblogs.com/riches/p/11448059.html

    總結

    以上是生活随笔為你收集整理的搜索引擎学习(四)中文分词器的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。