lucene源码分析(4)Similarity相似度算法
生活随笔
收集整理的這篇文章主要介紹了
lucene源码分析(4)Similarity相似度算法
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
lucene 7.5.0默認的評分Similarity是BM25Similarity (IndexSearcher.java)
// the default Similarityprivate static final Similarity defaultSimilarity = new BM25Similarity();IDF公式
- f(qi,D):就是詞頻
- |D|:[給定文檔]D長度。
- avgdl:索引中所有文檔長度。
早期的版本使用的是TFIDFSimilarity,
Lucene TFIDFSimilarity給出的理論評分公式:
對應的還有
?
修改相似度算法的實現可以通過下面的方法實現
/** Expert: Set the Similarity implementation used by this IndexSearcher.**/public void setSimilarity(Similarity similarity) {this.similarity = similarity;}?
轉載于:https://www.cnblogs.com/davidwang456/p/9959059.html
總結
以上是生活随笔為你收集整理的lucene源码分析(4)Similarity相似度算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: lucene源码分析(3)facet实例
- 下一篇: elasticsearch版本不同,批量