當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

lucene源码分析(4)Similarity相似度算法

發布時間：2025/4/5 编程问答 20 豆豆

生活随笔收集整理的這篇文章主要介紹了 lucene源码分析(4)Similarity相似度算法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

lucene 7.5.0默認的評分Similarity是BM25Similarity (IndexSearcher.java)

// the default Similarityprivate static final Similarity defaultSimilarity = new BM25Similarity();

IDF公式

f（qi,D）:就是詞頻
|D|：[給定文檔]D長度。
avgdl:索引中所有文檔長度。

早期的版本使用的是TFIDFSimilarity,

Lucene TFIDFSimilarity給出的理論評分公式：

對應的還有

修改相似度算法的實現可以通過下面的方法實現

/** Expert: Set the Similarity implementation used by this IndexSearcher.**/public void setSimilarity(Similarity similarity) {this.similarity = similarity;}

轉載于:https://www.cnblogs.com/davidwang456/p/9959059.html

總結

以上是生活随笔為你收集整理的lucene源码分析(4)Similarity相似度算法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： lucene源码分析(3)facet实例
下一篇： elasticsearch版本不同，批量