當前位置：首頁 >

概率检索模型：BIM+BM25+BM25F

發布時間：2024/4/17 62 豆豆

生活随笔收集整理的這篇文章主要介紹了概率检索模型：BIM+BM25+BM25F 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1. 概率排序原理

以往的向量空間模型是將query和文檔使用向量表示然后計算其內容相似性來進行相關性估計的，而概率檢索模型是一種直接對用戶需求進行相關性的建模方法，一個query進來，將所有的文檔分為兩類 --?相關文檔、不相關文檔，這樣就轉為了一個相關性的分類問題。

對于某個文檔

現在使用貝葉斯公式將其轉一下：

在搜索排序過程中不需要真正的分類，只需要保證相關性由高到底排序即可，所以只需要

2. 二元獨立模型(BIM)

為了能夠使得上述兩個計算因子可行，二元獨立模型做出了兩個假設：

1. 二元假設

類似于布爾模型中的文檔表示方法，一篇文檔在由特征（或者單詞）進行表示的時候，以特征（或者單詞）出現和不出現兩種情況來表示，不考慮詞頻等其他因素。

2. 詞匯獨立性假設

指文檔里出現的單詞之間沒有任何關聯，任意一個單詞在文檔的分布概率不依賴于其他單詞是否出現。因為詞匯之間沒有關聯，所以可以將文檔概率轉換為單詞概率的乘積。

上述提到的文檔

第1,3,5表示這個單詞在

最終得到的相關性概率估算為：

現在將其推廣之后可以有通用的式子：

di=1

其中上面式子第三步的第二部分表示各個單詞在所有文檔中出現的概率，所以這個式子的值和具體文檔并沒有什么關系，在排序中不起作用，才可以簡化到第4步。

為了方便計算，將上述連乘公式取

有了上述最終可計算的式子之后，我們就只需要統計文檔

上面的表格表示各個單詞在文檔集合中的相關文檔/不相關文檔出現數量，同時為了避免

則最終可以得到如下公式：

其代表的含義是：對于同時出現在用戶查詢Q和文檔D中的單詞，累加每個單詞的估值，其和就是文檔D和查詢的相關性度量。

3. BM25模型

BIM模型基于二元獨立假設推導而出，即對于單詞特征，只考慮是否在文檔中出現過，而不考慮單詞的權值。BM25模型在BIM模型的基礎上，考慮了單詞在查詢中的權值及單詞在文檔中的權值，擬合出綜合上述考慮因素的公式，并通過實驗引入一些經驗參數。

BM25模型的具體計算公式如下所示：

上面的式子中:

第1個組成部分即為上一小節的二元獨立模型BIM計算得分，如果賦予一些默認值的話，等價于IDF因子的作用。

第2個組成部分是查詢詞在文檔

k1為經驗參數，作用是對查詢詞在文檔中的詞頻進行調節。如果設為0，則第2部分整體變為1，即不考慮詞頻的因素，退化成了BIM模型；如果設為較大值，則第2部分計算因子基本與詞頻fi保持線性增長，即放大了詞頻的權值。根據經驗，一般講

b為調節因子，將

dl代表當前文檔D的長度。

avdl代表文檔集合中所有文檔的平均長度。

第3個組成部分是查詢詞自身的權值，

假設當前以“喬布斯 IPAD2”這個查詢詞為例，來計算在某文檔

其他數值假定如下:

文檔的集合總數：

包含喬布斯的文檔個數為：

包含IPAD2的文檔個數為：

文檔

查詢詞頻均為：

調節因子

設文檔

則最終可以計算到的BM25結果為:

每個文檔按上述公式計算得到相關性排序即可。

4. BM25F模型

在BM25模型中，文檔被當做一個整體進行進行詞頻的統計，而忽視了不同區域的重要性，BM25F模型正是抓住了這點進行了相應的改進。

BM25F模型在計算相關性時候，會對文檔分割成不同的域來進行加權統計，非常適用于網頁搜索，因為在一個網頁有標題信息、meta信息、頁面內容信息等，而標題信息無疑是最重要的，其次是meta信息，最后才是網頁內容，BM25F在計算相關性的，會將網頁分為不用的區域，在各個區域分別統計自己的詞頻。

所以BM25F模型的計算公式為：

BM25F的第1部分還是BIM的值。

其中與BM25主要的差別體現在因子上，它是單詞

上面的公式表示:

文檔

各個域對應的權重為

轉載于:https://www.cnblogs.com/bentuwuying/p/6730891.html

總結

以上是生活随笔為你收集整理的概率检索模型：BIM+BM25+BM25F的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： [BZOJ1097][POI2007]旅
下一篇： AD账号创建日期、最近一次登录时间、最近