概率检索模型:BIM+BM25+BM25F
1. 概率排序原理
以往的向量空間模型是將query和文檔使用向量表示然后計算其內容相似性來進行相關性估計的,而概率檢索模型是一種直接對用戶需求進行相關性的建模方法,一個query進來,將所有的文檔分為兩類 --?相關文檔、不相關文檔,這樣就轉為了一個相關性的分類問題。
對于某個文檔D來說,P(R|D)表示該文檔數據相關文檔的概率,則P(NR|D)表示該文檔屬于不相關文檔的概率,如果query屬于相關文檔的概率大于不相關文檔P(R|D)>P(NR|D),則認為這個文檔是與用戶查詢相關相關的。
現在使用貝葉斯公式將其轉一下:
在搜索排序過程中不需要真正的分類,只需要保證相關性由高到底排序即可,所以只需要P(D|R) /?P(D|NR)降序即可,
這樣就最終轉為計算P(D|R),P(D|NR)的值即可。
?
2. 二元獨立模型(BIM)
為了能夠使得上述兩個計算因子可行,二元獨立模型做出了兩個假設:
1. 二元假設
類似于布爾模型中的文檔表示方法,一篇文檔在由特征(或者單詞)進行表示的時候,以特征(或者單詞)出現和不出現兩種情況來表示,不考慮詞頻等其他因素。
2. 詞匯獨立性假設
指文檔里出現的單詞之間沒有任何關聯,任意一個單詞在文檔的分布概率不依賴于其他單詞是否出現。因為詞匯之間沒有關聯,所以可以將文檔概率轉換為單詞概率的乘積。
上述提到的文檔D表示為{1,0,1,0,1},用pi來表示第i個單詞在相關文檔出現的概率,則在已知相關文檔集合的情況下,觀察到D的概率為:
第1,3,5表示這個單詞在D中出現,所以其貢獻概率為pi,而第2,4這兩個單詞并沒有在D中出現,所以其貢獻的概率為1?pi。
同理在不相關文檔中觀察到的概率為:
最終得到的相關性概率估算為:
現在將其推廣之后可以有通用的式子:
di=1表示在文檔中出現的單詞,di=0表示沒在文檔中出現的單詞。
在這里進一步對上述公式進行等價變換之后有:
其中上面式子第三步的第二部分表示各個單詞在所有文檔中出現的概率,所以這個式子的值和具體文檔并沒有什么關系,在排序中不起作用,才可以簡化到第4步。
為了方便計算,將上述連乘公式取log:
有了上述最終可計算的式子之后,我們就只需要統計文檔D中的各個單詞在相關文檔/不相關文檔中出現的概率即可:
上面的表格表示各個單詞在文檔集合中的相關文檔/不相關文檔出現數量,同時為了避免log(0)出現,加上平滑之后可以計算得到:
則最終可以得到如下公式:
其代表的含義是:對于同時出現在用戶查詢Q和文檔D中的單詞,累加每個單詞的估值,其和就是文檔D和查詢的相關性度量。
在不確定哪些文檔是相關的,哪些文檔是不相關的的時候,可以給公式的估算因子直接賦予固定值,則該公式將會退化為IDF因子。
?
3. BM25模型
BIM模型基于二元獨立假設推導而出,即對于單詞特征,只考慮是否在文檔中出現過,而不考慮單詞的權值。BM25模型在BIM模型的基礎上,考慮了單詞在查詢中的權值及單詞在文檔中的權值,擬合出綜合上述考慮因素的公式,并通過實驗引入一些經驗參數。
BM25模型的具體計算公式如下所示:
上面的式子中:
綜合來看,BM25模型計算公式其實融合了4個考慮因素:IDF因子,文檔長度因子,文檔詞頻,和查詢詞頻。并對3個自由調節因子(k1,k2,b)進行權值的調整。
例子:
假設當前以“喬布斯 IPAD2”這個查詢詞為例,來計算在某文檔D中BM25相關性的值,由于不知道文檔集中相關與不相關的分類,所以這里直接將相關文檔個數r置為0,則將得到的BIM因子為:
其他數值假定如下:
則最終可以計算到的BM25結果為:
每個文檔按上述公式計算得到相關性排序即可。
?
4. BM25F模型
在BM25模型中,文檔被當做一個整體進行進行詞頻的統計,而忽視了不同區域的重要性,BM25F模型正是抓住了這點進行了相應的改進。
BM25F模型在計算相關性時候,會對文檔分割成不同的域來進行加權統計,非常適用于網頁搜索,因為在一個網頁有標題信息、meta信息、頁面內容信息等,而標題信息無疑是最重要的,其次是meta信息,最后才是網頁內容,BM25F在計算相關性的,會將網頁分為不用的區域,在各個區域分別統計自己的詞頻。
所以BM25F模型的計算公式為:
BM25F的第1部分還是BIM的值。
其中與BM25主要的差別體現在因子上,它是單詞i在各個區域不同的得分,計算公式如下:
?
上面的公式表示:
?
?
?
?
?
轉載于:https://www.cnblogs.com/bentuwuying/p/6730891.html
總結
以上是生活随笔為你收集整理的概率检索模型:BIM+BM25+BM25F的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [BZOJ1097][POI2007]旅
- 下一篇: AD账号创建日期、最近一次登录时间、最近