日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

概率检索模型:BIM+BM25+BM25F

發(fā)布時間:2024/4/17 编程问答 54 豆豆
生活随笔 收集整理的這篇文章主要介紹了 概率检索模型:BIM+BM25+BM25F 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1. 概率排序原理

以往的向量空間模型是將query和文檔使用向量表示然后計算其內(nèi)容相似性來進行相關(guān)性估計的,而概率檢索模型是一種直接對用戶需求進行相關(guān)性的建模方法,一個query進來,將所有的文檔分為兩類 --?相關(guān)文檔、不相關(guān)文檔,這樣就轉(zhuǎn)為了一個相關(guān)性的分類問題。

對于某個文檔D來說,P(R|D)表示該文檔數(shù)據(jù)相關(guān)文檔的概率,則P(NR|D)表示該文檔屬于不相關(guān)文檔的概率,如果query屬于相關(guān)文檔的概率大于不相關(guān)文檔P(R|D)>P(NR|D),則認(rèn)為這個文檔是與用戶查詢相關(guān)相關(guān)的。

現(xiàn)在使用貝葉斯公式將其轉(zhuǎn)一下:

在搜索排序過程中不需要真正的分類,只需要保證相關(guān)性由高到底排序即可,所以只需要P(D|R) /?P(D|NR)降序即可,
這樣就最終轉(zhuǎn)為計算P(D|R),P(D|NR)的值即可。

?

2. 二元獨立模型(BIM)

為了能夠使得上述兩個計算因子可行,二元獨立模型做出了兩個假設(shè):

1. 二元假設(shè)

類似于布爾模型中的文檔表示方法,一篇文檔在由特征(或者單詞)進行表示的時候,以特征(或者單詞)出現(xiàn)和不出現(xiàn)兩種情況來表示,不考慮詞頻等其他因素。

2. 詞匯獨立性假設(shè)

指文檔里出現(xiàn)的單詞之間沒有任何關(guān)聯(lián),任意一個單詞在文檔的分布概率不依賴于其他單詞是否出現(xiàn)。因為詞匯之間沒有關(guān)聯(lián),所以可以將文檔概率轉(zhuǎn)換為單詞概率的乘積。

上述提到的文檔D表示為{1,0,1,0,1},用pi來表示第i個單詞在相關(guān)文檔出現(xiàn)的概率,則在已知相關(guān)文檔集合的情況下,觀察到D的概率為:

第1,3,5表示這個單詞在D中出現(xiàn),所以其貢獻概率為pi,而第2,4這兩個單詞并沒有在D中出現(xiàn),所以其貢獻的概率為1?pi。

同理在不相關(guān)文檔中觀察到的概率為:

最終得到的相關(guān)性概率估算為:

現(xiàn)在將其推廣之后可以有通用的式子:

di=1表示在文檔中出現(xiàn)的單詞,di=0表示沒在文檔中出現(xiàn)的單詞。

在這里進一步對上述公式進行等價變換之后有:

其中上面式子第三步的第二部分表示各個單詞在所有文檔中出現(xiàn)的概率,所以這個式子的值和具體文檔并沒有什么關(guān)系,在排序中不起作用,才可以簡化到第4步。

為了方便計算,將上述連乘公式取log:

有了上述最終可計算的式子之后,我們就只需要統(tǒng)計文檔D中的各個單詞在相關(guān)文檔/不相關(guān)文檔中出現(xiàn)的概率即可:

上面的表格表示各個單詞在文檔集合中的相關(guān)文檔/不相關(guān)文檔出現(xiàn)數(shù)量,同時為了避免log(0)出現(xiàn),加上平滑之后可以計算得到:

則最終可以得到如下公式:

其代表的含義是:對于同時出現(xiàn)在用戶查詢Q和文檔D中的單詞,累加每個單詞的估值,其和就是文檔D和查詢的相關(guān)性度量。

在不確定哪些文檔是相關(guān)的,哪些文檔是不相關(guān)的的時候,可以給公式的估算因子直接賦予固定值,則該公式將會退化為IDF因子。

?

3. BM25模型

BIM模型基于二元獨立假設(shè)推導(dǎo)而出,即對于單詞特征,只考慮是否在文檔中出現(xiàn)過,而不考慮單詞的權(quán)值。BM25模型在BIM模型的基礎(chǔ)上,考慮了單詞在查詢中的權(quán)值及單詞在文檔中的權(quán)值,擬合出綜合上述考慮因素的公式,并通過實驗引入一些經(jīng)驗參數(shù)。

BM25模型的具體計算公式如下所示:

上面的式子中:

  • 第1個組成部分即為上一小節(jié)的二元獨立模型BIM計算得分,如果賦予一些默認(rèn)值的話,等價于IDF因子的作用。
  • 第2個組成部分是查詢詞在文檔D中的權(quán)值,其中fi代表了單詞在文檔D中的詞頻,K因子代表了對文檔長度的考慮,其計算公式為
  • k1為經(jīng)驗參數(shù),作用是對查詢詞在文檔中的詞頻進行調(diào)節(jié)。如果設(shè)為0,則第2部分整體變?yōu)?,即不考慮詞頻的因素,退化成了BIM模型;如果設(shè)為較大值,則第2部分計算因子基本與詞頻fi保持線性增長,即放大了詞頻的權(quán)值。根據(jù)經(jīng)驗,一般講k1設(shè)置為1.2。
  • b為調(diào)節(jié)因子,將b設(shè)為0時,文檔長度因素將不起作用,經(jīng)驗表明一般b=0.75。
  • dl代表當(dāng)前文檔D的長度。
  • avdl代表文檔集合中所有文檔的平均長度。
  • 第3個組成部分是查詢詞自身的權(quán)值,qfi表示查詢詞在用戶查詢中的詞頻,如果查詢較短小的話,這個值一般是1,k2也為調(diào)節(jié)因子,是針對查詢中的詞頻進行調(diào)節(jié),因為查詢往往很短,所以不同查詢詞的詞頻都很小,詞頻之間差異不大,為了放大這部分的差異,k2一般取值為0~1000。
  • 綜合來看,BM25模型計算公式其實融合了4個考慮因素:IDF因子,文檔長度因子,文檔詞頻,和查詢詞頻。并對3個自由調(diào)節(jié)因子(k1,k2,b)進行權(quán)值的調(diào)整。

    例子:

    假設(shè)當(dāng)前以“喬布斯 IPAD2”這個查詢詞為例,來計算在某文檔D中BM25相關(guān)性的值,由于不知道文檔集中相關(guān)與不相關(guān)的分類,所以這里直接將相關(guān)文檔個數(shù)r置為0,則將得到的BIM因子為:

    其他數(shù)值假定如下:

  • 文檔的集合總數(shù):N=100000
  • 包含喬布斯的文檔個數(shù)為:n=1000
  • 包含IPAD2的文檔個數(shù)為:nIPAD2=100
  • 文檔D中出現(xiàn)喬布斯的詞頻為:f=8
  • 文檔DD中出現(xiàn)IPAD2的詞頻為:fIPAD2=8
  • 查詢詞頻均為:qfi=1
  • 調(diào)節(jié)因子k1=1.2k
  • 調(diào)節(jié)因子k2=200
  • 調(diào)節(jié)因子b=0.75
  • 設(shè)文檔D的長度為平均長度的1.5倍(dl/avdl=1.5),即K=1.2×(0.25+0.75×1.5)=1.65
  • 則最終可以計算到的BM25結(jié)果為:

    每個文檔按上述公式計算得到相關(guān)性排序即可。

    ?

    4. BM25F模型

    在BM25模型中,文檔被當(dāng)做一個整體進行進行詞頻的統(tǒng)計,而忽視了不同區(qū)域的重要性,BM25F模型正是抓住了這點進行了相應(yīng)的改進。

    BM25F模型在計算相關(guān)性時候,會對文檔分割成不同的域來進行加權(quán)統(tǒng)計,非常適用于網(wǎng)頁搜索,因為在一個網(wǎng)頁有標(biāo)題信息、meta信息、頁面內(nèi)容信息等,而標(biāo)題信息無疑是最重要的,其次是meta信息,最后才是網(wǎng)頁內(nèi)容,BM25F在計算相關(guān)性的,會將網(wǎng)頁分為不用的區(qū)域,在各個區(qū)域分別統(tǒng)計自己的詞頻。

    所以BM25F模型的計算公式為:

    BM25F的第1部分還是BIM的值。

    其中與BM25主要的差別體現(xiàn)在因子上,它是單詞i在各個區(qū)域不同的得分,計算公式如下:

    ?

    上面的公式表示:

  • 文檔D來個不同的u個域
  • 各個域?qū)?yīng)的權(quán)重為Wk
  • fui為第i個單詞在各個域中的?fui /?Bu?的加權(quán)和
  • fui表示詞頻
  • Bu表示各個域的長度情況
  • ulu為實際域的實際長度,uvulu表示域的平均長度
  • bu則為各個域長度的調(diào)節(jié)因子
  • ?

    ?

    ?

    ?

    ?

    轉(zhuǎn)載于:https://www.cnblogs.com/bentuwuying/p/6730891.html

    總結(jié)

    以上是生活随笔為你收集整理的概率检索模型:BIM+BM25+BM25F的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。