當(dāng)前位置：首頁(yè) >

IR领域标准

發(fā)布時(shí)間：2025/4/14 48 豆豆

生活随笔收集整理的這篇文章主要介紹了 IR领域标准小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

信息檢索評(píng)價(jià)是對(duì)信息檢索系統(tǒng)性能（主要滿足用戶信息需求的能力）進(jìn)行評(píng)估的活動(dòng)。通過(guò)評(píng)估可以評(píng)價(jià)不同技術(shù)的優(yōu)劣，不同因素對(duì)系統(tǒng)的影響，從而促進(jìn)本領(lǐng)域研究水平的不斷提高。信息檢索系統(tǒng)的目標(biāo)是較少消耗情況下盡快、全面返回準(zhǔn)確的結(jié)果。

IR的評(píng)價(jià)指標(biāo)，通常分為三個(gè)方面：
（1）效率(Efficiency)—可以采用通常的評(píng)價(jià)方法：時(shí)間開銷、空間開銷、響應(yīng)速度。
（2）效果(Effectiveness)：返回的文檔中有多少相關(guān)文檔、所有相關(guān)文檔中返回了多少、返回得靠不靠前。
（3）其他指標(biāo)：覆蓋率(Coverage)、訪問量、數(shù)據(jù)更新速度。

如何評(píng)價(jià)不同檢索系統(tǒng)的效果呢？一般是針對(duì)相同的文檔集合，相同的查詢主題集合，相同的評(píng)價(jià)指標(biāo)，不同的檢索系統(tǒng)進(jìn)行比較。相關(guān)的評(píng)測(cè)系統(tǒng)有：
（1）The Cranfield Experiments, Cyril W. Cleverdon, 1957 –1968 (上百篇文檔集合)
（2）SMART System,Gerald Salton, 1964-1988 (數(shù)千篇文檔集合)
（3）TREC(Text Retrieval Conference), Donna Harman, 美國(guó)標(biāo)準(zhǔn)技術(shù)研究所, 1992 -(上百萬(wàn)篇文檔)，信息檢索的“奧運(yùn)會(huì)”

信息檢索的評(píng)價(jià)指標(biāo)可以分為兩類：
（1）對(duì)單個(gè)查詢進(jìn)行評(píng)估的指標(biāo)：對(duì)單個(gè)查詢得到一個(gè)結(jié)果
（2）對(duì)多個(gè)查詢進(jìn)行評(píng)估的指標(biāo)（通常用于對(duì)系統(tǒng)的評(píng)價(jià)）：求平均

一、單個(gè)查詢的評(píng)價(jià)指標(biāo)
P&R
召回率(Recall)=檢出的相關(guān)文檔數(shù)/相關(guān)文檔數(shù)，也稱為查全率，R∈[0,1]
準(zhǔn)確率(Precision)=檢出的相關(guān)文檔數(shù)/檢出文檔數(shù)，也稱為查準(zhǔn)率，P∈[0,1]
假設(shè)：文本集中所有文獻(xiàn)已進(jìn)行了檢查

關(guān)于召回率的計(jì)算
（1）對(duì)于大規(guī)模語(yǔ)料集合，列舉每個(gè)查詢的所有相關(guān)文檔是不可能的事情，因此，不可能準(zhǔn)確地計(jì)算召回率
（2）緩沖池(Pooling)方法：對(duì)多個(gè)檢索系統(tǒng)的Top N個(gè)結(jié)果組成的集合進(jìn)行標(biāo)注，標(biāo)注出的相關(guān)文檔集合作為整個(gè)相關(guān)文檔集合。這種做法被驗(yàn)證是可行的，在TREC會(huì)議中被廣泛采用。

雖然Precision和Recall都很重要，但是不同的應(yīng)用、不用的用戶可能會(huì)對(duì)兩者的要求不一樣。因此，實(shí)際應(yīng)用中應(yīng)該考慮這點(diǎn)。
（1）垃圾郵件過(guò)濾：寧愿漏掉一些垃圾郵件，但是盡量少將正常郵件判定成垃圾郵件。
（2）有些用戶希望返回的結(jié)果全一點(diǎn)，他有時(shí)間挑選；有些用戶希望返回結(jié)果準(zhǔn)一點(diǎn)，他不需要結(jié)果很全就能完成任務(wù)。

F值和E值
（1）F值：召回率R和正確率P的調(diào)和平均值，if P=0 or R=0, then F=0, else 采用下式計(jì)算：

或者公式：

F值也被稱為F1值（F1 measure），因?yàn)閞ecall和precision的權(quán)重一樣。
更通用的公式如下：

其中F2值（更重視召回率）和F0.5值（更重視準(zhǔn)確率）也是非常常用的指標(biāo)值。

（2）E值：召回率R和正確率P的加權(quán)平均值，b>1表示更重視P

或者公式：

F和E的關(guān)系如下：

引入序的作用

R-Precision：計(jì)算序列中前R個(gè)位置文獻(xiàn)的準(zhǔn)確率。R指與當(dāng)前查詢相關(guān)的文獻(xiàn)總數(shù)。

P-R曲線
P-R曲線是正確率-召回率曲線(precision versus recall curve)。檢索結(jié)果以排序方式排列，用戶不可能馬上看到全部文檔，因此，在用戶觀察的過(guò)程中，正確率和召回率在不斷變化(vary)。可以求出在召回率分別為：0%,10%,20%,30%,…, 90%,100%上對(duì)應(yīng)的正確率，然后描出圖像。
某個(gè)查詢q的標(biāo)準(zhǔn)答案集合為：Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}
某個(gè)IR系統(tǒng)對(duì)q的檢索結(jié)果如下：

繪成曲線圖如下：

P-R曲線的插值問題，對(duì)于前面的例子，假設(shè)Rq={d3,d56,d129}
（1）3. d56 R=0.33,P=0.33;8. d129 R=0.66, P=0.25; 15. d3 R=1,P=0.2
（2）不存在10%, 20%,…,90%的召回率點(diǎn)，而只存在33.3%, 66.7%, 100%三個(gè)召回率點(diǎn)
（3）在這種情況下，需要利用存在的召回率點(diǎn)對(duì)不存在的召回率點(diǎn)進(jìn)行插值(interpolate)
（4）對(duì)于t%，如果不存在該召回率點(diǎn)，則定義t%為從t%到(t+10)%中最大的正確率值。
（5）對(duì)于上例，0%,10%,20%,30%上正確率為0.33，40%~60%對(duì)應(yīng)0.25，70%以上對(duì)應(yīng)0.2

P-R曲線的優(yōu)點(diǎn)：簡(jiǎn)單直觀；既考慮了檢索結(jié)果的覆蓋度，又考慮了檢索結(jié)果的排序情況
P-R曲線的缺點(diǎn)：單個(gè)查詢的P-R曲線雖然直觀，但是難以明確表示兩個(gè)查詢的檢索結(jié)果的優(yōu)劣。

P-R曲線如何可以轉(zhuǎn)化為單一指標(biāo)呢？一般有兩種方法：
（1）Break Point：P-R曲線上P=R的那個(gè)點(diǎn)。這樣可以直接進(jìn)行單值比較
（2）11點(diǎn)平均正確率(11 point average precision)：在召回率分別為0,0.1,0.2,…,1.0的十一個(gè)點(diǎn)上的正確率求平均，等價(jià)于插值的AP。

AP
平均正確率(Average Precision, AP)：對(duì)不同召回率點(diǎn)上的正確率進(jìn)行平均。
（1）未插值的AP: 某個(gè)查詢Q共有6個(gè)相關(guān)結(jié)果，某系統(tǒng)排序返回了5篇相關(guān)文檔，其位置分別是第1，第2，第5，第10，第20位，則AP=(1/1+2/2+3/5+4/10+5/20+0)/6
（2）插值的AP:在召回率分別為0,0.1,0.2,…,1.0的十一個(gè)點(diǎn)上的正確率求平均，等價(jià)于11點(diǎn)平均
（3）只對(duì)返回的相關(guān)文檔進(jìn)行計(jì)算的AP, AP=(1/1+2/2+3/5+4/10+5/20)/5，傾向那些快速返回結(jié)果的系統(tǒng)，沒有考慮召回率。

不考慮召回率情況下，單個(gè)查詢?cè)u(píng)價(jià)指標(biāo)還有：
（1）Precision@N：在第N個(gè)位置上的正確率，對(duì)于搜索引擎，考慮到大部分作者只關(guān)注前一、兩頁(yè)的結(jié)果，P@10,?P@20對(duì)大規(guī)模搜索引擎非常有效
（2）NDCG：后面詳細(xì)介紹。
（3）Bpref：Binary preference，2005年首次引入到TREC的Terabyte任務(wù)中。

NDCG
每個(gè)文檔不僅僅只有相關(guān)和不相關(guān)兩種情況，而是有相關(guān)度級(jí)別，比如0,1,2,3。我們可以假設(shè)，對(duì)于返回結(jié)果：相關(guān)度級(jí)別越高的結(jié)果越多越好；相關(guān)度級(jí)別越高的結(jié)果越靠前越好。
NDCG(Normalized Discounted Cumulative Gain)：計(jì)算相對(duì)復(fù)雜。對(duì)于排在結(jié)位置n處的NDCG的計(jì)算公式如下圖所示：

在MAP中，四個(gè)文檔和query要么相關(guān)，要么不相關(guān)，也就是相關(guān)度非0即1。NDCG中改進(jìn)了下，相關(guān)度分成從0到r的r+1的等級(jí)(r可設(shè)定)。當(dāng)取r=5時(shí)，等級(jí)設(shè)定如下圖所示：（應(yīng)該還有r=1那一級(jí)，原文檔有誤，不過(guò)這里不影響理解。當(dāng)然注意Value這一項(xiàng)，咱們也可以直接定義分值，如0-3分值。求了2方實(shí)際上把Value的差異變大了，便于對(duì)比評(píng)測(cè)）

例如現(xiàn)在有一個(gè)query={abc}，返回下圖左列的Ranked List(URL)，當(dāng)假設(shè)用戶的選擇與排序結(jié)果無(wú)關(guān)（即每一級(jí)都等概率被選中），則生成的累計(jì)增益值（從1到n的所有的位置上的貢獻(xiàn)值都被加起來(lái)作為最終的評(píng)價(jià)結(jié)果，這樣，一個(gè)一定長(zhǎng)度的文檔序列被轉(zhuǎn)換成了一個(gè)相關(guān)分值的序列）。如下圖最右列所示：

考慮到一般情況下用戶會(huì)優(yōu)先點(diǎn)選排在前面的搜索結(jié)果，所以應(yīng)該引入一個(gè)折算因子(discounting factor): log(2)/log(1+rank)。（也就是1/log2(1+rank)）。這時(shí)將獲得DCG值(Discounted Cumulative Gain)如下如所示：

最后，為了使不同等級(jí)上的搜索結(jié)果的得分值容易比較，需要將DCG值歸一化的到NDCG值。操作如下圖所示，首先計(jì)算理想返回結(jié)果List的DCG值：

然后用DCG/MaxDCG就得到NDCG值，如下圖所示：

畫出圖如下：

NDCG優(yōu)點(diǎn)：圖形直觀，易解釋；支持非二值的相關(guān)度定義，比P-R曲線更精確；能夠反映用戶的行為特征(如：用戶的持續(xù)性persistence)
NDCG缺點(diǎn)：相關(guān)度的定義難以一致；需要參數(shù)設(shè)定。

Bpref
Bpref(Binary preference)，2005年首次引入到TREC的Terabyte任務(wù)中。只考慮對(duì)返回結(jié)果列表中的經(jīng)過(guò)判斷后的文檔進(jìn)行評(píng)價(jià)。在相關(guān)性判斷完整的情況下，bpref具有與MAP相一致的評(píng)價(jià)結(jié)果。在測(cè)試集相關(guān)性判斷不完全的情況下，bpref依然具有很好的應(yīng)用（比MAP更好）。這個(gè)評(píng)價(jià)指標(biāo)主要關(guān)心不相關(guān)文檔在相關(guān)文檔之前出現(xiàn)的次數(shù)。具體公式為：

其中，對(duì)每個(gè)Topic，已判定結(jié)果中有R個(gè)相關(guān)結(jié)果。r 是相關(guān)文檔，n是Top R篇不相關(guān)文檔集合的子集。（n ranked higher than r是指當(dāng)前相關(guān)結(jié)果項(xiàng)之前有n個(gè)不相關(guān)的結(jié)果）

下面舉個(gè)例子來(lái)說(shuō)明bpref的性能，假設(shè)檢索結(jié)果集S為：
S ={D1 ,D2 ?,D3 * ,D4 * ,D5 ?,D6 ,D7 ?,D8 ,D9 ,D10 }
其中D2、D5 和D7是相關(guān)文檔，D3 和D4為未經(jīng)判斷的文檔。
對(duì)這個(gè)例子來(lái)說(shuō)，R=3; bpref= 1/3 [(1 -1/3) + (1 -1/3) + (1 -2/3)]。

二、多個(gè)查詢的評(píng)價(jià)指標(biāo)
多個(gè)查詢的評(píng)價(jià)指標(biāo)，一般就是對(duì)單個(gè)查詢的評(píng)價(jià)進(jìn)行求平均。平均的求法一般有兩種：
（1）宏平均（Macro Average）：對(duì)每個(gè)查詢求出某個(gè)指標(biāo)，然后對(duì)這些指標(biāo)進(jìn)行算術(shù)平均
（2）微平均（Micro Average）：將所有查詢視為一個(gè)查詢，將各種情況的文檔總數(shù)求和，然后進(jìn)行指標(biāo)的計(jì)算
例如：Micro Precision=（對(duì)所有查詢檢出的相關(guān)文檔總數(shù))/(對(duì)所有查詢檢出的文檔總數(shù))
宏平均對(duì)所有查詢一視同仁，微平均受返回相關(guān)文檔數(shù)目比較大的查詢影響。
宏平均和微平均的例子：
兩個(gè)查詢q1、q2的標(biāo)準(zhǔn)答案數(shù)目分別為100個(gè)和50個(gè)，某系統(tǒng)對(duì)q1檢索出80個(gè)結(jié)果，其中正確數(shù)目為40，系統(tǒng)對(duì)q2檢索出30個(gè)結(jié)果，其中正確數(shù)目為24，則：
P1=40/80=0.5, R1=40/100=0.4
P2=24/30=0.8, R2=24/50=0.48
MacroP=(P1+P2)/2=0.65
MacroR=(R1+R2)/2=0.44
MicroP=(40+24)/(80+30)=0.58
MicroR=(40+24)/(100+50)=0.43

MAP
MAP(MeanAP：Mean Average Precision)：對(duì)所有查詢的AP求宏平均。具體而言，單個(gè)主題的平均準(zhǔn)確率是每篇相關(guān)文檔檢索出后的準(zhǔn)確率的平均值。主集合的平均準(zhǔn)確率(MAP)是每個(gè)主題的平均準(zhǔn)確率的平均值。MAP 是反映系統(tǒng)在全部相關(guān)文檔上性能的單值指標(biāo)。系統(tǒng)檢索出來(lái)的相關(guān)文檔越靠前(rank 越高)，MAP就可能越高。如果系統(tǒng)沒有返回相關(guān)文檔，則準(zhǔn)確率默認(rèn)為0。
多個(gè)查詢下的查準(zhǔn)率/查全率曲線，可通過(guò)計(jì)算其平均查準(zhǔn)率得到，公式如下(Nq為查詢的數(shù)量) ：

P(r) 是指查全率為r時(shí)的平均查準(zhǔn)率, Pi(r)指查全率為r時(shí)的第i個(gè)查詢的查準(zhǔn)率 .

例如：假設(shè)有兩個(gè)主題，主題1有4個(gè)相關(guān)網(wǎng)頁(yè)，主題2有5個(gè)相關(guān)網(wǎng)頁(yè)。某系統(tǒng)對(duì)于主題1檢索出4個(gè)相關(guān)網(wǎng)頁(yè)，其rank分別為1, 2, 4, 7；對(duì)于主題2檢索出3個(gè)相關(guān)網(wǎng)頁(yè)，其rank分別為1,3,5。對(duì)于主題1，平均準(zhǔn)確率為(1/1+2/2+3/4+4/7)/4=0.83。對(duì)于主題2，平均準(zhǔn)確率為(1/1+2/3+3/5+0+0)/5=0.45。則MAP= (0.83+0.45)/2=0.64。”

MRR
MRR(Mean Reciprocal Rank) ：對(duì)于某些IR系統(tǒng)（如問答系統(tǒng)或主頁(yè)發(fā)現(xiàn)系統(tǒng)），只關(guān)心第一個(gè)標(biāo)準(zhǔn)答案返回的位置(Rank)，越前越好，這個(gè)位置的倒數(shù)稱為RR，對(duì)問題集合求平均，則得到MRR。（把標(biāo)準(zhǔn)答案在被評(píng)價(jià)系統(tǒng)給出結(jié)果中的排序取倒數(shù)作為它的準(zhǔn)確度，再對(duì)所有的問題取平均）
例子：兩個(gè)問題，系統(tǒng)對(duì)第一個(gè)問題返回的標(biāo)準(zhǔn)答案的Rank是2，對(duì)第二個(gè)問題返回的標(biāo)準(zhǔn)答案的Rank是4，則系統(tǒng)的MRR為(1/2+1/4)/2=3/8
再舉個(gè)例子：有3個(gè)query如下圖所示：（黑體為返回結(jié)果中最匹配的一項(xiàng)）

可計(jì)算這個(gè)系統(tǒng)的MRR值為：(1/3 + 1/2 + 1)/3 = 11/18=0.61。

GMAP
GMAP(Geometric MAP)：TREC2004 Robust 任務(wù)引進(jìn)。
先看一個(gè)例子：從MAP（宏平均）來(lái)看，系統(tǒng)A好于系統(tǒng)B，但是從每個(gè)查詢來(lái)看，3個(gè)查詢中有2個(gè)Topic B比A有提高，其中一個(gè)提高的幅度達(dá)到300%。

因此，我們計(jì)算幾何平均值：

例子中：GMAPa=0.056，GMAPb=0.086。GMAPa<GMAPb
GMAP和MAP各有利弊，可以配合使用，如果存在難Topic時(shí)，GMAP更能體現(xiàn)細(xì)微差別。

三、面向用戶的評(píng)價(jià)指標(biāo)
前面的指標(biāo)都沒有考慮用戶因素。而相關(guān)不相關(guān)由用戶判定。假定用戶已知的相關(guān)文檔集合為U，檢索結(jié)果和U的交集為Ru，則可以定義覆蓋率（Coverage) C=|Ru|/|U|，表示系統(tǒng)找到的用戶已知的相關(guān)文檔比例。假定檢索結(jié)果中返回一些用戶以前未知的相關(guān)文檔Rk，則可以定義出新穎率（Novelty Ratio）N=|Rk|/(|Ru|+|Rk|)，表示系統(tǒng)返回的新相關(guān)文檔的比例。
相對(duì)查全率：檢索系統(tǒng)檢索出的相關(guān)文檔數(shù)量與用戶期望得到的相關(guān)文檔的數(shù)量的比例。
查全努力：用戶期望得到的相關(guān)文檔與為了得到這些相關(guān)文檔而在檢索結(jié)果中審查文檔數(shù)量的比率。

圖示覆蓋率和新穎率

四、評(píng)價(jià)指標(biāo)總結(jié)
最基本的評(píng)價(jià)指標(biāo)：召回率、準(zhǔn)確率
不足：
1、一些評(píng)價(jià)指標(biāo)，如R-Precision，MAP，P@10等，都只考慮經(jīng)過(guò)Pooling技術(shù)之后判斷的相關(guān)文檔的排序。
2、對(duì)判斷不相關(guān)文檔與未經(jīng)判斷的文檔的差別并沒有考慮。
3、測(cè)試集越來(lái)越大，由于相關(guān)性判斷還基本上是人工判斷，因此建立完整的相關(guān)性判斷變得越來(lái)越難。

參考資料：
http://wenku.baidu.com/view/1c6fb7d7b9f3f90f76c61b74.html
http://en.wikipedia.org/wiki/Precision_and_recall
http://www.cnblogs.com/eyeszjwang/articles/2368087.html

轉(zhuǎn)載請(qǐng)注明出處：互聯(lián)網(wǎng)旁觀者～黃言之?http://blog.sina.com.cn/netreview/

總結(jié)

以上是生活随笔為你收集整理的IR领域标准的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：基本SQL
下一篇：【推荐】LSI(latent seman

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

IR领域标准

總結(jié)